Certains chercheurs ont découvert que le modèle Yi-34B de Kai-Fu Lee adopte essentiellement l’architecture de LLaMA, mais renomme deux tenseurs. En réponse, « Zero One Everything » a donné une réponse officielle.
Il y a quelque temps, un nouveau modèle a été introduit dans le domaine des grands modèles open-source - la taille de la fenêtre contextuelle dépassait 200k, et le « Yi » qui peut traiter 400 000 caractères chinois à la fois.
Ce modèle à grande échelle est construit par la société de modèles réduits à grande échelle « Zero One Everything » fondée par Kai-Fu Lee, président de Sinovation Ventures et CE0, et comprend deux versions : Yi-6B et Yi-34B.
Selon la plate-forme communautaire open source anglaise Hugging Face et la liste d’évaluation C-Chinois, le Yi-34B a obtenu un certain nombre de reconnaissances internationales de l’indice de performance SOTA lors de son lancement, devenant le « double champion » des grands modèles open source mondiaux, battant LLaMA2 et Falcon et d’autres concurrents open source.
Le Yi-34B est également devenu le seul modèle domestique à avoir réussi à se hisser en tête du classement mondial des modèles open source de Hugging Face à l’époque, le qualifiant de « modèle open source le plus puissant au monde ».
Récemment, cependant, certains chercheurs ont découvert que le modèle Yi-34B adopte essentiellement l’architecture de LLaMA, mais renomme les deux tenseurs.
Lien d’origine :
Le message indique également :
code du Yi-34B est en fait une refonte du code LLaMA, mais il ne semble pas avoir changé quoi que ce soit de substantiel. Ce modèle est clairement basé sur le fichier LLaMA original d’Apache version 2.0, mais ne mentionne pas LLaMA :
Comparaison du code Yi vs LLaMA. Lien de code :
De plus, ces modifications de code ne sont pas soumises au projet transformers via une pull request, mais sont ajoutées en tant que code externe, ce qui peut constituer un risque de sécurité ou ne pas être pris en charge par le framework. Le classement HuggingFace ne comparera même pas ce modèle avec une fenêtre contextuelle allant jusqu’à 200K, car il n’a pas de stratégie de code personnalisée.
Ils prétendent qu’il s’agit d’un modèle 32K, mais il est configuré comme un modèle 4K, il n’y a pas de configuration de mise à l’échelle RoPE et il n’y a aucune explication sur la façon de mettre à l’échelle (note : Zero One Thousand Things a précédemment déclaré que le modèle lui-même avait été entraîné sur une séquence de 4K, mais qu’il pouvait être mis à l’échelle à 32K pendant la phase d’inférence). À l’heure actuelle, il n’y a aucune information sur ses données de mise au point. Ils ne fournissent pas non plus d’instructions pour reproduire leurs benchmarks, y compris les scores élevés suspects de MMLU.
Quiconque a travaillé dans le domaine de l’IA pendant un certain temps ne fermera pas les yeux sur cela. S’agit-il d’une fausse propagande, d’une violation de licence, d’une véritable tricherie de référence, d’un changement de journal ou dans ce cas, d’un investissement total. Yi est au moins au-dessus de la norme car c’est le modèle de base, et les performances sont vraiment bonnes.
Et il y a quelques jours, dans la communauté Zero One Everything Huggingface, un développeur a également souligné :
Pour autant que nous le sachions, Yi utilise entièrement l’architecture de LLaMA, à l’exception de deux tenseurs qui ont été renommés. (entrée_layernorm, post_attention_layernorm)
Au cours de la discussion, certains internautes ont déclaré que s’ils utilisaient exactement l’architecture, la base de code et toutes les ressources connexes de Meta LLaMA, ils devaient se conformer à l’accord de licence stipulé par LLaMA.
Afin de se conformer à la licence open source de LLaMA, un développeur a changé son nom et l’a remis sur hugggingface :
01-ai/Yi-34B, les tenseurs ont été renommés pour correspondre au code de modèle standard LLaMA. Liens connexes :
En voyant cela, nous savons également quelle entreprise Jia Yangqing, qui a quitté Ali pour créer une entreprise il y a quelques jours, a mentionnée dans le cercle d’amis.
En réponse à cette question, le cœur de la machine a également vérifié les choses zéro et un. Zero One Thing a répondu :
GPT est une architecture bien établie et reconnue dans l’industrie, et LLaMA la résume sur GPT. La conception structurelle du modèle de R&D est basée sur la structure mature de GPT, s’appuyant sur les meilleures réalisations publiques de l’industrie, et beaucoup de travail a été effectué sur la base de la compréhension du modèle et de la formation par l’équipe de Zero One Everything, qui est l’une des bases de notre première version et d’excellents résultats. Dans le même temps, Zero One Everything continue également d’explorer la percée essentielle au niveau structurel du modèle.
structure du modèle n’est qu’une partie de l’entraînement du modèle. Les efforts de Yi en matière de modélisation open source dans d’autres aspects, tels que l’ingénierie des données, les méthodes de formation, la garde d’enfants, les paramètres d’hyperparamètres, les méthodes d’évaluation et la profondeur de la compréhension de la nature des indicateurs d’évaluation, la profondeur de la recherche sur les principes des capacités de généralisation des modèles et les meilleures infrastructures d’IA de l’industrie capacités, etc., beaucoup de travail de R&D et de fondation a été investi, ce qui peut souvent jouer un rôle et une valeur plus importants que la structure de base, qui est également le fossé technologique de base de zéro 10 choses dans la phase de pré-formation des grands modèles.
Dans le processus d’un grand nombre d’expériences d’entraînement, le code a été renommé en raison de la nécessité d’une exécution expérimentale, et nous avons respecté les commentaires de la communauté open source, mis à jour le code et mieux intégré dans l’écosystème Transformer.
Nous sommes très reconnaissants pour les commentaires de la communauté, nous ne faisons que commencer dans la communauté open source, et nous espérons travailler avec vous pour créer une communauté prospère, et Yi Open-source fera de son mieux pour continuer à s’améliorer.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Basé sur LLaMA mais en changeant le nom du tenseur, le grand modèle de Kai-Fu Lee a suscité la controverse, et la réponse officielle est venue
Source originale : Heart of the Machine
Il y a quelque temps, un nouveau modèle a été introduit dans le domaine des grands modèles open-source - la taille de la fenêtre contextuelle dépassait 200k, et le « Yi » qui peut traiter 400 000 caractères chinois à la fois.
Ce modèle à grande échelle est construit par la société de modèles réduits à grande échelle « Zero One Everything » fondée par Kai-Fu Lee, président de Sinovation Ventures et CE0, et comprend deux versions : Yi-6B et Yi-34B.
Selon la plate-forme communautaire open source anglaise Hugging Face et la liste d’évaluation C-Chinois, le Yi-34B a obtenu un certain nombre de reconnaissances internationales de l’indice de performance SOTA lors de son lancement, devenant le « double champion » des grands modèles open source mondiaux, battant LLaMA2 et Falcon et d’autres concurrents open source.
Récemment, cependant, certains chercheurs ont découvert que le modèle Yi-34B adopte essentiellement l’architecture de LLaMA, mais renomme les deux tenseurs.
Le message indique également :
Et il y a quelques jours, dans la communauté Zero One Everything Huggingface, un développeur a également souligné :
En voyant cela, nous savons également quelle entreprise Jia Yangqing, qui a quitté Ali pour créer une entreprise il y a quelques jours, a mentionnée dans le cercle d’amis.