Некоторые исследователи обнаружили, что модель Yi-34B Кай-Фу Ли в основном использует архитектуру LLaMA, но переименовывает два тензора. В ответ «Zero One Everything» дал официальный ответ.
Некоторое время назад появилась новая модель в области больших моделей с открытым исходным кодом - размер контекстного окна превысил 200 тыс., а “Yi” может обрабатывать 400 000 китайских иероглифов за раз.
Эта крупномасштабная модель построена крупномасштабной модельной компанией «Zero One Everything», основанной Кай-Фу Ли, председателем Sinovation Ventures и CE0, и включает в себя две версии: Yi-6B и Yi-34B.
Согласно английской платформе с открытым исходным кодом Hugging Face и оценочному списку C-Chinese, Yi-34B получил ряд международных наград SOTA за лучший индекс производительности, став «двойным чемпионом» среди глобальных больших моделей с открытым исходным кодом, обойдя LLaMA2 и Falcon и других конкурентов с открытым исходным кодом.
Yi-34B также стала единственной отечественной моделью, которая в то время успешно возглавила глобальный рейтинг моделей с открытым исходным кодом Hugging Face, назвав ее «самой сильной моделью с открытым исходным кодом в мире».
Недавно, однако, некоторые исследователи обнаружили, что модель Yi-34B в основном принимает архитектуру LLaMA, но переименовывает два тензора.
Ссылка на оригинал:
В посте также говорится:
Код Yi-34B на самом деле является рефакторингом кода LLaMA, но, похоже, он не изменил ничего существенного. Эта модель явно основана на оригинальном файле Apache версии 2.0 LLaMA, но не упоминает LLaMA:
Сравнение кода Yi и LLaMA. Кодовая ссылка:
Кроме того, эти изменения кода не передаются в проект transformers через запрос на вытягивание, а добавляются как внешний код, который может представлять угрозу безопасности или не поддерживаться платформой. Таблица лидеров HuggingFace даже не будет сравнивать эту модель с контекстным окном до 200 тысяч, потому что у нее нет стратегии пользовательского кода.
Они утверждают, что это модель 32K, но она настроена как модель 4K, нет конфигурации масштабирования RoPE и нет объяснения того, как масштабироваться (примечание: Zero One Thousand Things ранее заявляли, что сама модель была обучена на последовательности 4K, но ее можно масштабировать до 32K на этапе вывода). На данный момент нет никакой информации о его данных тонкой настройки. Они также не предоставляют инструкций по воспроизведению своих тестов, включая подозрительные высокие баллы MMLU.
Любой, кто хоть какое-то время работал в сфере ИИ, не закроет на это глаза. Является ли это лживой пропагандой? нарушением лицензии? фактическим жульничеством бенчмарков? Какая разница? Поменяйте следующую бумагу или, в данном случае, заберите все венчурные деньги. Yi, по крайней мере, выше нормы, потому что это базовая модель, и производительность действительно хорошая.
А несколько дней назад в сообществе Zero One Everything Huggingface разработчик также отметил:
Насколько нам известно, Yi полностью использует архитектуру LLaMA, за исключением двух тензоров, которые были переименованы. (вход_layernorm, пост_attention_layernorm)
В ходе дискуссии некоторые пользователи сети заявили, что если они точно используют архитектуру Meta LLaMA, кодовую базу и все связанные с ней ресурсы, им необходимо соблюдать лицензионное соглашение, предусмотренное LLaMA.
Чтобы соответствовать лицензии LLaMA с открытым исходным кодом, один разработчик изменил ее название обратно и вернул ее на huggingface:
01-ai/Yi-34B, тензоры были переименованы в соответствии со стандартным кодом модели LLaMA. Ссылки по теме:
Видя это, мы также знаем, какую компанию Цзя Янцин, который несколько дней назад ушел от Али, чтобы начать бизнес, упоминал в кругу друзей.
В ответ на этот вопрос сердце машины также проверило ноль и единицу. Zero One Thing ответил:
GPT — это хорошо зарекомендовавшая себя архитектура, признанная в отрасли, и LLaMA обобщает ее на GPT. Структурный дизайн модели R&D основан на зрелой структуре GPT, опирающейся на лучшие общественные достижения отрасли, и была проделана большая работа, основанная на понимании модели и обучении команды Zero One Everything, что является одной из основ для нашего первого релиза и отличных результатов. В то же время Zero One Everything также продолжает исследовать существенный прорыв на структурном уровне модели.
структура модели — это только одна часть обучения модели. Усилия Йи по созданию моделей с открытым исходным кодом в других аспектах, таких как инженерия данных, методы обучения, присмотр за детьми, настройки гиперпараметров, методы оценки, а также глубина понимания природы индикаторов оценки, глубина исследований принципов возможностей обобщения моделей и лучшая в отрасли инфраструктура искусственного интеллекта возможности и т. д., было вложено много научно-исследовательских и опытно-конструкторских работ, которые часто могут играть большую роль и ценность, чем базовая структура, которая также является основным технологическим рвом из ноль 10 вещей на стадии предварительного обучения больших моделей.
В процессе большого количества обучающих экспериментов код был переименован в связи с необходимостью экспериментального выполнения, и мы с уважением отнеслись к отзывам сообщества open source, обновили код и лучше интегрировали в экосистему Transformer.
Мы очень благодарны за обратную связь от сообщества, мы только начинаем свой путь в сообществе с открытым исходным кодом, и мы надеемся работать с вами, чтобы создать процветающее сообщество, и Yi Open-source сделает все возможное, чтобы продолжать совершенствоваться.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Основанная на LLaMA, но изменившая название тензора, большая модель Кай-Фу Ли вызвала споры, и последовал официальный ответ
Первоисточник: Heart of the Machine
Некоторое время назад появилась новая модель в области больших моделей с открытым исходным кодом - размер контекстного окна превысил 200 тыс., а “Yi” может обрабатывать 400 000 китайских иероглифов за раз.
Эта крупномасштабная модель построена крупномасштабной модельной компанией «Zero One Everything», основанной Кай-Фу Ли, председателем Sinovation Ventures и CE0, и включает в себя две версии: Yi-6B и Yi-34B.
Согласно английской платформе с открытым исходным кодом Hugging Face и оценочному списку C-Chinese, Yi-34B получил ряд международных наград SOTA за лучший индекс производительности, став «двойным чемпионом» среди глобальных больших моделей с открытым исходным кодом, обойдя LLaMA2 и Falcon и других конкурентов с открытым исходным кодом.
Недавно, однако, некоторые исследователи обнаружили, что модель Yi-34B в основном принимает архитектуру LLaMA, но переименовывает два тензора.
В посте также говорится:
А несколько дней назад в сообществе Zero One Everything Huggingface разработчик также отметил:
Видя это, мы также знаем, какую компанию Цзя Янцин, который несколько дней назад ушел от Али, чтобы начать бизнес, упоминал в кругу друзей.