Основанная на LLaMA, но изменившая название тензора, большая модель Кай-Фу Ли вызвала споры, и последовал официальный ответ

Первоисточник: Heart of the Machine

Источник изображения: Generated by Unbounded AI

Некоторые исследователи обнаружили, что модель Yi-34B Кай-Фу Ли в основном использует архитектуру LLaMA, но переименовывает два тензора. В ответ «Zero One Everything» дал официальный ответ.

Некоторое время назад появилась новая модель в области больших моделей с открытым исходным кодом - размер контекстного окна превысил 200 тыс., а “Yi” может обрабатывать 400 000 китайских иероглифов за раз.

Эта крупномасштабная модель построена крупномасштабной модельной компанией «Zero One Everything», основанной Кай-Фу Ли, председателем Sinovation Ventures и CE0, и включает в себя две версии: Yi-6B и Yi-34B.

Согласно английской платформе с открытым исходным кодом Hugging Face и оценочному списку C-Chinese, Yi-34B получил ряд международных наград SOTA за лучший индекс производительности, став «двойным чемпионом» среди глобальных больших моделей с открытым исходным кодом, обойдя LLaMA2 и Falcon и других конкурентов с открытым исходным кодом.

Yi-34B также стала единственной отечественной моделью, которая в то время успешно возглавила глобальный рейтинг моделей с открытым исходным кодом Hugging Face, назвав ее «самой сильной моделью с открытым исходным кодом в мире».

Недавно, однако, некоторые исследователи обнаружили, что модель Yi-34B в основном принимает архитектуру LLaMA, но переименовывает два тензора.

Ссылка на оригинал:

В посте также говорится:

Код Yi-34B на самом деле является рефакторингом кода LLaMA, но, похоже, он не изменил ничего существенного. Эта модель явно основана на оригинальном файле Apache версии 2.0 LLaMA, но не упоминает LLaMA:

Сравнение кода Yi и LLaMA. Кодовая ссылка:

Кроме того, эти изменения кода не передаются в проект transformers через запрос на вытягивание, а добавляются как внешний код, который может представлять угрозу безопасности или не поддерживаться платформой. Таблица лидеров HuggingFace даже не будет сравнивать эту модель с контекстным окном до 200 тысяч, потому что у нее нет стратегии пользовательского кода.

Они утверждают, что это модель 32K, но она настроена как модель 4K, нет конфигурации масштабирования RoPE и нет объяснения того, как масштабироваться (примечание: Zero One Thousand Things ранее заявляли, что сама модель была обучена на последовательности 4K, но ее можно масштабировать до 32K на этапе вывода). На данный момент нет никакой информации о его данных тонкой настройки. Они также не предоставляют инструкций по воспроизведению своих тестов, включая подозрительные высокие баллы MMLU.

Любой, кто хоть какое-то время работал в сфере ИИ, не закроет на это глаза. Является ли это лживой пропагандой? нарушением лицензии? фактическим жульничеством бенчмарков? Какая разница? Поменяйте следующую бумагу или, в данном случае, заберите все венчурные деньги. Yi, по крайней мере, выше нормы, потому что это базовая модель, и производительность действительно хорошая.

А несколько дней назад в сообществе Zero One Everything Huggingface разработчик также отметил:

Насколько нам известно, Yi полностью использует архитектуру LLaMA, за исключением двух тензоров, которые были переименованы. (вход_layernorm, пост_attention_layernorm)

В ходе дискуссии некоторые пользователи сети заявили, что если они точно используют архитектуру Meta LLaMA, кодовую базу и все связанные с ней ресурсы, им необходимо соблюдать лицензионное соглашение, предусмотренное LLaMA.

Чтобы соответствовать лицензии LLaMA с открытым исходным кодом, один разработчик изменил ее название обратно и вернул ее на huggingface:

01-ai/Yi-34B, тензоры были переименованы в соответствии со стандартным кодом модели LLaMA. Ссылки по теме:

Видя это, мы также знаем, какую компанию Цзя Янцин, который несколько дней назад ушел от Али, чтобы начать бизнес, упоминал в кругу друзей.

В ответ на этот вопрос сердце машины также проверило ноль и единицу. Zero One Thing ответил:

GPT — это хорошо зарекомендовавшая себя архитектура, признанная в отрасли, и LLaMA обобщает ее на GPT. Структурный дизайн модели R&D основан на зрелой структуре GPT, опирающейся на лучшие общественные достижения отрасли, и была проделана большая работа, основанная на понимании модели и обучении команды Zero One Everything, что является одной из основ для нашего первого релиза и отличных результатов. В то же время Zero One Everything также продолжает исследовать существенный прорыв на структурном уровне модели.

структура модели — это только одна часть обучения модели. Усилия Йи по созданию моделей с открытым исходным кодом в других аспектах, таких как инженерия данных, методы обучения, присмотр за детьми, настройки гиперпараметров, методы оценки, а также глубина понимания природы индикаторов оценки, глубина исследований принципов возможностей обобщения моделей и лучшая в отрасли инфраструктура искусственного интеллекта возможности и т. д., было вложено много научно-исследовательских и опытно-конструкторских работ, которые часто могут играть большую роль и ценность, чем базовая структура, которая также является основным технологическим рвом из ноль 10 вещей на стадии предварительного обучения больших моделей.

В процессе большого количества обучающих экспериментов код был переименован в связи с необходимостью экспериментального выполнения, и мы с уважением отнеслись к отзывам сообщества open source, обновили код и лучше интегрировали в экосистему Transformer.

Мы очень благодарны за обратную связь от сообщества, мы только начинаем свой путь в сообществе с открытым исходным кодом, и мы надеемся работать с вами, чтобы создать процветающее сообщество, и Yi Open-source сделает все возможное, чтобы продолжать совершенствоваться.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев