استنادا إلى LLaMA ولكن تغيير اسم الموتر ، تسبب نموذج Kai-Fu Lee الكبير في جدل ، وجاء الرد الرسمي

2023-11-15 06:38:25

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

وجد بعض الباحثين أن نموذج Yi-34B الخاص ب Kai-Fu Lee يتبنى بشكل أساسي بنية LLaMA ، لكنه يعيد تسمية موترين. ردا على ذلك ، قدم “Zero One Everything” ردا رسميا.

منذ بعض الوقت ، تم إدخال نموذج جديد في مجال النماذج الكبيرة مفتوحة المصدر - تجاوز حجم نافذة السياق 200 ألف ، و “Yi” التي يمكنها معالجة 400000 حرف صيني في المرة الواحدة.

تم بناء هذا النموذج واسع النطاق من قبل شركة النماذج واسعة النطاق “Zero One Everything” التي أسسها Kai-Fu Lee ، رئيس Sinovation Ventures و CE0 ، ويتضمن نسختين: Yi-6B و Yi-34B.

وفقا لمنصة مجتمع Hugging Face English مفتوحة المصدر وقائمة تقييم C-Chinese ، حققت Yi-34B عددا من الاعتراف الدولي بمؤشر الأداء الدولي SOTA عند إطلاقها ، لتصبح “البطل المزدوج” للنماذج العالمية مفتوحة المصدر الكبيرة ، متغلبة على LLaMA2 و Falcon وغيرها من منافسي المصادر المفتوحة.

أصبح Yi-34B أيضا النموذج المحلي الوحيد الذي تصدر بنجاح تصنيف نموذج Hugging Face العالمي مفتوح المصدر في ذلك الوقت ، واصفا إياه بأنه “أقوى نموذج مفتوح المصدر في العالم”.

ومع ذلك ، اكتشف بعض الباحثين مؤخرا أن نموذج Yi-34B يعتمد بشكل أساسي بنية LLaMA ، لكنه يعيد تسمية الموترين.

الرابط الأصلي:

وينص المنشور أيضا على ما يلي:

رمز Yi-34B هو في الواقع إعادة بناء لرمز LLaMA ، ولكن لا يبدو أنه قد غير أي شيء بشكل كبير. يعتمد هذا النموذج بوضوح على ملف Apache الإصدار 2.0 LLaMA الأصلي ، لكنه لا يذكر LLaMA:

* مقارنة رمز يي مقابل LLaMA. رابط الرمز:*

بالإضافة إلى ذلك ، لا يتم تقديم تغييرات التعليمات البرمجية هذه إلى مشروع المحولات عبر طلب سحب ، ولكن يتم إلحاقها كرمز خارجي ، مما قد يمثل خطرا أمنيا أو لا يدعمه إطار العمل. لن تقوم لوحة المتصدرين HuggingFace حتى بقياس هذا النموذج بنافذة سياق تصل إلى 200 ألف لأنه لا يحتوي على استراتيجية رمز مخصصة.

يزعمون أن هذا نموذج 32K ، ولكن تم تكوينه كنموذج 4K ، ولا يوجد تكوين تحجيم RoPE ، ولا يوجد تفسير لكيفية القياس (ملاحظة: ذكر Zero One Thousand Things سابقا أن النموذج نفسه تم تدريبه على تسلسل 4K ، ولكن يمكن تحجيمه إلى 32K خلال مرحلة الاستدلال). في الوقت الحالي ، لا توجد معلومات حول بيانات الضبط الدقيقة. كما أنهم لا يقدمون تعليمات لتكرار معاييرهم ، بما في ذلك الدرجات العالية المشبوهة في MMLU.

أي شخص عمل في الفضاء الذكاء الاصطناعي لفترة من الوقت لن يغض الطرف عن هذا. هل هذه دعاية كاذبة؟ انتهاكات الترخيص؟ الغش القياسي الفعلي؟ من يهتم؟ قم بتغيير الورقة التالية ، أو في هذه الحالة ، خذ كل أموال المشروع. Yi على الأقل فوق القاعدة لأنه النموذج الأساسي ، والأداء جيد حقا.

وقبل بضعة أيام ، في مجتمع Zero One Everything Huggingface ، أشار أحد المطورين أيضا:

على حد علمنا ، يستخدم Yi بنية LLaMA بالكامل ، باستثناء اثنين من الموترات التي تمت إعادة تسميتها. (الإدخال \ _layernorm ، ما بعد \ _attention \ _layernorm)

خلال المناقشة ، قال بعض مستخدمي الإنترنت إنهم إذا استخدموا بنية Meta LLaMA وقاعدة التعليمات البرمجية وجميع الموارد ذات الصلة بالضبط ، فإنهم بحاجة إلى الامتثال لاتفاقية الترخيص المنصوص عليها في LLaMA.

من أجل الامتثال لترخيص LLaMA مفتوح المصدر ، قام أحد المطورين بتغيير اسمه مرة أخرى ووضعه مرة أخرى على وجه المعانقة:

* 01-ai / Yi-34B ، تمت إعادة تسمية الموترات لتتناسب مع رمز طراز LLaMA القياسي. روابط ذات صلة:*

عند رؤية هذا ، نعرف أيضا الشركة التي ذكرها جيا يانغ تشينغ ، الذي غادر علي لبدء عمل تجاري قبل بضعة أيام ، في دائرة الأصدقاء.

استجابة لهذا الأمر ، تحقق قلب الآلة أيضا من الأشياء الصفرية وواحدة. صفر شيء واحد أجاب:

GPT هي بنية راسخة معترف بها في الصناعة ، وتلخصها LLaMA على GPT. يعتمد التصميم الهيكلي لنموذج البحث والتطوير على الهيكل الناضج ل GPT ، بالاعتماد على أهم الإنجازات العامة في الصناعة ، وقد تم إنجاز الكثير من العمل بناء على فهم النموذج والتدريب من قبل فريق Zero One Everything ، وهو أحد أسس إصدارنا الأول والنتائج الممتازة. في الوقت نفسه ، تواصل Zero One Everything أيضا استكشاف الاختراق الأساسي على المستوى الهيكلي للنموذج.

هيكل النموذج هو جزء واحد فقط من التدريب النموذجي. جهود نموذج Yi مفتوح المصدر في جوانب أخرى ، مثل هندسة البيانات ، وطرق التدريب ، ومجالسة الأطفال ، وإعدادات المعلمات الفائقة ، وطرق التقييم ، وعمق فهم طبيعة مؤشرات التقييم ، وعمق البحث حول مبادئ قدرات تعميم النموذج ، وأفضل الذكاء الاصطناعي في الصناعة Infra القدرات ، وما إلى ذلك ، تم استثمار الكثير من أعمال البحث والتطوير والتأسيس ، والتي يمكن أن تلعب في كثير من الأحيان دورا وقيمة أكبر من الهيكل الأساسي ، وهو أيضا خندق التكنولوجيا الأساسي لصفر 10 أشياء في مرحلة ما قبل التدريب للنماذج الكبيرة.

في عملية عدد كبير من التجارب التدريبية ، تمت إعادة تسمية الكود بسبب الحاجة إلى التنفيذ التجريبي ، واحترمنا ملاحظات مجتمع المصادر المفتوحة ، وقمنا بتحديث الكود ، ودمجنا بشكل أفضل في النظام البيئي للمحول.

نحن ممتنون جدا للتعليقات الواردة من المجتمع ، لقد بدأنا للتو في مجتمع المصادر المفتوحة ، ونأمل أن نعمل معك لإنشاء مجتمع مزدهر ، وستبذل Yi Open-source قصارى جهدها لمواصلة التحسين.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.