يتم تسريع استدلال GPU بمقدار 4 مرات ، وسياق 256K هو الأطول في العالم: سجلت Wuwen Core Dome رقما قياسيا جديدا لتحسين النموذج الكبير

巴比特_

2023-11-06 05:05:05

تريد كسب المال مع نماذج كبيرة؟ قرر هذا الوجه الجديد القوي خفض تكلفة التفكير أولا.

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

كم من المال يحرقه نموذج الأعمال على نطاق واسع؟ منذ بعض الوقت ، قدم تقرير في صحيفة وول ستريت جورنال إجابة مرجعية.

وفقا للتقرير ، فإن أعمال GitHub Copilot من Microsoft (المدعومة بنموذج GPT من OpenAI) تتقاضى 10 دولارات شهريا ، لكنها لا تزال تكلف في المتوسط 20 دولارا لكل مستخدم. يواجه مقدمو الخدمات الذكاء الاصطناعي تحديات اقتصادية كبيرة - فهذه الخدمات ليست مكلفة فحسب ، بل إن تشغيلها مكلف للغاية أيضا.

شبهها أحدهم ب “استخدام الذكاء الاصطناعي لتلخيص رسالة بريد إلكتروني يشبه مطالبة سيارة لامبورغيني بتوصيل بيتزا”.

قام OpenAI بحساب حساب أكثر تفصيلا لهذا: عندما يكون طول السياق 8K ، تكون تكلفة كل رمز إدخال 1K 3 سنتات ، وتكلفة الإخراج 6 سنتات. حاليا ، لدى OpenAI 180 مليون مستخدم ويتلقى أكثر من 10 ملايين استفسار يوميا. بهذه الطريقة ، من أجل تشغيل نموذج مثل ChatGPT ، يحتاج OpenAI إلى استثمار حوالي 7 ملايين دولار يوميا في أجهزة الحوسبة الضرورية ، والتي يمكن القول إنها باهظة الثمن بشكل مخيف.

يعد تقليل تكلفة الاستدلال على LLMs أمرا ضروريا ، كما أن زيادة سرعة الاستدلال هي مسار حرج مثبت. **

في الواقع ، اقترح مجتمع البحث عددا من التقنيات لتسريع مهام الاستدلال LLM ، بما في ذلك DeepSpeed و FlexGen و vLLM و OpenPPL و FlashDecoding و TensorRT-LLM. بطبيعة الحال ، هذه التقنيات لها أيضا مزاياها وعيوبها. من بينها ، FlashDecoding هي طريقة حديثة اقترحها مؤلفو FlashAttention و Tri Dao et al. من فريق جامعة ستانفورد الشهر الماضي ، مما يحسن بشكل كبير من سرعة الاستدلال على LLMs عن طريق تحميل البيانات بالتوازي ، ويعتبر أن لديه إمكانات كبيرة. ولكن في الوقت نفسه ، فإنه يقدم بعض النفقات الحسابية غير الضرورية ، لذلك لا يزال هناك مجال كبير للتحسين.

لحل المشكلة بشكل أكبر ، اقترح فريق مشترك من Infinigence-الذكاء الاصطناعي وجامعة Tsinghua وجامعة Shanghai Jiao Tong مؤخرا طريقة جديدة ، FlashDecoding ++ ، والتي لا تجلب فقط تسارعا أكبر من الطريقة السابقة (يمكن تسريع استدلال GPU بمقدار 2-4x) ، ولكن الأهم من ذلك ، يدعم كل من وحدات معالجة الرسومات NVIDIA و AMD! فكرتها الأساسية هي تحقيق التوازي الحقيقي في حساب الانتباه من خلال نهج غير متزامن ، وتسريع الحساب في مرحلة فك التشفير لتحسين منتج المصفوفة “المكتنزة”. **

عنوان:

** يسرع الاستدلال GPU بمقدار 2-4x ، **

كيف يقوم FlashDecoding++ بذلك؟ **

تتمثل مهمة الاستدلال LLM بشكل عام في إدخال جزء من النص (الرمز المميز) ، والاستمرار في إنشاء نص أو أشكال أخرى من المحتوى من خلال حساب نموذج LLM.

يمكن تقسيم حساب الاستدلال ل LLM إلى مرحلتين: الملء المسبق وفك التشفير ، حيث تولد مرحلة الملء المسبق الرمز المميز الأول من خلال فهم نص الإدخال ؛ في مرحلة فك التشفير ، يتم إخراج الرموز المميزة اللاحقة بالتتابع. في المرحلتين ، يمكن تقسيم حساب استدلال LLM إلى جزأين رئيسيين: حساب الانتباه وحساب ضرب المصفوفة.

بالنسبة لحوسبة الانتباه ، يقوم العمل الحالي ، مثل FlashDecoding ، بتنفيذ التحميل المتوازي للبيانات مع مشغل softmax في تجزئة حوسبة الانتباه. تقدم هذه الطريقة 20٪ من النفقات الحسابية في حسابات الانتباه بسبب الحاجة إلى مزامنة القيم القصوى في أجزاء مختلفة من softmax. بالنسبة لحسابات ضرب المصفوفة ، في مرحلة فك التشفير ، تظهر مصفوفات الضرب الأيسر في الغالب كمصفوفات “مكتنزة” ، أي أن عدد الصفوف ليس كبيرا بشكل عام (على سبيل المثال ، < = 8) ، ويوسع محرك الاستدلال LLM الحالي عدد الصفوف إلى 64 من خلال استكمال 0 لتسريعه بواسطة بنية مثل Tensor Cores ، مما ينتج عنه عدد كبير من الحسابات غير الصالحة (مضروبة في 0).

من أجل حل المشكلات المذكورة أعلاه ، فإن الفكرة الأساسية ل “FlashDecoding ++” هي تحقيق التوازي الحقيقي لحساب الانتباه من خلال طرق غير متزامنة ، وتسريع الحساب في مرحلة فك التشفير لتحسين ضرب مصفوفة “Humpty Dumpty”. **

** حسابات Softmax الجزئية المتوازية غير المتزامنة **

* الشكل 1 حساب Softmax للقسم المتوازي غير المتزامن

أدخل العمل السابق القيمة القصوى لكل جزء من حساب softmax كعامل مقياس لتجنب تجاوز تجاوز الأس e في حساب softmax ، مما أدى إلى زيادة تزامن الأجزاء المختلفة من حساب softmax (الشكل 1 (أ) (ب)).

* الشكل 2 التوزيع الإحصائي لقيم إدخال Softmax *

يشير “FlashDecoding++” إلى أنه بالنسبة لمعظم LLMs ، يكون توزيع مدخلات softmax أكثر تركيزا. كما هو موضح في الشكل 2 ، يتركز أكثر من 99.99٪ من مدخلات softmax ل Llama2-7B في النطاق [-16.8 ، 6.5]. لذلك ، يقترح “FlashDecoding++” استخدام قيمة قصوى ثابتة لبعض حسابات softmax (الشكل 1 (ج)) ، وبالتالي تجنب التزامن المتكرر بين حسابات softmax المختلفة. عندما يكون الإدخال ذو الاحتمال الصغير خارج النطاق المحدد ، فإن حساب softmax لهذا الجزء من “FlashDecoding++” يتحول إلى طريقة الحساب الأصلية.

** هامبتي دمبتي مصفوفة المنتج الأمثل **

* الشكل 3 مصفوفة الضرب الحدباء وآلية التخزين المؤقت المزدوج *

نظرا لأن الإدخال إلى مرحلة فك التشفير هو واحد أو عدة متجهات رمزية ، فإن منتج المصفوفة لتلك المرحلة يتصرف في شكل “مكتنز”. خذ المصفوفة A ×B = C كمثال ، حيث يكون شكل المصفوفات A و B هو M × K و K×N ، وتضرب مصفوفة “Humpty Dumpty” M عندما تكون M أصغر. يشير “FlashDecoding++” إلى أن مصفوفة “Humpty Dumpty” محدودة بذاكرة التخزين المؤقت العامة ، ويقترح طرق تحسين مثل آلية ذاكرة التخزين المؤقت المزدوجة لتسريعها (الشكل 3).

الشكل 4 تنفيذ ضرب المصفوفة التكيفية

بالإضافة إلى ذلك ، يشير “FlashDecoding++” كذلك إلى أنه في مرحلة الاستدلال LLM ، يتم إصلاح قيم N و K لنموذج معين. لذلك ، يختار “FlashDecoding++” بشكل تكيفي التنفيذ الأمثل لمنتج المصفوفة وفقا لحجم M.

** يسرع الاستدلال GPU بنسبة 2-4x **

* الشكل 5 “FlashDecoding++” NVIDIA مقابل استدلال LLM لمنصة AMD (طراز Llama2-7B ، حجم الدفعة = 1) *

حاليا ، يمكن ل FlashDecoding ++ تسريع استدلال LLM على الواجهة الخلفية لوحدات معالجة الرسومات المتعددة ، مثل NVIDIA و AMD (الشكل 5). من خلال تسريع إنشاء الرمز المميز الأول في مرحلة الملء المسبق وسرعة توليد كل رمز مميز في مرحلة فك التشفير ، يمكن ل “FlashDecoding++” تسريع إنشاء النصوص الطويلة والقصيرة. ** يعمل FlashDecoding++ على تسريع الاستدلال بمعدل 37٪ على NVIDIA A100 مقارنة ب FlashDecoding ، وما يصل إلى 2-4x أسرع من Hugging Face على NVIDIA وخلفيات AMD متعددة وحدات معالجة الرسومات. **

** الذكاء الاصطناعي نموذج كبير لريادة الأعمال الصاعد: قبة Wuwen الأساسية **

المؤلفون الثلاثة المشاركون في الدراسة هم الدكتور داي جوهاو ، كبير العلماء في قبة ووين الأساسية وأستاذ مشارك في جامعة شنغهاي جياو تونغ ، هونغ كي ، متدرب باحث في قبة ووين الأساسية وطالب ماجستير في جامعة تسينغهوا ، وشو جيامينغ ، متدرب باحث في قبة ووين الأساسية وطالب دكتوراه في جامعة شنغهاي جياو تونغ. المؤلفان المراسلان هما البروفيسور داي جوهاو من جامعة شنغهاي جياو تونغ والبروفيسور وانغ يو ، عميد قسم الهندسة الإلكترونية بجامعة تسينغهوا.

تأسست في مايو 2023 ، والهدف هو إنشاء أفضل حل لدمج البرامج والأجهزة للطرز الكبيرة ، وتم دمج FlashDecoding ++ في محرك حوسبة النموذج الكبير “** Infini-ACC **”. بدعم من “Infini-ACC” ، تقوم Wuwen Core Dome بتطوير سلسلة من حلول تكامل البرامج والأجهزة واسعة النطاق ، بما في ذلك ** نموذج واسع النطاق “Infini-Megrez **” ، ** آلة الكل في واحد للبرامج والأجهزة ** ، إلخ.

من المفهوم أن “Infini-Megrez” كان أداؤه جيدا للغاية في التعامل مع النصوص الطويلة ، مما زاد من طول النص الذي يمكن معالجته إلى رمز قياسي يبلغ 256 ألف ** ، والمعالجة الفعلية لحوالي 400000 كلمة من “مشكلة الأجسام الثلاثة 3: الموت الأبدي” ليست مشكلة. هذا هو أطول طول نص يمكن معالجته بواسطة نموذج كبير اليوم.

بالإضافة إلى ذلك ، حقق نموذج “Infini-Megrez” الكبير أداء خوارزمية من الدرجة الأولى على مجموعات البيانات مثل C (متوسط) و MMLU (الإنجليزية) و CMMLU (متوسط) و AGI ، وهو يتطور باستمرار بناء على محرك الحوسبة “Infini-ACC”.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2