DeepSeek مرة أخرى يُطلق عليه "ذبح أسعار" لكن هذه المرة لا يقتصر على الأسعار فقط

المؤلف: شاوجينغ

توكن يعيد تشكيل قيمية عصر الذكاء الاصطناعي، إصدار معاينة DeepSeek V4، مرة أخرى أصبح “ذبح الأسعار”، لكنه جلب معه موضوعات جديدة حول تسعير التوكن. نفس كمية التوكن، في أنظمة مختلفة، يمكن أن تكلف بشكل فعلي بمقدار ترتيب من حيث الحجم، والنماذج الكبيرة تتجه نحو تسعير على مستوى النظام.

أخيرًا، إصدار معاينة DeepSeek V4، مرة أخرى خفضت أسعار النماذج الكبيرة، وهذا يتوافق تمامًا مع “خصائص” DeepSeek.

سعر V4-Flash: إدخال 1 يوان، إخراج 2 يوان / مليون توكن، بعد استدعاء الذاكرة المؤقتة، الإدخال فقط 0.2 يوان؛ سعر V4-Pro: إدخال 12 يوان، إخراج 24 يوان / مليون توكن، بعد استدعاء الذاكرة المؤقتة، الإدخال 1 يوان، مع عرض خصم مؤقت بنسبة 75% حتى 5 مايو. كلا النموذجين يدعمان بشكل أصلي سياق مليون توكن.

في نهاية هذا الأسبوع، يستمر عرض DeepSeek-V4-Pro المحدود، حيث يتم تخفيض السعر إلى 25%، مع خصم على سعر الإدخال بعد استدعاء الذاكرة المؤقتة بنسبة 10%. قال مهندس ذكاء اصطناعي بشكل ساخر: “بعد نهاية الأسبوع، يقترب سعر DeepSeek-V4-Pro من أن يكون مجانياً، بفارق 0.025 يوان”.

حتى الآن، مر عامان كاملان على بداية حرب الأسعار التي بدأت مع DeepSeek V2 في عام 2024. خلال هذين العامين، شهدت تكاليف استنتاج النماذج الكبيرة انخفاضًا بمعدل أسي، مع انخفاض فعلي بعد احتساب استدعاء الذاكرة المؤقتة وغيرها من العوامل، بمقدار مئات المرات.

لكن اليوم، فإن خفض الأسعار يحمل أهمية أكبر مما كان عليه سابقًا. لقد تحولت الذكاء الاصطناعي إلى نمط وكيل يركز على المهام المعقدة طويلة المدى، حيث تتطلب مهمة واحدة عشرات أو مئات من استدعاءات النموذج.

في سياق الصناعة هذا، يصاحب إصدار معاينة DeepSeek V4 أيضًا معلومتان مهمتان: أولاً، أصبح السياق المليون هو المعيار الأصلي للنموذجين؛ ثانيًا، تم التأكيد على سعر الذاكرة المؤقتة، مع خصم إضافي. مع تداخل أسعار الإدخال والإخراج، تم دفعها إلى الحد الأدنى من مستوى النموذج، بهدف تقليل إجمالي فاتورة مهمة الوكيل إلى أدنى مستوى تنافسي.


نظام أسعار جديد للتوكنات

بالنظر إلى انخفاض الأسعار في 2024، فإن الجوهر هو أن النماذج الكبيرة أصبحت أدوات قابلة للاستخدام بدلاً من تجارب مكلفة. في البداية، بفضل الابتكارات في الهيكلية، زادت كفاءة الاستنتاج، وانخفض سعر استدعاء النموذج من 10 إلى 30 دولارًا لكل مليون توكن في عصر GPT-4، بسرعة إلى مستوى دولار واحد.

رسم: انخفاض مؤشر سعر التوكن خلال العامين الماضيين

هذه ظاهرة “انخفاض السعر المطلق”: يمكن للمطورين استدعاء النماذج الكبيرة بتكلفة منخفضة، وبدأت التطبيقات الحقيقية تتفتح. لكن في تلك المرحلة، كان السعر لا يزال مرتبطًا بـ"تكلفة الاستدعاء الواحد"، حيث يُنظر إلى التوكن كوحدة تسعير موحدة، وعدد الاستدعاءات مرتبط بشكل خطي بالتكلفة.

بعد عامين، تغيرت بنية سعر DeepSeek V4 أيضًا. مع دخول آلية التخزين المؤقت (الكاش) إلى نظام التسعير السائد، بدأ التوكن يُقسّم إلى نوعين من التكاليف: “حساب جديد” و"حساب مكرر". في سيناريوهات ذات معدل استدعاء ذاكرة مؤقتة مرتفع، يمكن أن ينخفض سعر الإدخال نفسه إلى عُشر أو أقل من ذلك. أصبح السعر من سعر ثابت إلى متغير مرتبط بشكل كبير بتصميم النظام.

رسم: التوكن يُقسّم إلى “حساب جديد” و"حساب مكرر"

إذا نظرنا فقط إلى السعر المعلن، فإن V4 لا يزال يتبع استراتيجية السعر المنخفض المعتادة لـ DeepSeek. في السوق المحلية، تتراوح أسعار نماذج مثل عليا تومين، Zhiyu GLM، Kimi من 1 إلى 4 يوانات للإدخال، ومن 4 إلى 12 يوانًا للإخراج، بينما سعر V4-Flash هو 1 يوان للإدخال و2 يوان للإخراج، وهو ثلث إلى ربع متوسط سعر الصناعة.

نسخة Pro بسعر 12 و24 يوانًا تقترب من سعر الطراز الرائد، لكن السياق بمليون توكن هو قدرة افتراضية وليست خيارًا إضافيًا. على مستوى العالم، يتضح الفرق أكثر، حيث يكون السعر تقريبًا واحدًا إلى عشرة أو خمسين من بعض المنافسين. على سبيل المثال، سعر GPT-5.5 الرسمي هو: إدخال 5 دولارات / مليون توكن، إدخال مخزن مؤقت (cached input) 0.5 دولار / مليون توكن، إخراج 30 دولار / مليون توكن. أما Claude Opus 4.7، فتمديد لنظام السعر لـ Opus 4.6، ويقارب: إدخال 5 دولارات / مليون توكن، إخراج 25 دولار / مليون توكن.

على الرغم من أن النماذج الرائدة في الخارج من حيث القدرات، والنضج البيئي، وكفاءة التوكن ليست قابلة للمقارنة تمامًا، فإن السعر ليس المعيار الوحيد. لكن في نفس مجموعة مهام الوكيل، فإن فرق تكلفة الاستدعاء يؤثر مباشرة على الجدوى التجارية. كما تواجه الشركات الأجنبية ضغط تسعير: اعترف سام ألتمان علنًا أن اشتراك ChatGPT Pro يخسر، وحذر داريو أموديي من وجود “تسعير مفرط في التطرف” في الصناعة. إلى حد ما، فإن السعر يعكس بشكل منهجي قدرة الحوسبة، وتكاليف البحث والتطوير، واستراتيجيات السوق.

لهذا السبب، فإن ميزة السعر الحالية أكثر أهمية. في 2024، كانت الصناعة تركز على “هل يمكن استخدامها”، أما اليوم، في نمط الذكاء الاصطناعي الوكيل، فإن السؤال الأهم هو “هل يمكن تشغيله على نطاق واسع”.

مهمة الوكيل غالبًا تتضمن عشرات إلى مئات من استدعاءات النموذج، مع إدخالات كثيرة تأتي من موجه النظام، مخططات الأدوات، والذاكرة التاريخية، وهذه المحتويات قابلة لإعادة الاستخدام بشكل كبير، وهي بالذات الجزء الذي يمكن أن يتضخم تكلفته بسهولة.

التركيز في DeepSeek V4 هو تقليل تكلفة هذا الجزء من “الحساب المكرر”.


رسم: DeepSeek V4 حولت “التكلفة” إلى متغير يمكن تحسينه هندسيًا. على اليسار، هو محاذاة القدرات، وعلى اليمين، هو حافة الانهيار في التكاليف. في سياق مليون توكن، انخفض استهلاك الحوسبة وذاكرة التخزين المؤقت بشكل كبير، مما يجعل المهام طويلة المدى لا تتكبد تكاليف أسيّة. هذا هو الدافع الحقيقي وراء هذه الحرب السعرية.

من خلال تتبع تطور أسعار منتجاتها، يظهر أن هذا التغيير له مسار واضح. كانت نسخة V3.2 السابقة تتطلب 2 يوان (غير مخزن مؤقت)، و0.2 يوان (مخزن مؤقت)، وإخراج 3 يوان؛ بينما خفضت V4-Flash الإدخال إلى 1 يوان، والإخراج إلى 2 يوان، وأبسط تغيير هو “خفض سعر الإدخال غير المخزن مؤقتًا إلى النصف”. في سيناريوهات الوكيل متعددة الاستدعاءات، غالبًا ما يكون إجمالي تكلفة الإدخال هو الجزء الأكبر، وتأثير هذا التعديل أكبر بكثير من مجرد خفض السعر الظاهر.

نسخة Pro بسعر 12 و24 يوانًا، تبدو أغلى بمقدار واحد من Flash، لكن في التقرير الفني، كتب DeepSeek أن “نسخة Pro تتأثر بقيود قدرة الحوسبة عالية المستوى، ومن المتوقع أن ينخفض سعرها بشكل كبير بعد طرح نودات تسونغتينغ 950 في النصف الثاني من العام”. يمكن فهم ذلك على أن السعر الحالي لـ Pro يعكس قيود العرض، وليس التكاليف الحقيقية.

كما أن تحديد موقع النموذجين واضح جدًا: Flash موجه للمهام ذات التوازي العالي، والانتظار المنخفض، بينما يتحمل Pro المهام المعقدة، وتوليد الكود عبر سلاسل طويلة، والاستنتاج العميق. وفقًا للتقرير الفني، بدأ DeepSeek في تقييم قدرات وكيل الكود V4 باستخدام مهام تطوير حقيقية، وقيّمها داخليًا مقابل سلسلة Claude.

وراء “ذبح الأسعار”

كيف تمكن DeepSeek من خفض الأسعار؟

الآلية التقليدية للانتباه عند معالجة النصوص الطويلة، تتزايد حساباتها بمربع طول السلسلة، على سبيل المثال، حساب 1 مليون توكن يتطلب 64 ضعف حساب 128 ألف توكن. هذا هو السبب في أن “السياق المليون” كان صعبًا جدًا للتجارة، حيث أن استهلاك الذاكرة لآلية KV يتضاعف خطيًا مع طول السلسلة، وإذا استُخدم 1 مليون توكن، إما أن يُقصّ التوازي، أو يُضاعف عدد الآلات، وهو غير مربح على الورق.

لهذا السبب، تتبع الشركات الأجنبية عادة استراتيجية “نوافذ قصيرة بشكل افتراضي، ونوافذ طويلة مع زيادة في السعر”، حتى أن شركة أنثروبيك خصصت فئة خاصة لـ200 ألف توكن وما فوق، مع مضاعفة السعر.

رسم: CSA (الانتباه المتماثل المضغوط) في DeepSeek V4، يضغط أولاً على مخزن KV، ثم يستخدم اختيار Top-k للتركيز على السياق المهم، ويحسب فقط المعلومات الأكثر أهمية، مما يقلل بشكل كبير من استهلاك الحوسبة والذاكرة في سيناريوهات النص الطويلة.

الفهم المبسط لحل V4 هو الجمع بين “الضغط” و"الانتباه المتناثر". أولاً، يتم ضغط مخزن KV لكل m توكن إلى عنصر مضغوط (معدل ضغط CSA هو 4، معدل ضغط HCA هو 128)، ثم يركز كل استعلام على أهم k عناصر من هذه العناصر للانتباه. الخطوة الأولى تقلل من استهلاك الذاكرة، والثانية تقلل من الحساب، مع معالجة عنق الزجاجة في كلا الجانبين.


رسم: HCA (الانتباه المعاد ضغطه) في DeepSeek V4، يضغط بشكل محدود مخزن KV لسلسلة أطول إلى تمثيلات قليلة، مع الاحتفاظ بمعلومات النافذة المحلية، وتقليل استهلاك الحساب والتخزين، وهو مسار رئيسي لانخفاض تكلفة السياق المليون.

تقرير التقنية يوضح: في سياق 1 مليون توكن، FLOPs لكل توكن في V4-Pro هو 27% فقط من V3.2، واحتياطي KV أقل بنسبة 10%. وV4-Flash أكثر تطرفًا، حيث FLOPs هو 10% من V3.2، واحتياطي KV هو 7%. مع تطبيق Quantization (الكمية FP4)، ومحسن Muon، والبنية التحتية مثل MegaMoE، قامت V4 بتحسين وتضييق التكاليف من التدريب إلى الاستنتاج بشكل شامل.

الخفض في السعر هو نتيجة طبيعية لبنية المعمار. قال أحد أعضاء فريق كبير في شركات النماذج الكبيرة المحلية لـ Tencent Tech: “أسعار API للنماذج الكبيرة المحلية، بما في ذلك تلك الخاصة بهم، تعتمد بشكل رئيسي على القدرة التكاليفية. لا توجد شركة حتى الآن تتكبد التكاليف بشكل كامل وتنافس على السعر. لذلك، فإن ميزة التكاليف من الأساس مهمة جدًا.”

كما أكد تشو جينرن، CTO في عليا سونغ، قائلاً: “كل خفض في السعر هو عملية جدية جدًا، ويجب أن يُوازن بين تطور الصناعة، وردود فعل المطورين، والمستخدمين، وليس مجرد حرب أسعار.”

لماذا يكون هذا “الخفض” أكثر أهمية الآن؟

من جانب الطلب، فإن الحاجة إلى خفض السعر بشكل منهجي أصبحت أكثر إلحاحًا. في تقرير Token Economics الأخير لشركة Deloitte، أُعطى مثال AT&T: بعد إدخال نظام الوكيل، زاد استهلاك التوكن اليومي من 8 مليارات إلى 27 مليار. وأشار تحليل من معهد ستيفنز للتكنولوجيا إلى أن نظام الوكيل يواجه فخ “تزايد التوكنات بمربع” في المحادثات متعددة الجولات: في الجولة العاشرة، قد تصل كمية التوكن في استدعاء واحد إلى 7 أضعاف الجولة الأولى.

سعر النموذج يحدد ما إذا كان يمكن لوكيل أن ينجح تجاريًا.

وفي تقرير لمجلة CIO قبل ثلاثة أسابيع، اقتبسوا رأي Ayesha Khanna، الرئيس التنفيذي لشركة Addo AI: “إذا قمت بتشغيل وكيل مستمر يتصل بأحدث نماذج API، مع استهلاك عالي للتوكن، وسياق طويل، واستنتاج متعدد الخطوات، وإعادة إخراج مكثفة، فإن الجدوى الاقتصادية ستتدهور بسرعة. في بعض الحالات، قد يكون تكلفة مهمة واحدة أعلى من تكلفة شخص واحد للقيام بالمهمة.” هذا هو العقبة الواقعية الحالية أمام تسويق الوكيل، حيث أن التقنية تعمل، لكن الحسابات لا تتماشى.

مراجعة تحركات V4 الأخيرة، كلها تقريبًا تستهدف هذه العقبة: جعل السياق المليون هو القدرة الافتراضية، بحيث لا يحتاج الوكيل إلى دفع علاوة على طول السياق؛ وخفض سعر الإدخال بعد استدعاء الذاكرة المؤقتة إلى أدنى مستوى في الصناعة، مع استغلال خاصية تكرار استخدام نفس موجه النظام في سيناريوهات الوكيل. وأشار التقرير الفني أيضًا إلى أن V4 يحتفظ بكامل محتوى التفكير عند استدعاء الأدوات (بينما كانت V3.2 تتخلص منه عند بداية كل رسالة جديدة للمستخدم)، وذلك لتلبية متطلبات استدعاء متعدد الجولات للوكيل.

هل يمكن لـ V4 أن يخفض تكلفة الوكيل الذكي بالكامل؟

وفي النهاية، هناك سؤال مهم: هل يمكن لـ V4 أن يخفض تكلفة صناعة الذكاء الاصطناعي الوكيل بالكامل؟ ربما تكون الحالة أكثر تعقيدًا هذه المرة.

أولاً، النظر في الشركات الأخرى إذا تتابعت، فإن خفض الأسعار بشكل متزامن من قبل الجميع سيؤدي إلى تحريك منحنى التكاليف بشكل عام. لكن، كما أُوضح أعلاه، فإن سعر النموذج يعتمد بشكل رئيسي على هيكل التكاليف، وهو غير قابل للتغيير بشكل كبير على المدى القصير، ولا توجد مساحة كبيرة للمنافسة على السعر.

ثانيًا، إمدادات الحوسبة عالية المستوى. كما ذكر DeepSeek في تقريره، فإن خدمة Pro الحالية محدودة من حيث القدرة. هل يمكن أن يظل سعر Pro مستقرًا، يعتمد على تقدم نشر نودات تسونغتينغ 950 في النصف الثاني من العام، وعلى تقدم DeepSeek في هندسة البرمجيات عبر منصات الأجهزة المختلفة.

ذكر التقرير في القسم 3.1 أن DeepSeek قام باختبار خطة التوازي الدقيقة على منصتي NVIDIA GPU وHuawei Ascend NPU، وهو أول مرة يدرج فيها تسونغتينغ إلى جانب NVIDIA في قائمة التحقق من الأجهزة، وهو محاولة لفصل مسار الاستنتاج عن الاعتماد على منصة واحدة. إذا ثبتت فعاليتها، فسيكون لها قيمة أكبر على المدى الطويل لصناعة النماذج الكبيرة المحلية.

ثالثًا، هل يمكن تحسين بنية التوكن في سيناريو الوكيل بشكل أكبر؟ الوكيل الحالي يستهلك الكثير من التوكن، وجزء كبير من التبذير يأتي من بنية الوكيل نفسها. خارج نطاق خفض السعر، فإن كيفية استخدام التوكن في الوكيل هو أمر آخر. حتى لو خفضت V4 السعر إلى الحد الأدنى، فإن تصميم الوكيل السيئ قد يؤدي إلى انفجار الفواتير. ولهذا، فإن أهمية أنظمة Harness الحالية تكمن في ذلك.

إصدار معاينة V4 من DeepSeek حقًا خفض الأسعار، وجعل السياق المليون هو القدرة الافتراضية، ويمكن أن يكون سعر الإخراج أقل من دولار واحد لكل مليون توكن، وهذا مبني على بنية أساسية، ولا يعتمد على دعم خارجي.

لكن، خفض التكاليف في الصناعة بأكملها ليس مهمة سهلة، ويواجه تحديات نظامية أكثر تعقيدًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت