تستعرض هذه المقالة حدود المقارنات المعيارية، وحجم النماذج، وتنفيذ الحلول الهندسية. كما تسلط الضوء على صدمة الكفاءة في DeepSeek ومفارقة جيفونز، موضحة كيف تؤدي الابتكارات في الكفاءة إلى تضييق الطلب قصير الأجل على الأجهزة، مع فتح آفاق أوسع على المدى الطويل لتوسيع التطبيقات.

في 25 مارس، سجلت أسهم التكنولوجيا الأمريكية مكاسب واسعة، حيث أغلق مؤشر Nasdaq 100 على ارتفاع. لكن مجموعة من الأسهم خالفت الاتجاه وتكبدت خسائر:

انخفض سهم SanDisk بنسبة %3.50، وتراجع Micron بنسبة %3.4، وهبط Seagate بنسبة %2.59، بينما تراجع Western Digital بنسبة %1.63. بدا قطاع التخزين وكأن التيار الكهربائي انقطع فجأة وسط احتفال.

السبب يعود إلى ورقة بحثية—أو بالأدق، تسليط الضوء الرسمي من Google Research على دراسة جديدة.

ماذا قدمت هذه الورقة بالفعل؟

لفهم الأهمية، يجب أولًا التعرف على مفهوم في بنية AI نادرًا ما يُناقش: KV Cache.

عند التفاعل مع نموذج لغة كبير، لا يبدأ النموذج من الصفر مع كل سؤال، بل يخزن سياق المحادثة بالكامل في الذاكرة على شكل "أزواج مفتاح-قيمة"—وهذا هو KV Cache، ذاكرة العمل قصيرة الأجل للنموذج.

المشكلة أن KV Cache ينمو بشكل يتناسب مع طول نافذة السياق. عندما تصل نافذة السياق إلى مستوى مليون رمز، يمكن أن تستهلك ذاكرة GPU الخاصة بـ KV Cache أكثر من معلمات النموذج نفسه. بالنسبة لمجموعات الاستدلال التي تخدم العديد من المستخدمين في الوقت نفسه، يشكل ذلك عنق زجاجة بنية تحتية يومية ويرفع التكاليف.

ظهرت النسخة الأصلية من الورقة على arXiv في أبريل 2025، وستُنشر رسميًا في ICLR 2026. أطلقت Google Research على الخوارزمية اسم TurboQuant—طريقة كمّية بلا خسارة تضغط KV Cache إلى 3 بتات، مما يقلل استخدام الذاكرة بما لا يقل عن ستة أضعاف. لا تتطلب تدريبًا أو ضبطًا مسبقًا وتعمل فورًا.

النهج التقني يتكون من خطوتين رئيسيتين:

الخطوة 1: PolarQuant. بدلاً من استخدام نظام الإحداثيات الديكارتية التقليدي لتمثيل المتجهات، يحولها إلى إحداثيات قطبية—تشمل "نصف القطر" ومجموعة من "الزوايا". هذا يبسط هندسة الفضاء عالي الأبعاد بشكل جذري، ويتيح الكمّية اللاحقة بتشويه أقل.

الخطوة 2: QJL (Quantized Johnson-Lindenstrauss). بعد ضغط PolarQuant الرئيسي، يستخدم TurboQuant تحويل QJL ببت واحد لتصحيح غير متحيز للخطأ المتبقي، مما يضمن تقديرًا دقيقًا للجداء الداخلي—وهو أمر بالغ الأهمية لآلية الانتباه في Transformer.

النتائج: في معيار LongBench الذي يغطي الإجابة على الأسئلة، وتوليد الشيفرة، والتلخيص، تفوق TurboQuant أو عادل أفضل خط أساس موجود، KIVI. في مهام الاسترجاع "إبرة في كومة قش"، حقق استدعاءً كاملًا. على NVIDIA H100، سرّع TurboQuant ببتات 4 عمليات الانتباه حتى 8 أضعاف.

طرق الكمّية التقليدية لديها عيب جوهري: كل كتلة بيانات مضغوطة تتطلب تخزينًا إضافيًا لـ "ثوابت الكمّية" لتسجيل كيفية فك الضغط، مما يضيف 1–2 بتات لكل قيمة. رغم أن ذلك يبدو صغيرًا، مع سياقات بمليون رمز، تتراكم هذه البتات بسرعة. TurboQuant يلغي هذا الحمل بالكامل عبر دوران هندسي لـ PolarQuant وتصحيح متبقٍ ببت واحد لـ QJL.

لماذا أصاب السوق الذعر؟

الآثار يصعب تجاهلها: النموذج الذي كان يحتاج إلى ثمانية H100 لخدمة سياق بمليون رمز يمكن نظريًا أن يفعل ذلك باستخدام اثنين فقط. يمكن لمزودي الاستدلال معالجة أكثر من ستة أضعاف الطلبات المتزامنة طويلة السياق بنفس الأجهزة.

هذا يضرب مباشرة في قلب سرد قطاع التخزين.

خلال العامين الماضيين، استفادت Seagate وWestern Digital وMicron من طفرة الاستثمار في AI لسبب واحد: مع تزايد قدرة النماذج الكبيرة على "التذكر"، يبدو الطلب على الذاكرة ذات النوافذ طويلة السياق بلا حدود، وتوقع انفجار الطلب على التخزين. ارتفع سهم Seagate بأكثر من %210 في 2025، وكانت طاقة الإنتاج لعام 2026 قد بيعت بالكامل.

وصول TurboQuant يتحدى هذا الافتراض مباشرة.

وصف محلل تكنولوجيا Wells Fargo، Andrew Rocha، الأمر ببساطة: "مع اتساع نوافذ السياق، تنمو البيانات المخزنة في KV Cache بشكل انفجاري، ويرتفع الطلب على الذاكرة. TurboQuant يهاجم منحنى التكلفة هذا مباشرة... وإذا تم اعتماده على نطاق واسع، فإنه يطرح سؤالًا جوهريًا حول مدى ضرورة سعة الذاكرة فعليًا."

لكن Rocha شدد أيضًا على شرط أساسي: إذا.

ما الذي يستحق النقاش فعلًا؟

هل السوق يبالغ في رد فعله؟ على الأرجح نعم—إلى حد ما.

أولًا، عنوان "تسريع 8 أضعاف" مضلل. أشار العديد من المحللين إلى أن التسريع بنسبة 8 أضعاف تم قياسه مقابل أنظمة 32 بت غير كمّية، وليس الأنظمة المحسّنة بالفعل التي تُستخدم حاليًا. المكاسب الفعلية في الأداء حقيقية، لكنها ليست درامية كما توحي العناوين.

ثانيًا، الورقة اختبرت نماذج صغيرة فقط. جميع تقييمات TurboQuant استخدمت نماذج حتى 8 مليار معلمة. القلق الحقيقي لموردي التخزين هو مع النماذج بحجم 70 مليار أو حتى 400 مليار معلمة، حيث يصبح KV Cache ضخمًا فعلًا. أداء TurboQuant على هذه المقاييس لا يزال مجهولًا.

ثالثًا، لم تصدر Google أي كود رسمي. حتى الآن، لم يتوفر TurboQuant في vLLM أو llama.cpp أو Ollama أو أي إطار عمل استدلال رئيسي. قام مطورو المجتمع بتنفيذ نسخ مبكرة بناءً على الرياضيات الواردة في الورقة، وأشار أحد المكررين الأوائل إلى أنه إذا لم يتم تصحيح خطأ QJL بشكل صحيح، يمكن أن يصبح الناتج غير قابل للقراءة.

ومع ذلك، لا يعني هذا أن مخاوف السوق بلا أساس.

هذه ذاكرة عضلية جماعية للسوق من حدث DeepSeek في 2025. علم ذلك الجميع درسًا قاسيًا: يمكن أن تؤدي اختراقات الكفاءة الخوارزمية إلى تعطيل سرد الأجهزة المكلفة فورًا. منذ ذلك الحين، أي اختراق كفاءة من مختبر AI رائد يثير رد فعل تلقائي في أسهم الأجهزة.

علاوة على ذلك، تأتي هذه الإشارة من Google Research—وليس مختبر جامعي مجهول. تمتلك Google القوة الهندسية لتحويل الأوراق البحثية إلى أدوات إنتاجية، وهي نفسها من أكبر مستهلكي الاستدلال AI في العالم. بمجرد نشر TurboQuant داخليًا، قد يعيد تشكيل استراتيجيات شراء الخوادم لـ Waymo وGemini وGoogle Search بهدوء.

النمط الكلاسيكي يتكرر

هناك جدل كلاسيكي هنا يستحق النظر: مفارقة Jevons.

لاحظ الاقتصادي البريطاني William Jevons في القرن التاسع عشر أن تحسين كفاءة محركات البخار لم يقلل استهلاك الفحم في بريطانيا—بل زاد بشكل كبير. التكاليف الأقل الناتجة عن مكاسب الكفاءة حفزت انتشارًا أوسع بكثير.

يؤكد المؤيدون: إذا أتاحت Google للنموذج العمل على VRAM بسعة 16GB، لن يتوقف المطورون عند هذا الحد—سيستخدمون الموارد المحررة لتشغيل نماذج أكثر تعقيدًا بستة أضعاف، ومعالجة مجموعات بيانات متعددة الوسائط أكبر، ودعم سياقات أطول. في النهاية، تفتح كفاءة البرمجيات الطلب الذي كان بعيد المنال سابقًا بسبب التكلفة العالية.

ومع ذلك، تعتمد هذه الحجة المضادة على أن السوق لديه الوقت للتكيف والتوسع. خلال الفترة التي ينتقل فيها TurboQuant من ورقة بحثية إلى أداة إنتاجية إلى معيار صناعي، هل يمكن أن ينمو الطلب على الأجهزة بسرعة كافية لملء "الفجوة" التي خلقتها الكفاءة الأكبر؟

لا أحد يعرف الإجابة. السوق يسعر هذا الغموض.

ماذا يعني هذا لصناعة AI؟

الأهم من تقلبات أسهم التخزين هو الاتجاه الأعمق الذي كشفه TurboQuant.

انتقل ميدان المعركة الرئيسي في سباق AI من "توسيع الحوسبة" إلى "تعظيم الكفاءة".

إذا أثبت TurboQuant أداءه على النماذج واسعة النطاق، فقد يقود تحولًا جوهريًا: يصبح الاستدلال طويل السياق معيار الصناعة بدلًا من كونه رفاهية لا تستطيع تحملها سوى المختبرات الكبرى.

هذا السباق نحو الكفاءة هو مجال تفوق Google—تطوير خوارزميات ضغط رياضية تقترب من الأمثل، ودفع حدود نظرية المعلومات لـ Shannon، وليس فقط الهندسة بالقوة الغاشمة. معدل التشويه النظري لـ TurboQuant يبلغ حوالي 2.7 ضعف الحد الأدنى النظري للمعلومات.

يشير هذا إلى أن اختراقات مماثلة ستتبع على الأرجح. إنه علامة على نضج اتجاه بحثي كامل.

بالنسبة لصناعة التخزين، السؤال الأكثر واقعية ليس "هل سيؤثر ذلك على الطلب هذه المرة؟" بل: مع استمرار انخفاض تكاليف الاستدلال في AI بسبب البرمجيات، إلى أي مدى يمكن أن يبقى خندق الأجهزة واسعًا؟

الإجابة حتى الآن: لا يزال واسعًا، لكن ليس بالقدر الذي يمكن تجاهل هذه الإشارات فيه.

إخلاء مسؤولية:

تم إعادة نشر هذه المقالة من [TechFlow]، مع حقوق النشر محفوظة للمؤلف الأصلي [TechFlow]. إذا كان لديك أي استفسار حول إعادة النشر، يرجى التواصل مع فريق Gate Learn، وسيتم التعامل معه بسرعة وفق الإجراءات المعنية.
إخلاء مسؤولية: الآراء والأفكار الواردة في هذه المقالة تخص المؤلف وحده ولا تشكل نصيحة استثمارية.
النسخ بلغات أخرى من هذه المقالة تمت ترجمتها بواسطة فريق Gate Learn. ما لم يتم الإشارة إلى Gate تحديدًا، لا يجوز نسخ أو توزيع أو اقتباس المقالات المترجمة.

المحتوى

ماذا قدمت هذه الورقة بالفعل؟

لماذا أصاب السوق الذعر؟

ما الذي يستحق النقاش فعلًا؟

النمط الكلاسيكي يتكرر

ماذا يعني هذا لصناعة AI؟

عاجل

تطلق شركة Shanghai Telecom خدمة رموز بسعر يوان واحد مقابل 250,000 وحدة، وتدعم سداد فواتير الهاتف عبر الهاتف المحمول

2026-05-16 01:34

القوات الروسية تشن ضربات على موانئ أوكرانيا ومحطات الحبوب، مُصابة سبعة أشخاص في 16 مايو

2026-05-16 01:33

حوت يفتح صفقة شِراء طويلة 10x على DOGE بقيمة 2.25 مليون دولار على Hyperliquid بسعر 0.11 خلال آخر 6 ساعات

2026-05-16 01:27

تدرس بورصة موسكو تداول عملات رقمية فوري على مدار الساعة طوال أيام الأسبوع مع مرور روسيا على قانون العملة الرقمية

2026-05-16 01:27

الصين تحث القوى النووية على سحب الرؤوس الحربية المنتشرة في الخارج خلال مراجعة معاهدة الأمم المتحدة في 15 مايو

2026-05-16 01:27

المقالات ذات الصلة

مبتدئ

دور Render في AI: كيف يعزز معدل التجزئة اللامركزي الابتكار في الذكاء الاصطناعي

على عكس المنصات التي تركز فقط على قوة التجزئة في مجال الـ AI، تبرز Render بفضل شبكتها المعتمدة على GPU وآلية التحقق من المهام ونموذج الحوافز القائم على رمز RENDER. يمنح هذا التكامل Render توافقًا ومرونة طبيعية في حالات استخدام AI المختارة، ولا سيما تلك المرتبطة بالحوسبة الرسومية.

2026-03-27 13:12:58

مبتدئ

Render و io.net و Akash: مقارنة الفروقات الأساسية بين شبكات معدل التجزئة DePIN

تُعد Render وio.net وAkash أكثر من مجرد منافسين يقدمون حلولًا متشابهة؛ فهي تمثل ثلاثة مشاريع رائدة في قطاع قوة التجزئة DePIN، حيث يسلك كل مشروع منها مسارًا تقنيًا خاصًا: معالجة الرسومات باستخدام GPU، وتنظيم قوة التجزئة للذكاء الاصطناعي، والحوسبة السحابية اللامركزية. تركز Render على تنفيذ مهام معالجة الرسومات عالية الجودة عبر GPU، مع إعطاء أولوية للتحقق من النتائج وبناء منظومة قوية للمنشئين. أما io.net فتركز على تدريب نماذج الذكاء الاصطناعي وعمليات الاستدلال، وتكمن ميزتها الأساسية في تنظيم GPU على نطاق واسع وكفاءة التكلفة. بينما طورت Akash متجر سحابة لامركزي للأغراض العامة يوفّر موارد حوسبة منخفضة التكلفة عبر عملية تقديم عروض تنافسية.

2026-03-27 13:18:02

مبتدئ

ما هو TAO؟ استكشاف معمق لاقتصاديات رمز Bittensor، ونموذج العرض، وآليات الحوافز

تُعد TAO الرمز الأصلي لشبكة Bittensor، حيث تلعب دورًا أساسيًا في توزيع الحوافز، وتعزيز أمان الشبكة، وجذب القيمة داخل منظومة الذكاء الاصطناعي اللامركزية. وبالاستفادة من آلية الإصدار التضخمي، ونظام التخزين، ونموذج حوافز الشبكات الفرعية، يتيح TAO نظامًا اقتصاديًا يركّز على المنافسة وتقييم نماذج الذكاء الاصطناعي.

2026-03-24 12:23:27

مبتدئ

كيف يعمل Bittensor؟ توضيح بنية الشبكات الفرعية، المعدنين، وآلية توافق Yuma

تُعد Bittensor شبكة ذكاء اصطناعي لامركزية تتيح سوقاً مفتوحاً لتعلم الآلة عبر أدوار Subnet وMiner وValidator. وباعتماد آلية توافق Yuma، تُمكن من تقييم النماذج وتوزيع حوافز TAO. بخلاف منصات الذكاء الاصطناعي المركزية التقليدية، تحول Bittensor قدرات النماذج إلى أصول يمكن تخصيص قيمتها.

2026-03-24 12:25:01

متوسط

الميزات الجوهرية لمنصة GateClaw: دراسة لإمكانات محطة عمل الوكيل الذكي في Web3

GateClaw هو محطة عمل لوكلاء الذكاء الاصطناعي صُممت خصيصًا لمنظومة Web3. تجمع المنصة بين نماذج الذكاء الاصطناعي، المهارات المعيارية، وبنية تداول العملات الرقمية، مما يمنح الوكلاء القدرة على إجراء تحليل البيانات، التداول الآلي، ومهام مراقبة المقارنات عبر السلاسل في بيئة واحدة. بخلاف أدوات الذكاء الاصطناعي التقليدية التي تقتصر على معالجة المعلومات، يركز GateClaw على تعزيز قدرات التنفيذ لوكلاء الذكاء الاصطناعي، ليتيح لهم إدارة سير عمل آلي ضمن ظروف السوق الحية.

2026-03-24 17:51:13

متوسط

ما هو GateClaw: محطة عمل مرئية متعددة الوسائط لوكلاء الذكاء الاصطناعي في Web3

يعد GateClaw منصة لوكلاء الذكاء الاصطناعي في منظومة Gate for AI، إذ يربط نماذج الذكاء الاصطناعي بواجهة Gate MCP ووحدات AI Skills. تعزز هذه التكاملات قدرة وكلاء الذكاء الاصطناعي على إجراء تحليل السوق، التداول الآلي، ومتابعة بيانات السلسلة في بيئة Web3.

2026-03-24 18:18:35