في 25 مارس، سجلت أسهم التكنولوجيا الأمريكية مكاسب واسعة، حيث أغلق مؤشر Nasdaq 100 على ارتفاع. لكن مجموعة من الأسهم خالفت الاتجاه وتكبدت خسائر:
انخفض سهم SanDisk بنسبة %3.50، وتراجع Micron بنسبة %3.4، وهبط Seagate بنسبة %2.59، بينما تراجع Western Digital بنسبة %1.63. بدا قطاع التخزين وكأن التيار الكهربائي انقطع فجأة وسط احتفال.
السبب يعود إلى ورقة بحثية—أو بالأدق، تسليط الضوء الرسمي من Google Research على دراسة جديدة.
لفهم الأهمية، يجب أولًا التعرف على مفهوم في بنية AI نادرًا ما يُناقش: KV Cache.
عند التفاعل مع نموذج لغة كبير، لا يبدأ النموذج من الصفر مع كل سؤال، بل يخزن سياق المحادثة بالكامل في الذاكرة على شكل "أزواج مفتاح-قيمة"—وهذا هو KV Cache، ذاكرة العمل قصيرة الأجل للنموذج.
المشكلة أن KV Cache ينمو بشكل يتناسب مع طول نافذة السياق. عندما تصل نافذة السياق إلى مستوى مليون رمز، يمكن أن تستهلك ذاكرة GPU الخاصة بـ KV Cache أكثر من معلمات النموذج نفسه. بالنسبة لمجموعات الاستدلال التي تخدم العديد من المستخدمين في الوقت نفسه، يشكل ذلك عنق زجاجة بنية تحتية يومية ويرفع التكاليف.
ظهرت النسخة الأصلية من الورقة على arXiv في أبريل 2025، وستُنشر رسميًا في ICLR 2026. أطلقت Google Research على الخوارزمية اسم TurboQuant—طريقة كمّية بلا خسارة تضغط KV Cache إلى 3 بتات، مما يقلل استخدام الذاكرة بما لا يقل عن ستة أضعاف. لا تتطلب تدريبًا أو ضبطًا مسبقًا وتعمل فورًا.
النهج التقني يتكون من خطوتين رئيسيتين:
الخطوة 1: PolarQuant. بدلاً من استخدام نظام الإحداثيات الديكارتية التقليدي لتمثيل المتجهات، يحولها إلى إحداثيات قطبية—تشمل "نصف القطر" ومجموعة من "الزوايا". هذا يبسط هندسة الفضاء عالي الأبعاد بشكل جذري، ويتيح الكمّية اللاحقة بتشويه أقل.
الخطوة 2: QJL (Quantized Johnson-Lindenstrauss). بعد ضغط PolarQuant الرئيسي، يستخدم TurboQuant تحويل QJL ببت واحد لتصحيح غير متحيز للخطأ المتبقي، مما يضمن تقديرًا دقيقًا للجداء الداخلي—وهو أمر بالغ الأهمية لآلية الانتباه في Transformer.
النتائج: في معيار LongBench الذي يغطي الإجابة على الأسئلة، وتوليد الشيفرة، والتلخيص، تفوق TurboQuant أو عادل أفضل خط أساس موجود، KIVI. في مهام الاسترجاع "إبرة في كومة قش"، حقق استدعاءً كاملًا. على NVIDIA H100، سرّع TurboQuant ببتات 4 عمليات الانتباه حتى 8 أضعاف.
طرق الكمّية التقليدية لديها عيب جوهري: كل كتلة بيانات مضغوطة تتطلب تخزينًا إضافيًا لـ "ثوابت الكمّية" لتسجيل كيفية فك الضغط، مما يضيف 1–2 بتات لكل قيمة. رغم أن ذلك يبدو صغيرًا، مع سياقات بمليون رمز، تتراكم هذه البتات بسرعة. TurboQuant يلغي هذا الحمل بالكامل عبر دوران هندسي لـ PolarQuant وتصحيح متبقٍ ببت واحد لـ QJL.
الآثار يصعب تجاهلها: النموذج الذي كان يحتاج إلى ثمانية H100 لخدمة سياق بمليون رمز يمكن نظريًا أن يفعل ذلك باستخدام اثنين فقط. يمكن لمزودي الاستدلال معالجة أكثر من ستة أضعاف الطلبات المتزامنة طويلة السياق بنفس الأجهزة.
هذا يضرب مباشرة في قلب سرد قطاع التخزين.
خلال العامين الماضيين، استفادت Seagate وWestern Digital وMicron من طفرة الاستثمار في AI لسبب واحد: مع تزايد قدرة النماذج الكبيرة على "التذكر"، يبدو الطلب على الذاكرة ذات النوافذ طويلة السياق بلا حدود، وتوقع انفجار الطلب على التخزين. ارتفع سهم Seagate بأكثر من %210 في 2025، وكانت طاقة الإنتاج لعام 2026 قد بيعت بالكامل.
وصول TurboQuant يتحدى هذا الافتراض مباشرة.
وصف محلل تكنولوجيا Wells Fargo، Andrew Rocha، الأمر ببساطة: "مع اتساع نوافذ السياق، تنمو البيانات المخزنة في KV Cache بشكل انفجاري، ويرتفع الطلب على الذاكرة. TurboQuant يهاجم منحنى التكلفة هذا مباشرة... وإذا تم اعتماده على نطاق واسع، فإنه يطرح سؤالًا جوهريًا حول مدى ضرورة سعة الذاكرة فعليًا."
لكن Rocha شدد أيضًا على شرط أساسي: إذا.
هل السوق يبالغ في رد فعله؟ على الأرجح نعم—إلى حد ما.
أولًا، عنوان "تسريع 8 أضعاف" مضلل. أشار العديد من المحللين إلى أن التسريع بنسبة 8 أضعاف تم قياسه مقابل أنظمة 32 بت غير كمّية، وليس الأنظمة المحسّنة بالفعل التي تُستخدم حاليًا. المكاسب الفعلية في الأداء حقيقية، لكنها ليست درامية كما توحي العناوين.
ثانيًا، الورقة اختبرت نماذج صغيرة فقط. جميع تقييمات TurboQuant استخدمت نماذج حتى 8 مليار معلمة. القلق الحقيقي لموردي التخزين هو مع النماذج بحجم 70 مليار أو حتى 400 مليار معلمة، حيث يصبح KV Cache ضخمًا فعلًا. أداء TurboQuant على هذه المقاييس لا يزال مجهولًا.
ثالثًا، لم تصدر Google أي كود رسمي. حتى الآن، لم يتوفر TurboQuant في vLLM أو llama.cpp أو Ollama أو أي إطار عمل استدلال رئيسي. قام مطورو المجتمع بتنفيذ نسخ مبكرة بناءً على الرياضيات الواردة في الورقة، وأشار أحد المكررين الأوائل إلى أنه إذا لم يتم تصحيح خطأ QJL بشكل صحيح، يمكن أن يصبح الناتج غير قابل للقراءة.
ومع ذلك، لا يعني هذا أن مخاوف السوق بلا أساس.
هذه ذاكرة عضلية جماعية للسوق من حدث DeepSeek في 2025. علم ذلك الجميع درسًا قاسيًا: يمكن أن تؤدي اختراقات الكفاءة الخوارزمية إلى تعطيل سرد الأجهزة المكلفة فورًا. منذ ذلك الحين، أي اختراق كفاءة من مختبر AI رائد يثير رد فعل تلقائي في أسهم الأجهزة.
علاوة على ذلك، تأتي هذه الإشارة من Google Research—وليس مختبر جامعي مجهول. تمتلك Google القوة الهندسية لتحويل الأوراق البحثية إلى أدوات إنتاجية، وهي نفسها من أكبر مستهلكي الاستدلال AI في العالم. بمجرد نشر TurboQuant داخليًا، قد يعيد تشكيل استراتيجيات شراء الخوادم لـ Waymo وGemini وGoogle Search بهدوء.
هناك جدل كلاسيكي هنا يستحق النظر: مفارقة Jevons.
لاحظ الاقتصادي البريطاني William Jevons في القرن التاسع عشر أن تحسين كفاءة محركات البخار لم يقلل استهلاك الفحم في بريطانيا—بل زاد بشكل كبير. التكاليف الأقل الناتجة عن مكاسب الكفاءة حفزت انتشارًا أوسع بكثير.
يؤكد المؤيدون: إذا أتاحت Google للنموذج العمل على VRAM بسعة 16GB، لن يتوقف المطورون عند هذا الحد—سيستخدمون الموارد المحررة لتشغيل نماذج أكثر تعقيدًا بستة أضعاف، ومعالجة مجموعات بيانات متعددة الوسائط أكبر، ودعم سياقات أطول. في النهاية، تفتح كفاءة البرمجيات الطلب الذي كان بعيد المنال سابقًا بسبب التكلفة العالية.
ومع ذلك، تعتمد هذه الحجة المضادة على أن السوق لديه الوقت للتكيف والتوسع. خلال الفترة التي ينتقل فيها TurboQuant من ورقة بحثية إلى أداة إنتاجية إلى معيار صناعي، هل يمكن أن ينمو الطلب على الأجهزة بسرعة كافية لملء "الفجوة" التي خلقتها الكفاءة الأكبر؟
لا أحد يعرف الإجابة. السوق يسعر هذا الغموض.
الأهم من تقلبات أسهم التخزين هو الاتجاه الأعمق الذي كشفه TurboQuant.
انتقل ميدان المعركة الرئيسي في سباق AI من "توسيع الحوسبة" إلى "تعظيم الكفاءة".
إذا أثبت TurboQuant أداءه على النماذج واسعة النطاق، فقد يقود تحولًا جوهريًا: يصبح الاستدلال طويل السياق معيار الصناعة بدلًا من كونه رفاهية لا تستطيع تحملها سوى المختبرات الكبرى.
هذا السباق نحو الكفاءة هو مجال تفوق Google—تطوير خوارزميات ضغط رياضية تقترب من الأمثل، ودفع حدود نظرية المعلومات لـ Shannon، وليس فقط الهندسة بالقوة الغاشمة. معدل التشويه النظري لـ TurboQuant يبلغ حوالي 2.7 ضعف الحد الأدنى النظري للمعلومات.
يشير هذا إلى أن اختراقات مماثلة ستتبع على الأرجح. إنه علامة على نضج اتجاه بحثي كامل.
بالنسبة لصناعة التخزين، السؤال الأكثر واقعية ليس "هل سيؤثر ذلك على الطلب هذه المرة؟" بل: مع استمرار انخفاض تكاليف الاستدلال في AI بسبب البرمجيات، إلى أي مدى يمكن أن يبقى خندق الأجهزة واسعًا؟
الإجابة حتى الآن: لا يزال واسعًا، لكن ليس بالقدر الذي يمكن تجاهل هذه الإشارات فيه.
تم إعادة نشر هذه المقالة من [TechFlow]، مع حقوق النشر محفوظة للمؤلف الأصلي [TechFlow]. إذا كان لديك أي استفسار حول إعادة النشر، يرجى التواصل مع فريق Gate Learn، وسيتم التعامل معه بسرعة وفق الإجراءات المعنية.
إخلاء مسؤولية: الآراء والأفكار الواردة في هذه المقالة تخص المؤلف وحده ولا تشكل نصيحة استثمارية.
النسخ بلغات أخرى من هذه المقالة تمت ترجمتها بواسطة فريق Gate Learn. ما لم يتم الإشارة إلى Gate تحديدًا، لا يجوز نسخ أو توزيع أو اقتباس المقالات المترجمة.





