Google a publié un article intitulé TurboQuant, et en 24 heures, la communauté l'a déjà porté sur llama.cpp.


Qu'a fait TurboQuant ? Il a compressé le cache KV des grands modèles à 3 bits, réduisant l'utilisation de mémoire par un facteur de 6, et accélérant l'inférence de 8 fois sur H100.
L'essentiel est — pas besoin de réentraîner, pas besoin de fine-tuning, aucune perte de précision. C'est l'une des raisons pour lesquelles les actions des fabricants de puces ont chuté violemment.
Samsung, SK Hynix ont chuté de plus de 6 % à Séoul, Micron a baissé de 6,9 % en bourse américaine.
Ce que le marché craint, c'est — si chaque modèle peut utiliser 6 fois moins de mémoire, alors la demande pour HBM ne sera-t-elle pas réduite ?
Mais je pense que le marché a réagi de manière excessive. La raison est simple. La mémoire économisée ne sera pas inutilisée. Un cache KV plus petit signifie qu'une même carte peut gérer un contexte plus grand et plus de requêtes simultanées. La demande ne diminuera pas, elle sera simplement redistribuée.
Cela s'est répété dans l'histoire de la technologie — lorsque le CPU devient plus rapide, le logiciel en consomme toute la marge de performance. Lorsque la bande passante augmente, le streaming vidéo en consomme toute. Quand la mémoire devient plus économique, les modèles deviennent plus grands et plus gourmands.
La discussion #20969 de llama.cpp a déjà une implémentation CPU opérationnelle (en C pur, sans dépendances) et un noyau CUDA.
Certaines personnes l'ont fait fonctionner sur Apple Silicon avec Metal. Cela signifie que le seuil pour exécuter un modèle localement a encore été abaissé d'un cran.
TurboQuant, à court terme, est une mauvaise nouvelle pour l'humeur des actions de puces, mais à moyen terme, c'est un dividende d'efficacité pour toute l'industrie de l'IA.
Ceux qui exécutent des modèles localement en tirent profit — le même Mac peut accueillir des modèles plus grands.
Les fabricants de puces ne doivent pas s'inquiéter — la demande ne disparaîtra pas, elle sera simplement utilisée de manière plus efficace.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler