Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Google a publié un article intitulé TurboQuant, et en 24 heures, la communauté l'a déjà porté sur llama.cpp.
Qu'a fait TurboQuant ? Il a compressé le cache KV des grands modèles à 3 bits, réduisant l'utilisation de mémoire par un facteur de 6, et accélérant l'inférence de 8 fois sur H100.
L'essentiel est — pas besoin de réentraîner, pas besoin de fine-tuning, aucune perte de précision. C'est l'une des raisons pour lesquelles les actions des fabricants de puces ont chuté violemment.
Samsung, SK Hynix ont chuté de plus de 6 % à Séoul, Micron a baissé de 6,9 % en bourse américaine.
Ce que le marché craint, c'est — si chaque modèle peut utiliser 6 fois moins de mémoire, alors la demande pour HBM ne sera-t-elle pas réduite ?
Mais je pense que le marché a réagi de manière excessive. La raison est simple. La mémoire économisée ne sera pas inutilisée. Un cache KV plus petit signifie qu'une même carte peut gérer un contexte plus grand et plus de requêtes simultanées. La demande ne diminuera pas, elle sera simplement redistribuée.
Cela s'est répété dans l'histoire de la technologie — lorsque le CPU devient plus rapide, le logiciel en consomme toute la marge de performance. Lorsque la bande passante augmente, le streaming vidéo en consomme toute. Quand la mémoire devient plus économique, les modèles deviennent plus grands et plus gourmands.
La discussion #20969 de llama.cpp a déjà une implémentation CPU opérationnelle (en C pur, sans dépendances) et un noyau CUDA.
Certaines personnes l'ont fait fonctionner sur Apple Silicon avec Metal. Cela signifie que le seuil pour exécuter un modèle localement a encore été abaissé d'un cran.
TurboQuant, à court terme, est une mauvaise nouvelle pour l'humeur des actions de puces, mais à moyen terme, c'est un dividende d'efficacité pour toute l'industrie de l'IA.
Ceux qui exécutent des modèles localement en tirent profit — le même Mac peut accueillir des modèles plus grands.
Les fabricants de puces ne doivent pas s'inquiéter — la demande ne disparaîtra pas, elle sera simplement utilisée de manière plus efficace.