Висічити в камені - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Froklog

2026-03-11 14:48:14

# Вирізати у камені

Як ІІ-чіпи долають «стіну пам’яті»

Традиційно споживчі GPU призначені для відеоігор та рендерингу. Однак вони здатні виконувати й інші задачі, що вимагають паралельних обчислень

На графічному процесорі можна запустити, наприклад, PoW-майнер для добування криптовалют, але в умовах конкуренції зі спеціалізованим обладнанням GPU-ферми стали рішенням для нішевих проектів

Подібна ситуація складається й у сфері ІІ. Відеокарти стали основним обчислювальним інструментом для нейронних мереж. Але з розвитком індустрії з’явився попит на спеціалізовані рішення для роботи з ІІ. ForkLog розібрався в актуальному стані нового витка гонки у галузі штучного інтелекту.

Оптимізація кремнію для ІІ

Існує кілька підходів до створення спеціалізованого обладнання для задач штучного інтелекту.

Споживчі GPU можна вважати стартовою точкою на шляху до спеціалізації. Їх здатність працювати з паралельними матричними обчисленнями була корисною для розгортання нейросіток і особливо глибокого навчання, але простір для покращень залишався достатнім.

Одна з головних проблем ІІ на відеокарті — необхідність постійно переміщувати великі обсяги даних між системною пам’яттю та GPU. Ці супровідні процеси можуть забирати більше часу й енергії, ніж самі корисні обчислення.

Інша проблема GPU походить із їх універсальності. Архітектура відеокарт розрахована на широкий спектр задач — від рендерингу графіки до обчислень загального призначення. В результаті частина апаратних блоків виявляється зайвою для спеціалізованих ІІ-навантажень.

Окремим обмеженням є формат даних. Історично графічні процесори оптимізувалися під операції з FP32 — 32-бітними числами з плаваючою комою. Для інференсу та навчання зазвичай застосовують формати меншої точності: 16-бітні FP16 і BF16, цілочисельні INT4 і INT8.

Nvidia H200 і B200

Одні з найпопулярніших продуктів для інференсу й навчання — чіпи H200 і серверні системи DGX B200 — по суті є «посиленими» GPU для дата-центрів.

Основний ІІ-орієнтований елемент цих прискорювачів — тензорні ядра, призначені для надзвичайно швидких матричних операцій, таких як навчання моделей і пакетний інференс.

Щоб зменшити затримки при доступі до даних, Nvidia обладнує свої карти великим обсягом високопродуктивної пам’яті (HBM, High Bandwidth Memory). В H200 вбудовано 141 ГБ HBM3e з пропускною здатністю 4,8 ТБ/с, у B200 ці показники ще більші залежно від конфігурації.

Tensor Processing Unit

До 2015 року в Google розробили Tensor Processing Unit (TPU) — ASIC-процесор на основі систолічних масивів, призначений для машинного навчання.

Tensor Processing Unit 3.0. Джерело: Wikipedia. В архітектурі конвенційних процесорів — CPU і GPU — кожна операція передбачає зчитування, обробку і запис проміжних даних у пам’ять

TPU пропускає дані через масив блоків, кожен з яких виконує математичну операцію і передає результат наступному. Звернення до пам’яті відбувається лише на початку і в кінці послідовності обчислень.

Такий підхід дозволяє витрачати менше часу й енергії на ІІ-обчислення, ніж неспеціалізований графічний процесор, однак робота з зовнішньою пам’яттю залишається обмежуючим фактором.

Cerebras

Американська компанія Cerebras знайшла спосіб використовувати як процесор цільну пластину кремнію, яку зазвичай нарізають на менші елементи для виробництва чіпів.

У 2019 році розробники представили свій перший 300-мм Wafer-Scale Engine. У 2024 році компанія випустила удосконалений процесор WSE-3 з 460-мм чіпом на 900 000 ядер.

Cerebras WSE-3 і два чіпи Nvidia B200. Джерело: Cerebras. Архітектура Cerebras передбачає розподіл блоків пам’яті SRAM безпосередньо поруч із модулями логіки на тій же пластині кремнію. При цьому кожне ядро працює з власною 48 КБ локальною пам’яттю і не конкурує з іншими ядрами за доступ.

За словами розробників, багатьом моделям для інференсу достатній один WSE-3. Для більш масштабних задач передбачена можливість зібрати кластер із кількох таких чіпів.

Groq LPU

Компанія Groq (не плутати з Grok від xAI) пропонує власні ASIC для інференсу на основі архітектури Language Processing Unit (LPU)

Чип Groq. Джерело: Groq. Однією з ключових особливостей чіпів Groq є оптимізація під послідовні операції

Інференс базується на поетапній генерації токенів: кожен крок вимагає завершення попереднього. В таких умовах продуктивність більше залежить від швидкості роботи одного потоку, ніж від їх кількості

На відміну від звичних процесорів загального призначення і деяких ІІ-спеціалізованих пристроїв, Groq не формує машинних інструкцій під час виконання задачі. Кожна операція заздалегідь спланована у своєрідному «розкладі» і прив’язана до конкретного моменту роботи процесора.

При цьому, як і ряд інших ІІ-акселераторів, LPU поєднує модулі логіки і пам’яті на одному чіпі для мінімізації витрат на перенесення даних

Taalas

Усі наведені вище приклади передбачають високий рівень програмованості. Модель і необхідні ваги завантажуються у перезаписувану пам’ять. В будь-який момент оператор може завантажити абсолютно іншу модель або внести корективи.

З таким підходом продуктивність залежить від доступності, швидкості і обсягу пам’яті.

Розробники з Taalas пішли далі, вирішивши «зашити» конкретну модель із готовими вагами безпосередньо у чип на рівні транзисторів.

Модель, яка зазвичай виступає програмним забезпеченням, реалізується на апаратному рівні, що дозволяє відмовитися від окремого універсального сховища даних і пов’язаних із ним витрат.

У своєму першому рішенні — інференс-карті HC1 — компанія використала відкриту модель Llama 3.1 8B

Taalas HC1. Джерело: Taalas. Карта підтримує низькобітову точність до 3-бітних і 6-бітних параметрів, що дозволяє прискорити обробку. За словами Taalas, HC1 обробляє до 17 000 токенів за секунду, залишаючись відносно недорогим пристроєм із низьким енергоспоживанням

Компанія заявляє про тисячекратне зростання продуктивності у порівнянні з GPU за показниками енергоспоживання і вартості.

Однак у такого методу є фундаментальний недолік — неможливість оновити модель без повної заміни чипа

Водночас HC1 обладнаний підтримкою LoRA — методу «донастройки» LLM через додавання додаткових ваг. З правильною конфігурацією LoRA модель можна перетворити на фахівця у конкретній галузі.

Інша складність пов’язана з процесом дизайну і виробництва таких «фізичних моделей». Розробка ASIC коштує великих грошей і може займати роки. У умовах високої конкуренції ІІ-індустрії це суттєве обмеження.

У Taalas заявляють про новий метод генерації архітектури процесора, що має вирішити цю проблему. Автоматична система перетворює модель і набір ваг у готовий дизайн чипа за тиждень

За власними оцінками компанії, виробничий цикл від отримання нової невідомої раніше моделі до випуску готових чипів із її фізичним втіленням займатиме близько 2 місяців

Майбутнє локального інференсу

Нові спеціалізовані ІІ-чіпи передусім займають місця у масивних установках дата-центрів, забезпечуючи хмарні послуги за плату. Нетривіальні рішення, аж до «фізичних моделей», реалізованих прямо у кремнії, не є винятком

Для споживача революційний інженерний прорив виразиться у здешевленні послуг і прискоренні роботи

Водночас появи більш простих, дешевих і енергоефективних чіпів створює передумови для популяризації локальних рішень для інференсу

Вже зараз спеціалізовані ІІ-чіпи є у смартфонах і ноутбуках, камерах спостереження і навіть дверних дзвінках. Вони дозволяють виконувати задачі локально, забезпечуючи низьку затримку, автономність і приватність.

Радикальна оптимізація, хай і за рахунок гнучкості у виборі та заміні моделі, суттєво розширює можливості таких пристроїв і дозволяє інтегрувати прості ІІ-компоненти у дешеві масові продукти.

Якщо більшість користувачів почне спрямовувати свої запити на моделі, що працюють на локальних пристроях, навантаження на потужності дата-центрів може знизитися, зменшуючи ризик перевантаження галузі. Можливо, тоді не доведеться шукати радикальні шляхи збільшення обчислювальних потужностей — наприклад, запуск їх на орбіті

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.