Bạn muốn kiếm tiền với các mô hình lớn? Gương mặt mới mạnh mẽ này quyết định giảm chi phí lý luận trước.
Nguồn gốc: Heart of the Machine
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Kinh doanh mô hình quy mô lớn đốt bao nhiêu tiền? Cách đây một thời gian, một bài báo trên tờ Wall Street Journal đã đưa ra một câu trả lời tham khảo.
Theo báo cáo, mảng kinh doanh GitHub Copilot của Microsoft (được hỗ trợ bởi mô hình GPT của OpenAI) tính phí 10 đô la mỗi tháng, nhưng nó vẫn có giá trung bình 20 đô la cho mỗi người dùng. Các nhà cung cấp dịch vụ AI đang phải đối mặt với những thách thức kinh tế đáng kể - những dịch vụ này không chỉ tốn kém để xây dựng mà còn rất tốn kém để vận hành.
Có người so sánh nó với việc “sử dụng AI để tóm tắt email giống như yêu cầu một chiếc Lamborghini giao bánh pizza”.
OpenAI đã tính toán một tài khoản chi tiết hơn về điều này: khi độ dài ngữ cảnh là 8K, chi phí của mỗi mã thông báo đầu vào 1K là 3 xu và chi phí đầu ra là 6 xu. Hiện tại, OpenAI có 180 triệu người dùng và nhận được hơn 10 triệu truy vấn mỗi ngày. Bằng cách này, để vận hành một mô hình như ChatGPT, OpenAI cần đầu tư khoảng 7 triệu USD mỗi ngày vào phần cứng máy tính cần thiết, có thể nói là đắt đỏ đến đáng sợ.
Giảm chi phí suy luận cho LLM là bắt buộc và tăng tốc độ suy luận là một con đường quan trọng đã được chứng minh. **
Trên thực tế, cộng đồng nghiên cứu đã đề xuất một số công nghệ để tăng tốc các nhiệm vụ suy luận LLM, bao gồm DeepSpeed, FlexGen, vLLM, OpenPPL, FlashDecoding và TensorRT-LLM. Đương nhiên, những công nghệ này cũng có những ưu nhược điểm riêng. Trong số đó, FlashDecoding là một phương pháp hiện đại được đề xuất bởi các tác giả FlashAttention và Trí Đào et al. từ nhóm Đại học Stanford vào tháng trước, giúp cải thiện đáng kể tốc độ suy luận của LLM bằng cách tải dữ liệu song song và được coi là có tiềm năng lớn. Nhưng đồng thời, nó giới thiệu một số chi phí tính toán không cần thiết, vì vậy vẫn còn rất nhiều chỗ để tối ưu hóa.
Để giải quyết vấn đề hơn nữa, một nhóm hợp tác từ Infinigence-AI, Đại học Thanh Hoa và Đại học Giao thông Thượng Hải gần đây đã đề xuất một phương pháp mới, FlashDecoding ++, không chỉ mang lại khả năng tăng tốc cao hơn so với phương pháp trước đó (có thể tăng tốc độ suy luận GPU lên 2-4x), mà quan trọng hơn, hỗ trợ cả GPU NVIDIA và AMD! Ý tưởng cốt lõi của nó là đạt được sự song song thực sự trong tính toán chú ý thông qua cách tiếp cận không đồng bộ và tăng tốc tính toán trong giai đoạn Giải mã để tối ưu hóa sản phẩm ma trận “chunky”. **
Địa chỉ:
** Tăng tốc suy luận GPU lên 2-4x, **
FlashDecoding ++ làm điều đó như thế nào? **
Nhiệm vụ suy luận LLM thường là nhập một đoạn văn bản (mã thông báo) và tiếp tục tạo văn bản hoặc các dạng nội dung khác thông qua tính toán mô hình LLM.
Tính toán suy luận của LLM có thể được chia thành hai giai đoạn: Prefill và Decode, trong đó giai đoạn Prefill tạo ra mã thông báo đầu tiên bằng cách hiểu văn bản đầu vào; Trong giai đoạn Giải mã, các mã thông báo tiếp theo được xuất ra tuần tự. Trong hai giai đoạn, việc tính toán suy luận LLM có thể được chia thành hai phần chính: tính toán chú ý và tính toán nhân ma trận.
Đối với tính toán chú ý, công việc hiện có, chẳng hạn như FlashDecoding, thực hiện tải dữ liệu song song với toán tử softmax trong tính toán chú ý phân đoạn. Phương pháp này giới thiệu 20% chi phí tính toán trong tính toán chú ý do nhu cầu đồng bộ hóa các giá trị tối đa trong các phần khác nhau của softmax. Đối với các phép tính nhân ma trận, trong giai đoạn Giải mã, ma trận nhân trái chủ yếu xuất hiện dưới dạng ma trận “chunky”, nghĩa là số hàng thường không lớn (ví dụ: < = 8) và công cụ suy luận LLM hiện tại mở rộng số hàng lên 64 bằng cách bổ sung 0 để tăng tốc nó bằng kiến trúc như Lõi tensor, dẫn đến một số lượng lớn các phép tính không hợp lệ (nhân với 0).
Để giải quyết các vấn đề trên, ý tưởng cốt lõi của “FlashDecoding ++” là nhận ra tính song song thực sự của tính toán chú ý thông qua các phương pháp không đồng bộ và tăng tốc tính toán trong giai đoạn Giải mã để tối ưu hóa phép nhân ma trận “Humpty Dumpty”. **
** Tính toán Softmax từng phần song song không đồng bộ **
*Hình 1: Phần song song không đồng bộ Tính toán Softmax
Công trình trước đã nhập giá trị lớn nhất cho mỗi phần của phép tính softmax làm hệ số tỷ lệ để tránh tràn số mũ e trong phép tính softmax, dẫn đến chi phí đồng bộ hóa của các phần khác nhau của phép tính softmax (Hình 1 (a) (b)).
Hình 2: Phân phối thống kê các giá trị đầu vào Softmax
* Hình 3 Humpty Dumpty Matrix Multiplication Sharding và Dual Caching Mechanism *
Vì đầu vào cho giai đoạn Giải mã là một hoặc một số vectơ mã thông báo, sản phẩm ma trận cho giai đoạn đó hoạt động theo hình dạng “chunky”. Lấy ma trận A×B = C làm ví dụ, trong đó hình dạng của ma trận A và B là M×K và K×N, và ma trận “Humpty Dumpty” nhân M khi M nhỏ hơn. “FlashDecoding ++” chỉ ra rằng ma trận “Humpty Dumpty” bị giới hạn bởi bộ đệm chung và đề xuất các phương pháp tối ưu hóa như cơ chế bộ nhớ cache kép để tăng tốc nó (Hình 3).
Hình 4: Triển khai phép nhân ma trận thích ứng
Ngoài ra, “FlashDecoding ++” chỉ ra thêm rằng trong giai đoạn suy luận LLM, các giá trị của N và K được cố định cho một mô hình cụ thể. Do đó, “FlashDecoding ++” lựa chọn thích ứng việc triển khai tối ưu sản phẩm ma trận theo độ lớn của M.
**Tăng tốc độ suy luận GPU lên 2-4x **
*Hình 5 “FlashDecoding ++” Suy luận LLM nền tảng NVIDIA so với AMD (kiểu Llama2-7B, batchsize = 1) *
Hiện tại, FlashDecoding ++ có thể tăng tốc suy luận LLM trên phần phụ trợ của nhiều GPU, chẳng hạn như NVIDIA và AMD (Hình 5). Bằng cách tăng tốc độ tạo mã thông báo đầu tiên trong giai đoạn Prefill và tốc độ tạo của từng mã thông báo trong giai đoạn Giải mã, “FlashDecoding ++” có thể tăng tốc độ tạo cả văn bản dài và ngắn. ** FlashDecoding ++ tăng tốc suy luận trung bình 37% trên NVIDIA A100 so với FlashDecoding và nhanh hơn tới 2-4 lần so với Hugging Face trên phụ trợ đa GPU của NVIDIA và AMD. **
Tân binh khởi nghiệp mô hình lớn AI: Wuwen Core Dome
Ba đồng tác giả của nghiên cứu là Tiến sĩ Dai Guohao, nhà khoa học trưởng của Wuwen Core Dome và phó giáo sư của Đại học Giao thông Thượng Hải, Hong Ke, thực tập sinh nghiên cứu của Wuwen Core Dome và sinh viên thạc sĩ của Đại học Thanh Hoa, và Xu Jiaming, thực tập sinh nghiên cứu của Wuwen Core Dome và nghiên cứu sinh tiến sĩ của Đại học Giao thông Thượng Hải. Các tác giả tương ứng là Giáo sư Dai Guohao của Đại học Giao thông Thượng Hải và Giáo sư Wang Yu, Trưởng khoa Kỹ thuật Điện tử của Đại học Thanh Hoa.
Được thành lập vào tháng 5/2023, mục tiêu là tạo ra giải pháp tốt nhất để tích hợp phần mềm và phần cứng cho các mô hình lớn và FlashDecoding++ đã được tích hợp vào công cụ điện toán mô hình lớn “Infini-ACC”. Với sự hỗ trợ của “Infini-ACC”, Wuwen Core Dome đang phát triển một loạt các giải pháp tích hợp phần mềm và phần cứng quy mô lớn, bao gồm ** mô hình quy mô lớn “Infini-Megrez **”, ** phần mềm và phần cứng tất cả trong một máy **, v.v.
Điều này được hiểu rằng “Infini-Megrez” đã thực hiện rất tốt trong việc xử lý các văn bản dài, tăng độ dài của văn bản có thể được xử lý lên mức kỷ lục 256k mã thông báo ** và việc xử lý thực tế khoảng 400.000 từ của toàn bộ “Vấn đề ba cơ thể 3: Cái chết vĩnh cửu” không phải là vấn đề. Đây là độ dài văn bản dài nhất có thể được xử lý bởi một mô hình lớn hiện nay.
Ngoài ra, mô hình lớn “Infini-Megrez” đã đạt được hiệu suất thuật toán cấp một trên các bộ dữ liệu như C (MEDIUM), MMLU (TIẾNG ANH), CMMLU (medium) và AGI, và liên tục phát triển dựa trên công cụ tính toán “Infini-ACC”.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Suy luận GPU được tăng tốc gấp 4 lần và bối cảnh 256K là dài nhất trên thế giới: Wuwen Core Dome đã lập kỷ lục mới về tối ưu hóa mô hình lớn
Nguồn gốc: Heart of the Machine
Kinh doanh mô hình quy mô lớn đốt bao nhiêu tiền? Cách đây một thời gian, một bài báo trên tờ Wall Street Journal đã đưa ra một câu trả lời tham khảo.
Theo báo cáo, mảng kinh doanh GitHub Copilot của Microsoft (được hỗ trợ bởi mô hình GPT của OpenAI) tính phí 10 đô la mỗi tháng, nhưng nó vẫn có giá trung bình 20 đô la cho mỗi người dùng. Các nhà cung cấp dịch vụ AI đang phải đối mặt với những thách thức kinh tế đáng kể - những dịch vụ này không chỉ tốn kém để xây dựng mà còn rất tốn kém để vận hành.
Có người so sánh nó với việc “sử dụng AI để tóm tắt email giống như yêu cầu một chiếc Lamborghini giao bánh pizza”.
OpenAI đã tính toán một tài khoản chi tiết hơn về điều này: khi độ dài ngữ cảnh là 8K, chi phí của mỗi mã thông báo đầu vào 1K là 3 xu và chi phí đầu ra là 6 xu. Hiện tại, OpenAI có 180 triệu người dùng và nhận được hơn 10 triệu truy vấn mỗi ngày. Bằng cách này, để vận hành một mô hình như ChatGPT, OpenAI cần đầu tư khoảng 7 triệu USD mỗi ngày vào phần cứng máy tính cần thiết, có thể nói là đắt đỏ đến đáng sợ.
Trên thực tế, cộng đồng nghiên cứu đã đề xuất một số công nghệ để tăng tốc các nhiệm vụ suy luận LLM, bao gồm DeepSpeed, FlexGen, vLLM, OpenPPL, FlashDecoding và TensorRT-LLM. Đương nhiên, những công nghệ này cũng có những ưu nhược điểm riêng. Trong số đó, FlashDecoding là một phương pháp hiện đại được đề xuất bởi các tác giả FlashAttention và Trí Đào et al. từ nhóm Đại học Stanford vào tháng trước, giúp cải thiện đáng kể tốc độ suy luận của LLM bằng cách tải dữ liệu song song và được coi là có tiềm năng lớn. Nhưng đồng thời, nó giới thiệu một số chi phí tính toán không cần thiết, vì vậy vẫn còn rất nhiều chỗ để tối ưu hóa.
Để giải quyết vấn đề hơn nữa, một nhóm hợp tác từ Infinigence-AI, Đại học Thanh Hoa và Đại học Giao thông Thượng Hải gần đây đã đề xuất một phương pháp mới, FlashDecoding ++, không chỉ mang lại khả năng tăng tốc cao hơn so với phương pháp trước đó (có thể tăng tốc độ suy luận GPU lên 2-4x), mà quan trọng hơn, hỗ trợ cả GPU NVIDIA và AMD! Ý tưởng cốt lõi của nó là đạt được sự song song thực sự trong tính toán chú ý thông qua cách tiếp cận không đồng bộ và tăng tốc tính toán trong giai đoạn Giải mã để tối ưu hóa sản phẩm ma trận “chunky”. **
** Tăng tốc suy luận GPU lên 2-4x, **
FlashDecoding ++ làm điều đó như thế nào? **
Nhiệm vụ suy luận LLM thường là nhập một đoạn văn bản (mã thông báo) và tiếp tục tạo văn bản hoặc các dạng nội dung khác thông qua tính toán mô hình LLM.
Tính toán suy luận của LLM có thể được chia thành hai giai đoạn: Prefill và Decode, trong đó giai đoạn Prefill tạo ra mã thông báo đầu tiên bằng cách hiểu văn bản đầu vào; Trong giai đoạn Giải mã, các mã thông báo tiếp theo được xuất ra tuần tự. Trong hai giai đoạn, việc tính toán suy luận LLM có thể được chia thành hai phần chính: tính toán chú ý và tính toán nhân ma trận.
Đối với tính toán chú ý, công việc hiện có, chẳng hạn như FlashDecoding, thực hiện tải dữ liệu song song với toán tử softmax trong tính toán chú ý phân đoạn. Phương pháp này giới thiệu 20% chi phí tính toán trong tính toán chú ý do nhu cầu đồng bộ hóa các giá trị tối đa trong các phần khác nhau của softmax. Đối với các phép tính nhân ma trận, trong giai đoạn Giải mã, ma trận nhân trái chủ yếu xuất hiện dưới dạng ma trận “chunky”, nghĩa là số hàng thường không lớn (ví dụ: < = 8) và công cụ suy luận LLM hiện tại mở rộng số hàng lên 64 bằng cách bổ sung 0 để tăng tốc nó bằng kiến trúc như Lõi tensor, dẫn đến một số lượng lớn các phép tính không hợp lệ (nhân với 0).
Để giải quyết các vấn đề trên, ý tưởng cốt lõi của “FlashDecoding ++” là nhận ra tính song song thực sự của tính toán chú ý thông qua các phương pháp không đồng bộ và tăng tốc tính toán trong giai đoạn Giải mã để tối ưu hóa phép nhân ma trận “Humpty Dumpty”. **
** Tính toán Softmax từng phần song song không đồng bộ **
Công trình trước đã nhập giá trị lớn nhất cho mỗi phần của phép tính softmax làm hệ số tỷ lệ để tránh tràn số mũ e trong phép tính softmax, dẫn đến chi phí đồng bộ hóa của các phần khác nhau của phép tính softmax (Hình 1 (a) (b)).
“FlashDecoding ++” chỉ ra rằng đối với hầu hết các LLM, phân phối đầu vào softmax tập trung hơn. Như thể hiện trong Hình 2, hơn 99,99% đầu vào softmax cho Llama2-7B tập trung trong phạm vi [-16,8, 6,5]. Do đó, “FlashDecoding ++” đề xuất sử dụng giá trị tối đa cố định cho một số phép tính softmax (Hình 1 ©), do đó tránh đồng bộ hóa thường xuyên giữa các phép tính softmax khác nhau. Khi đầu vào có xác suất nhỏ nằm ngoài phạm vi đã cho, phép tính softmax của phần này của “FlashDecoding ++” sẽ thoái hóa thành phương pháp tính toán ban đầu.
** Tối ưu hóa sản phẩm ma trận Humpty Dumpty **
Vì đầu vào cho giai đoạn Giải mã là một hoặc một số vectơ mã thông báo, sản phẩm ma trận cho giai đoạn đó hoạt động theo hình dạng “chunky”. Lấy ma trận A×B = C làm ví dụ, trong đó hình dạng của ma trận A và B là M×K và K×N, và ma trận “Humpty Dumpty” nhân M khi M nhỏ hơn. “FlashDecoding ++” chỉ ra rằng ma trận “Humpty Dumpty” bị giới hạn bởi bộ đệm chung và đề xuất các phương pháp tối ưu hóa như cơ chế bộ nhớ cache kép để tăng tốc nó (Hình 3).
Ngoài ra, “FlashDecoding ++” chỉ ra thêm rằng trong giai đoạn suy luận LLM, các giá trị của N và K được cố định cho một mô hình cụ thể. Do đó, “FlashDecoding ++” lựa chọn thích ứng việc triển khai tối ưu sản phẩm ma trận theo độ lớn của M.
**Tăng tốc độ suy luận GPU lên 2-4x **
Hiện tại, FlashDecoding ++ có thể tăng tốc suy luận LLM trên phần phụ trợ của nhiều GPU, chẳng hạn như NVIDIA và AMD (Hình 5). Bằng cách tăng tốc độ tạo mã thông báo đầu tiên trong giai đoạn Prefill và tốc độ tạo của từng mã thông báo trong giai đoạn Giải mã, “FlashDecoding ++” có thể tăng tốc độ tạo cả văn bản dài và ngắn. ** FlashDecoding ++ tăng tốc suy luận trung bình 37% trên NVIDIA A100 so với FlashDecoding và nhanh hơn tới 2-4 lần so với Hugging Face trên phụ trợ đa GPU của NVIDIA và AMD. **
Tân binh khởi nghiệp mô hình lớn AI: Wuwen Core Dome
Ba đồng tác giả của nghiên cứu là Tiến sĩ Dai Guohao, nhà khoa học trưởng của Wuwen Core Dome và phó giáo sư của Đại học Giao thông Thượng Hải, Hong Ke, thực tập sinh nghiên cứu của Wuwen Core Dome và sinh viên thạc sĩ của Đại học Thanh Hoa, và Xu Jiaming, thực tập sinh nghiên cứu của Wuwen Core Dome và nghiên cứu sinh tiến sĩ của Đại học Giao thông Thượng Hải. Các tác giả tương ứng là Giáo sư Dai Guohao của Đại học Giao thông Thượng Hải và Giáo sư Wang Yu, Trưởng khoa Kỹ thuật Điện tử của Đại học Thanh Hoa.
Được thành lập vào tháng 5/2023, mục tiêu là tạo ra giải pháp tốt nhất để tích hợp phần mềm và phần cứng cho các mô hình lớn và FlashDecoding++ đã được tích hợp vào công cụ điện toán mô hình lớn “Infini-ACC”. Với sự hỗ trợ của “Infini-ACC”, Wuwen Core Dome đang phát triển một loạt các giải pháp tích hợp phần mềm và phần cứng quy mô lớn, bao gồm ** mô hình quy mô lớn “Infini-Megrez **”, ** phần mềm và phần cứng tất cả trong một máy **, v.v.
Điều này được hiểu rằng “Infini-Megrez” đã thực hiện rất tốt trong việc xử lý các văn bản dài, tăng độ dài của văn bản có thể được xử lý lên mức kỷ lục 256k mã thông báo ** và việc xử lý thực tế khoảng 400.000 từ của toàn bộ “Vấn đề ba cơ thể 3: Cái chết vĩnh cửu” không phải là vấn đề. Đây là độ dài văn bản dài nhất có thể được xử lý bởi một mô hình lớn hiện nay.