2025-12-31 16:27:11

Có một bài báo nghiên cứu sâu sắc xứng đáng được chú ý nếu bạn đang tìm hiểu cách các hệ thống AI hiện đại hoạt động ở mức độ cơ bản.

Các công trình học thuật gần đây đã phát hiện ra điều thú vị: việc đào tạo transformer tiêu chuẩn không chỉ học các mẫu một cách ngẫu nhiên—nó đang thực thi một thuật toán Expectation-Maximization một cách ngầm định. Dưới đây là phân tích giúp bạn hiểu rõ hơn:

Cơ chế chú ý thực hiện bước E, về cơ bản là phân bổ mềm các vị trí token thực sự quan trọng và xứng đáng được tập trung tính toán. Trong khi đó, các biến đổi giá trị thực hiện bước M, liên tục tinh chỉnh và cập nhật các biểu diễn đã học dựa trên các trọng số chú ý đó.

Mối liên hệ giữa kiến trúc transformer và các thuật toán EM này có ý nghĩa lớn đối với bất kỳ ai xây dựng hạ tầng AI hoặc nghiên cứu cách mạng neural xử lý dữ liệu theo trình tự. Nó gợi ý rằng các mô hình này đang giải quyết các bài toán tối ưu hóa theo một cách rất cụ thể, có cấu trúc—không phải qua việc ghép mẫu một cách brute-force, mà qua một khung xác suất tinh tế.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

16 thích

Phần thưởng
16
7
Đăng lại
Retweed

Bình luận

0/400

SeeYouInFourYears

· 4giờ trước

ngl Cách tiếp cận của thuật toán EM này vẫn khá thú vị, transformer thực ra chính là đang chơi trò chơi xác suất đấy

Xem bản gốcTrả lời0

QuietlyStaking

· 4giờ trước

Vì vậy, transformer thực ra chính là đang lén lút chạy thuật toán EM... nếu biết sớm hơn thì tốt rồi, cảm giác nhiều thứ đột nhiên sáng tỏ.

Xem bản gốcTrả lời0

GasFeeVictim

· 4giờ trước

Có chút rối rồi... transformer thực ra chạy là thuật toán EM? Cảm giác hơi quá học thuật, tôi chỉ muốn biết điều này có giúp giảm phí gas không thôi

Xem bản gốcTrả lời0

Lonely_Validator

· 5giờ trước

Ồ, luận văn này có vẻ ổn đấy, chuyện transformer chạy thuật toán EM tôi đã nghe qua rồi, cảm giác hơi quá giải thích rồi Đừng nói nữa, tôi chỉ muốn biết cái này có giúp gì cho mô hình trên chuỗi không... Khung toán học nghe có vẻ hay đấy, nhưng thực chiến có thể tối ưu được bao nhiêu? Emmm lại là phần giới thiệu nguyên lý nền tảng, chúng ta bao giờ mới thấy được cải thiện về hiệu năng nhỉ... Chỉ biết dùng thuật toán EM thì cũng vô ích, quan trọng vẫn là thực hiện kỹ thuật Có chút thú vị, nhưng cảm giác giới học thuật thường làm phức tạp hóa những chuyện đơn giản

Xem bản gốcTrả lời0

DegenRecoveryGroup

· 5giờ trước

Cách nói transformer chạy thuật toán EM nghe có vẻ thú vị, nhưng cảm giác giới học thuật lại đang cố gắng làm mới những thứ đã cũ để tạo ra khái niệm mới...

Xem bản gốcTrả lời0

ShibaSunglasses