Có một bài báo nghiên cứu sâu sắc xứng đáng được chú ý nếu bạn đang tìm hiểu cách các hệ thống AI hiện đại hoạt động ở mức độ cơ bản.



Các công trình học thuật gần đây đã phát hiện ra điều thú vị: việc đào tạo transformer tiêu chuẩn không chỉ học các mẫu một cách ngẫu nhiên—nó đang thực thi một thuật toán Expectation-Maximization một cách ngầm định. Dưới đây là phân tích giúp bạn hiểu rõ hơn:

Cơ chế chú ý thực hiện bước E, về cơ bản là phân bổ mềm các vị trí token thực sự quan trọng và xứng đáng được tập trung tính toán. Trong khi đó, các biến đổi giá trị thực hiện bước M, liên tục tinh chỉnh và cập nhật các biểu diễn đã học dựa trên các trọng số chú ý đó.

Mối liên hệ giữa kiến trúc transformer và các thuật toán EM này có ý nghĩa lớn đối với bất kỳ ai xây dựng hạ tầng AI hoặc nghiên cứu cách mạng neural xử lý dữ liệu theo trình tự. Nó gợi ý rằng các mô hình này đang giải quyết các bài toán tối ưu hóa theo một cách rất cụ thể, có cấu trúc—không phải qua việc ghép mẫu một cách brute-force, mà qua một khung xác suất tinh tế.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • Đăng lại
  • Retweed
Bình luận
0/400
SeeYouInFourYearsvip
· 4giờ trước
ngl Cách tiếp cận của thuật toán EM này vẫn khá thú vị, transformer thực ra chính là đang chơi trò chơi xác suất đấy
Xem bản gốcTrả lời0
QuietlyStakingvip
· 4giờ trước
Vì vậy, transformer thực ra chính là đang lén lút chạy thuật toán EM... nếu biết sớm hơn thì tốt rồi, cảm giác nhiều thứ đột nhiên sáng tỏ.
Xem bản gốcTrả lời0
GasFeeVictimvip
· 4giờ trước
Có chút rối rồi... transformer thực ra chạy là thuật toán EM? Cảm giác hơi quá học thuật, tôi chỉ muốn biết điều này có giúp giảm phí gas không thôi
Xem bản gốcTrả lời0
Lonely_Validatorvip
· 5giờ trước
Ồ, luận văn này có vẻ ổn đấy, chuyện transformer chạy thuật toán EM tôi đã nghe qua rồi, cảm giác hơi quá giải thích rồi Đừng nói nữa, tôi chỉ muốn biết cái này có giúp gì cho mô hình trên chuỗi không... Khung toán học nghe có vẻ hay đấy, nhưng thực chiến có thể tối ưu được bao nhiêu? Emmm lại là phần giới thiệu nguyên lý nền tảng, chúng ta bao giờ mới thấy được cải thiện về hiệu năng nhỉ... Chỉ biết dùng thuật toán EM thì cũng vô ích, quan trọng vẫn là thực hiện kỹ thuật Có chút thú vị, nhưng cảm giác giới học thuật thường làm phức tạp hóa những chuyện đơn giản
Xem bản gốcTrả lời0
DegenRecoveryGroupvip
· 5giờ trước
Cách nói transformer chạy thuật toán EM nghe có vẻ thú vị, nhưng cảm giác giới học thuật lại đang cố gắng làm mới những thứ đã cũ để tạo ra khái niệm mới...
Xem bản gốcTrả lời0
ShibaSunglassesvip
· 5giờ trước
Cơ chế attention chạy theo thuật toán EM à? logic này hơi quái đấy, trước giờ chưa từng nghĩ đến góc độ này...
Xem bản gốcTrả lời0
ReverseTradingGuruvip
· 5giờ trước
Transformer chạy chính là thuật toán EM sao? Vậy là thuật toán sắp thất nghiệp rồi haha
Xem bản gốcTrả lời0
  • Ghim