Lâm Tuấn Dương rời khỏi Alibaba lần đầu đăng bài: Thời đại trí thông minh đang đến gần

__

_ Tác giả: Lâm Tuấn Dương, từng là người phụ trách Qwen của Tongyi, là P10 trẻ nhất tại Alibaba. Rời Alibaba vào tháng 3 năm 2026. _

_ Tiêu đề gốc: 《Từ tư duy “Lý luận” đến tư duy “Đại lý”》_

Hai năm qua đã tái định hình cách chúng ta đánh giá các mô hình và kỳ vọng của chúng. O1 của OpenAI đã chứng minh rằng “suy nghĩ” có thể trở thành một khả năng hàng đầu (first-class capability), một khả năng mà bạn có thể đào tạo chuyên biệt cho nó và mở cho người dùng. DeepSeek-R1 chứng minh rằng, kiểu suy luận này hoàn toàn có thể được sao chép và mở rộng bên ngoài các phòng thí nghiệm hàng đầu ban đầu. OpenAI mô tả o1 là một mô hình “suy nghĩ trước khi trả lời” được đào tạo bằng cách học tăng cường; trong khi DeepSeek định vị R1 như một mô hình suy luận mã nguồn mở có thể cạnh tranh trực tiếp với o1.

Giai đoạn đó có ý nghĩa quan trọng. Nhưng nửa đầu năm 2025 chủ yếu tập trung vào “tư duy suy luận”: làm thế nào để mô hình có thể đầu tư nhiều hơn vào năng lực tính toán suy luận, làm thế nào để đào tạo chúng bằng tín hiệu thưởng mạnh mẽ hơn, và làm thế nào để trình bày hoặc kiểm soát sự đầu tư suy luận bổ sung này. Câu hỏi hiện tại là, bước tiếp theo là gì? Tôi tin rằng câu trả lời là “tư duy đại lý” (agentic thinking): suy nghĩ để hành động, liên tục cập nhật kế hoạch dựa trên phản hồi từ thế giới thực trong quá trình tương tác với môi trường.

  1. O1 và R1 đã dạy chúng ta điều gì thật sự

Làn sóng đầu tiên của các mô hình suy luận đã dạy chúng ta rằng: nếu muốn mở rộng học tăng cường (RL) trong mô hình ngôn ngữ, chúng ta cần tín hiệu phản hồi chắc chắn, ổn định và có thể mở rộng. Toán học, mã nguồn, logic và các lĩnh vực có thể xác minh khác trở thành cốt lõi, vì trong những kịch bản này, tín hiệu thưởng mạnh mẽ hơn nhiều so với giám sát sở thích thông thường. Chúng cho phép học tăng cường tối ưu hóa cho “độ chính xác” thay vì “sự hợp lý có vẻ bên ngoài”. Cơ sở hạ tầng sau đó trở thành trọng tâm.

Khi mô hình được đào tạo để suy luận qua các quỹ đạo dài hơn, học tăng cường không còn chỉ là một thành phần bổ sung nhẹ cho tinh chỉnh có giám sát (SFT) nữa. Nó trở thành một vấn đề hệ thống phức tạp. Bạn cần triển khai chiến lược quy mô lớn (rollouts), cơ chế xác thực có thông lượng cao, cập nhật chiến lược ổn định và khả năng lấy mẫu hiệu quả. Sự xuất hiện của các mô hình suy luận không chỉ là một bước đột phá trong khả năng mô hình hóa mà còn là một chiến thắng trong kỹ thuật cơ sở hạ tầng. OpenAI mô tả o1 như một dòng sản phẩm suy luận được đào tạo bằng RL, trong khi DeepSeek R1 sau đó đã xác nhận thêm hướng đi này, nó cho thế giới thấy quy mô khổng lồ của thuật toán và công việc cơ sở hạ tầng cần thiết cho RL dựa trên suy luận. Đây là sự chuyển biến lớn đầu tiên trong ngành: từ mở rộng tiền đào tạo, chuyển sang mở rộng đào tạo sau để củng cố khả năng suy luận.

  1. Vấn đề thật sự không chỉ là “tích hợp suy nghĩ và chỉ dẫn”

Vào đầu năm 2025, nhiều người trong đội Qwen của chúng tôi có một tầm nhìn lớn lao: hệ thống lý tưởng nên thống nhất hai chế độ “suy nghĩ” và “chỉ dẫn”. Nó sẽ hỗ trợ mức độ suy luận có thể điều chỉnh, về mặt tinh thần tương tự như các cài đặt suy luận “thấp/trung/bình cao”. Tốt hơn nữa, nó có thể tự động suy ra mức độ suy luận cần thiết dựa trên từ khóa và bối cảnh, từ đó tự quyết định khi nào trả lời ngay lập tức, khi nào cần suy nghĩ thêm một lúc, và khi nào cần đầu tư số lượng tính toán khổng lồ vào những vấn đề thực sự khó khăn.

Về mặt khái niệm, đây là một hướng đi đúng. Qwen3 là một trong những nỗ lực công khai rõ ràng nhất. Nó giới thiệu “chế độ suy nghĩ hỗn hợp”, cân bằng giữa suy nghĩ và hành vi không suy nghĩ trong cùng một dòng mô hình, nhấn mạnh ngân sách suy nghĩ có thể kiểm soát, và mô tả một quy trình đào tạo sau bốn giai đoạn - trong đó rõ ràng bao gồm “tích hợp chế độ suy nghĩ” sau khi khởi động lạnh chuỗi suy nghĩ dài (long-CoT) và RL suy luận.

Tuy nhiên, việc tích hợp nói thì dễ, làm thì khó. Điểm khó khăn nằm ở dữ liệu. Khi mọi người bàn về việc tích hợp suy nghĩ và chỉ dẫn, điều đầu tiên họ thường nghĩ đến là khả năng tương thích của mô hình: một điểm kiểm tra (checkpoint) có thể hỗ trợ cả hai chế độ không? Một mẫu trò chuyện có thể chuyển đổi liền mạch giữa hai chế độ không? Chồng dịch vụ có thể cung cấp công tắc điều khiển tương ứng không? Nhưng mâu thuẫn sâu hơn nằm ở chỗ, sự phân bố dữ liệu và mục tiêu hành vi của hai chế độ này có sự khác biệt bản chất.

Khi cố gắng cân bằng giữa “tích hợp mô hình” và “nâng cao chất lượng và sự đa dạng của dữ liệu đào tạo sau”, chúng tôi đã gặp phải một số cạm bẫy. Trong quá trình xem xét lại, chúng tôi đã chú ý sát sao đến cách người dùng thực sự sử dụng chế độ suy nghĩ và chỉ dẫn trong các kịch bản thực tế. Một mô hình chỉ dẫn mạnh mẽ thường nhận được phần thưởng từ việc trực tiếp, ngắn gọn, tuân theo định dạng, và duy trì độ trễ cực thấp trong các nhiệm vụ doanh nghiệp quy mô lớn có tính lặp lại (như viết lại, gán nhãn, hỗ trợ mẫu, trích xuất có cấu trúc và câu hỏi đáp vận hành). Ngược lại, một mô hình suy nghĩ mạnh mẽ thì phần thưởng đến từ việc tiêu tốn nhiều token hơn trong các bài toán khó, duy trì tính liên kết của cấu trúc logic bên trong, khám phá các con đường thay thế và giữ đủ khối lượng tính toán bên trong để nâng cao đáng kể độ chính xác cuối cùng.

Hai kiểu hành vi này kìm hãm lẫn nhau. Nếu dữ liệu tích hợp không được lên kế hoạch cẩn thận, kết quả thường là không ai hài lòng: hành vi “suy nghĩ” trở nên ồn ào, cồng kềnh hoặc do dự; trong khi hành vi “chỉ dẫn” thì mất đi sự rõ ràng, độ tin cậy giảm và chi phí sử dụng vượt xa kỳ vọng thực tế của người dùng thương mại.

Do đó, trong thực tế, việc tách biệt cả hai vẫn có sức hấp dẫn. Vào cuối năm 2025, sau kiến trúc hỗn hợp ban đầu của Qwen3, dòng sản phẩm 2507 đã phát hành các bản cập nhật Instruct (chỉ dẫn) và Thinking (suy nghĩ) hoàn toàn tách biệt, bao gồm các biến thể độc lập 30B và 235B. Trong triển khai thương mại, nhiều khách hàng vẫn khao khát có được hành vi chỉ dẫn với độ thông lượng cao, chi phí thấp và có thể kiểm soát cao cho các tác vụ xử lý hàng loạt. Trong những kịch bản này, việc tích hợp không mang lại lợi ích rõ ràng. Việc tách rời hai dòng sản phẩm lại cho phép đội ngũ giải quyết một cách tinh khiết hơn các vấn đề dữ liệu và đào tạo riêng biệt cho mỗi chế độ.

Các phòng thí nghiệm khác thì chọn hướng đi ngược lại. Anthropic công khai ủng hộ một quan niệm về mô hình tích hợp: Claude 3.7 Sonnet được định vị như một mô hình suy luận hỗn hợp, người dùng có thể chọn phản hồi thông thường hoặc suy nghĩ mở rộng, người dùng API cũng có thể thiết lập ngân sách suy nghĩ. Anthropic đã tuyên bố rõ ràng rằng họ tin rằng suy luận nên là một khả năng tích hợp sẵn, không phải là các mô hình độc lập bị tách rời. GLM-4.5 cũng tự hào là một mô hình suy luận hỗn hợp vừa có hai chế độ, cố gắng tích hợp suy luận, mã hóa và khả năng đại lý; DeepSeek cũng đã giới thiệu cơ chế suy luận hỗn hợp “suy nghĩ và không suy nghĩ” phiên bản V3.1 sau đó.

Câu hỏi cốt lõi ở đây là, liệu sự tích hợp này có tự nhiên và hữu cơ không. Nếu suy nghĩ và chỉ dẫn chỉ đơn giản bị ép vào cùng một trọng số mô hình, nhưng lại thể hiện như hai nhân cách độc lập được khâu lại một cách vụng về, thì trải nghiệm sản phẩm vẫn sẽ rất không đồng nhất. Sự tích hợp thành công thực sự cần một khoảng cách đầu tư suy luận mượt mà. Mô hình nên có khả năng thể hiện mức độ đầu tư khác nhau, và trong điều kiện lý tưởng, tự thích ứng để đưa ra lựa chọn. Kiểm soát mức độ kiểu GPT chính xác chỉ ra điều này: đó là một chiến lược phân bổ năng lực tính toán, chứ không phải chỉ là một công tắc nhị phân đơn giản.

  1. Tại sao hướng đi của Anthropic là một sự điều chỉnh hữu ích

Anthropic trong việc công bố Claude 3.7 và Claude 4 có vẻ khá kiềm chế. Họ đã tập trung vào suy luận tích hợp, ngân sách suy nghĩ có thể kiểm soát từ người dùng, nhiệm vụ thế giới thực, chất lượng mã hóa, và khả năng gọi công cụ trong quá trình suy nghĩ mở rộng mà họ sau đó đã giới thiệu. Claude 3.7 được trình bày như một mô hình suy luận hỗn hợp có ngân sách có thể kiểm soát; Claude 4 tiến xa hơn, cho phép quá trình suy luận đan xen với việc gọi công cụ. Trong khi đó, Anthropic nhấn mạnh rằng, mã hóa, nhiệm vụ kéo dài và quy trình làm việc của đại lý mới là mục tiêu chính của họ.

Chỉ việc tạo ra các quỹ đạo suy luận dài hơn sẽ không tự động làm cho mô hình trở nên thông minh hơn. Trong nhiều trường hợp, quá nhiều quá trình suy luận được hiển thị ra ngoài lại tiết lộ sự phân bổ năng lực tính toán không hiệu quả. Nếu mô hình cố gắng suy luận bằng cách dài dòng như nhau cho mọi thứ, điều đó cho thấy nó không thể phân loại độ ưu tiên, không thể tinh giản thông tin, hoặc hoàn toàn không thể hành động thực tế. Quá trình phát triển của Anthropic truyền đạt một quan điểm có kỷ luật hơn: suy nghĩ nên được hình thành bởi khối lượng công việc mục tiêu. Nếu mục tiêu là mã hóa, thì giá trị của suy nghĩ nên được thể hiện trong việc điều hướng thư viện mã, lập kế hoạch, phân tách nhiệm vụ, phục hồi lỗi và phối hợp công cụ. Nếu mục tiêu là quy trình làm việc của đại lý, thì suy nghĩ nên tập trung vào việc nâng cao chất lượng thực hiện trong dài hạn, thay vì viết ra một bài luận trung gian hoa mỹ.

Sự nhấn mạnh này về “tính hữu ích của mục tiêu” chỉ ra một xu hướng lớn hơn: chúng ta đang chuyển từ thời đại đào tạo mô hình sang thời đại đào tạo đại lý (Agents). Chúng tôi cũng đã chỉ ra điều này trong blog của Qwen3 - “Chúng ta đang chuyển từ một thời đại tập trung vào đào tạo mô hình sang một thời đại tập trung vào đào tạo đại lý”, và liên kết các đột phá RL trong tương lai với phản hồi môi trường cần thiết cho suy luận dài hạn. Đại lý được định nghĩa là một hệ thống có khả năng lập kế hoạch, quyết định khi nào hành động, gọi công cụ, cảm nhận phản hồi từ môi trường, điều chỉnh chiến lược và hoạt động liên tục trong thời gian dài. Định nghĩa bản chất của nó nằm ở việc tương tác vòng kín với thế giới thực.

  1. Tư duy đại lý thực sự có ý nghĩa gì

Tư duy đại lý là một mục tiêu tối ưu hóa hoàn toàn khác. Tiêu chí đánh giá “tư duy suy luận” thường là chất lượng của sự xem xét nội bộ trước khi đưa ra câu trả lời cuối cùng: mô hình có thể giải quyết định lý, viết chứng minh, tạo ra mã không lỗi, hoặc chạy qua kiểm tra chuẩn không? Trong khi đó, tiêu chí đánh giá “tư duy đại lý” là liệu mô hình có thể liên tục đạt được tiến bộ thực chất trong quá trình tương tác với môi trường hay không.

Câu hỏi cốt lõi đã chuyển từ “thời gian suy nghĩ của mô hình có đủ lâu không?” sang “cách suy nghĩ của mô hình có đủ sức hỗ trợ cho nó thực hiện hành động hiệu quả không?” Tư duy đại lý phải xử lý một số vấn đề mà các mô hình suy luận thuần túy có thể tránh được:

  • a. Quyết định khi nào dừng suy nghĩ và hành động

  • b. Chọn công cụ nào để gọi và trình tự gọi

  • c. Tích hợp các quan sát ồn ào hoặc thiếu sót từ môi trường

  • d. Điều chỉnh lại kế hoạch sau khi gặp thất bại

  • e. Duy trì tính logic liên kết trong các cuộc đối thoại nhiều vòng và nhiều lần gọi công cụ

Nói ngắn gọn, các mô hình có tư duy đại lý phải suy luận thông qua hành động.

  1. Tại sao hạ tầng học tăng cường đại lý khó khăn hơn

Một khi mục tiêu từ “giải quyết bài kiểm tra chuẩn” chuyển sang “hoàn thành nhiệm vụ tương tác”, ngăn xếp công nghệ RL sẽ xảy ra những thay đổi lớn. Cơ sở hạ tầng mà RL suy luận truyền thống sử dụng đã không còn đủ nữa. Trong RL suy luận, bạn thường có thể coi việc triển khai chiến lược (rollouts) như những quỹ đạo tương đối độc lập, chỉ cần trang bị một bộ đánh giá rõ ràng. Nhưng trong RL đại lý, chiến lược bị nhúng sâu vào một khung hỗ trợ lớn lao: máy chủ công cụ, trình duyệt, thiết bị đầu cuối, công cụ tìm kiếm, mô phỏng, hộp cát thực thi, lớp API, hệ thống ghi nhớ và khung phối hợp. Môi trường không còn là một trọng tài tĩnh; nó trở thành một phần không thể tách rời của toàn bộ hệ thống đào tạo.

Điều này tạo ra một nhu cầu hệ thống hoàn toàn mới: đào tạo và suy luận phải được tách rời triệt để hơn. Thiếu sự tách rời này, thông lượng của việc triển khai chiến lược sẽ trực tiếp sụp đổ. Hãy tưởng tượng một đại lý mã hóa, nó phải chạy mã do nó tạo ra trong một khung thử nghiệm thời gian thực: đầu suy luận sẽ bị buộc phải dừng lại vì chờ phản hồi thực thi, trong khi đầu đào tạo sẽ bị đói vì không nhận được dữ liệu quỹ đạo đầy đủ, toàn bộ hiệu suất GPU của quy trình sẽ thấp hơn nhiều so với mức của RL suy luận truyền thống. Nếu thêm vào độ trễ công cụ, khả năng quan sát cục bộ và môi trường trạng thái, những vấn đề không hiệu quả này sẽ càng bị khuếch đại. Kết quả là, trước khi bạn đạt được các chỉ số năng lực mong đợi, toàn bộ tiến trình thí nghiệm sẽ trở nên cực kỳ chậm chạp và đau đớn.

Môi trường cũng do đó trở thành sản phẩm nghiên cứu cốt lõi. Trong thời đại SFT (tinh chỉnh có giám sát), chúng tôi đã quá chăm chú vào sự đa dạng của dữ liệu. Nhưng trong thời đại đại lý, chúng tôi nên tập trung vào chất lượng của môi trường: ổn định, tính xác thực, độ bao phủ của cảnh, thang độ khó, sự đa dạng trạng thái, độ phong phú của phản hồi, khả năng chống gian lận, và khả năng mở rộng của việc triển khai chiến lược. Xây dựng môi trường ảo đã trở thành một lĩnh vực khởi nghiệp thực sự khó khăn, không còn đơn thuần là một dự án phụ. Nếu đại lý phải được đào tạo trong điều kiện giống như môi trường sản xuất, thì chính môi trường đó là một phần của công nghệ cốt lõi.

  1. Lĩnh vực tiên phong tiếp theo: Năng lực suy nghĩ thực tiễn hơn

Dự đoán cá nhân của tôi là, tư duy đại lý sẽ trở thành hình thức suy nghĩ chủ đạo trong tương lai. Tôi tin rằng cuối cùng nó sẽ loại bỏ phần lớn loại suy nghĩ “độc thoại tĩnh” lỗi thời - tức là loại suy nghĩ quá dài dòng, bị cô lập và cố gắng dùng việc phát ra càng nhiều văn bản càng tốt để che giấu khả năng tương tác kém của quỹ đạo nội bộ. Ngay cả khi đối mặt với các nhiệm vụ toán học hoặc mã hóa cực kỳ khó khăn, một hệ thống thực sự tiên tiến cũng nên có quyền tìm kiếm, mô phỏng, chạy, kiểm tra, xác minh và chỉnh sửa. Mục tiêu cuối cùng của chúng tôi là giải quyết các vấn đề thực tế một cách vững chắc và hiệu quả.

Điểm đau lớn nhất trong việc đào tạo các hệ thống như vậy là “gian lận thưởng” (reward hacking). Một khi mô hình có quyền truy cập công cụ thực chất, gian lận thưởng sẽ trở nên rất phá hoại. Một mô hình có chức năng tìm kiếm có thể học cách lên mạng để tìm câu trả lời trong quá trình đào tạo RL. Một đại lý mã hóa có thể lợi dụng thông tin tương lai chưa công bố trong thư viện mã, lạm dụng nhật ký, hoặc tìm ra một cách nào đó để khiến nhiệm vụ trở nên vô hiệu. Một môi trường có lỗ hổng ẩn sẽ khiến chiến lược của mô hình trông nổi bật hơn người khác, nhưng thực ra lại chỉ đào tạo ra một chuyên gia gian lận. So với thời kỳ suy luận, tình hình trong thời đại đại lý phức tạp và nguy hiểm hơn nhiều. Các công cụ mạnh mẽ hơn khiến mô hình hữu ích hơn, nhưng cũng khuếch đại gấp bội diện tấn công của tối ưu hóa giả mạo. Chúng ta hoàn toàn có thể dự đoán rằng, ngưỡng học thuật nghiêm trọng tiếp theo sẽ xuất hiện trong thiết kế môi trường, độ vững chắc của các bộ đánh giá, giao thức chống gian lận, và trong việc xây dựng các tiêu chuẩn giao diện có quy định hơn giữa chiến lược và thế giới vật lý. Mặc dù còn nhiều khó khăn, nhưng hướng đi lớn không thể bị lung lay: suy nghĩ được hỗ trợ bởi công cụ, về bản chất, có giá trị hơn so với suy nghĩ khép kín, và có khả năng mang lại bước nhảy vọt thực sự về năng suất.

Tư duy đại lý cũng đồng nghĩa với sự trỗi dậy của “kỹ thuật khung hỗ trợ” (harness engineering). Trí tuệ cốt lõi trong tương lai sẽ ngày càng phụ thuộc vào cách tổ chức hợp tác giữa nhiều đại lý: một bộ điều phối trung tâm chịu trách nhiệm lập kế hoạch và điều độ nhiệm vụ, các đại lý chuyên dụng đóng vai trò là chuyên gia lĩnh vực, và các đại lý con chịu trách nhiệm thực hiện các nhiệm vụ phân đoạn dọc (chúng không chỉ làm việc mà còn giúp kiểm soát bối cảnh, tránh ô nhiễm bộ nhớ, và duy trì sự tách biệt vật lý giữa các cấp độ suy nghĩ khác nhau). Tương lai của ngành công nghiệp đang chuyển từ đào tạo mô hình sang đào tạo đại lý, và cuối cùng tiến đến đào tạo các hệ thống khổng lồ.

Kết luận

Giai đoạn đầu tiên của làn sóng suy luận đã thiết lập một quy luật sắt: chỉ cần tín hiệu phản hồi đủ đáng tin cậy và cơ sở hạ tầng chịu đựng được, việc chồng lên học tăng cường trên mô hình ngôn ngữ có thể dẫn đến khả năng nhận thức xảy ra sự chuyển biến chất.

Và sự chuyển mình sâu sắc hơn trong ngành đang chuyển từ “tư duy suy luận” sang “tư duy đại lý”: tức là từ việc chỉ đơn giản là suy nghĩ thêm một chút, chuyển sang suy nghĩ để hành động. Mục tiêu cốt lõi của việc đào tạo đã chuyển đổi. Nó không còn chỉ là mô hình bản thân, mà là hệ thống cộng sinh của “mô hình + môi trường”, cụ thể hơn là các đại lý và khung hỗ trợ xung quanh chúng. Điều này hoàn toàn lật đổ nhận thức của chúng ta về “sản phẩm nghiên cứu cốt lõi”: cấu trúc mô hình và dữ liệu đào tạo chắc chắn quan trọng, nhưng thiết kế môi trường, cơ sở hạ tầng cho triển khai chiến lược, khả năng kháng nhiễu của bộ đánh giá, và giao diện nền tảng cho sự hợp tác giữa nhiều đại lý sẽ được nâng lên vị trí tương đương hoặc thậm chí cao hơn. Nó cũng định nghĩa lại cái gì là “suy nghĩ tốt”: “tốt” thực sự, có nghĩa là trong các ràng buộc của thế giới thực, đường đi suy nghĩ nào có thể hỗ trợ hiệu quả nhất cho hành động, thay vì chỉ đơn giản là cạnh tranh ai tạo ra văn bản dài nhất, ai có quá trình tính toán nổi bật nhất.

Điều này cũng thay đổi logic về các rào cản cạnh tranh thương mại trong tương lai. Trong thời đại suy luận, ai có thuật toán RL tốt hơn, tín hiệu phản hồi tinh khiết hơn và dây chuyền đào tạo có khả năng mở rộng hơn, người đó sẽ chiến thắng. Nhưng trong thời đại đại lý, điểm mạnh sẽ trở thành ai có môi trường giống thật hơn, kiến trúc “đào tạo và suy luận tích hợp” mượt mà hơn, khả năng kỹ thuật khung hỗ trợ mạnh mẽ hơn, và ai có thể hoàn hảo đóng kín vòng phản hồi quan trọng giữa “quyết định của mô hình” và “hệ quả thực tế phát sinh từ quyết định đó”.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim