Ngày 18 tháng 10, phòng thí nghiệm nghiên cứu AI chuyên về thị trường tài chính nof1 đã khởi xướng một thí nghiệm chưa từng có: để 6 mô hình AI hàng đầu thế giới — GPT-5, Gemini 2.5 Pro, GROK-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — mỗi mô hình tự quản lý 10.000 đô la tiền thật trên Hyperliquid, thực hiện Danh mục đầu tư tiền mã hóa.

Xếp hạng hiện tại và giá trị tài khoản: Tính đến tối ngày 30 tháng 10, xếp hạng mới nhất như sau:
Bảng xếp hạng này đã có những biến động kịch tính so với vài ngày trước. DeepSeek dù vẫn dẫn đầu nhưng tỷ lệ lợi nhuận đã giảm mạnh từ 95.71% xuống còn 56.71%, giá trị tài khoản từ $19,570 giảm xuống $15,671, bốc hơi gần $4,000. Qwen3 cũng trải qua pullback, từ 53.68% xuống còn 25.20%. Đáng chú ý hơn, Claude Sonnet 4.5 từ trạng thái lãi nhẹ chuyển sang lỗ 7%, còn GPT 5 thì lỗ càng nặng, lên tới 72%, chỉ còn cách bị thanh lý không xa.
Thị trường trong kênh tăng, sự khác biệt chiến lược giữa các mô hình bắt đầu lộ rõ:


Thành công của DeepSeek dựa trên “thuận theo xu hướng”: 95% thời gian vị thế Long, tin rằng xu hướng sẽ tiếp diễn. Trong xu hướng tăng, chiến lược này giúp đạt 95% lợi nhuận cao nhất. Nhưng khi xu hướng đảo ngược, chính chiến lược này khiến nó mất 30%.
Điều này phơi bày một vấn đề then chốt: Chiến lược theo xu hướng cần kết hợp cơ chế chốt lời và cắt lỗ hiệu quả. Nếu chỉ “để lợi nhuận chạy”, không “cắt lỗ”, một cú đảo ngược lớn có thể nuốt trọn phần lớn lợi nhuận.
DeepSeek có thể quá tin vào giá trị “nắm giữ lâu dài”, bỏ qua sự bất định của thị trường. Lợi nhuận lớn nhất $7,378 đến từ một giao dịch ETH nắm giữ 60 Giờ, trải nghiệm thành công này có thể củng cố niềm tin “dài hạn”. Nhưng thị trường tài chính không phải đường một chiều, xu hướng có thể đảo ngược bất cứ lúc nào.

Qwen3 đã chứng minh giá trị của Vị thế Short bằng thực tế. 82.4% thời gian Vị thế Short, trong giai đoạn tăng tưởng như “bỏ lỡ cơ hội”, nhưng khi giảm lại thành “tránh lỗ”.
Pullback 26% so với 32%, tưởng chỉ chênh 6 điểm phần trăm, nhưng hiệu ứng lãi kép sẽ khiến khoảng cách ngày càng lớn. Quan trọng hơn, Qwen3 giữ được nhiều tiền gốc và lợi thế tâm lý, khi thị trường ổn định có thể nhanh chóng mở lại vị thế. DeepSeek nếu tiếp tục pullback có thể rơi vào vòng luẩn quẩn “lỗ thả nổi - do dự - bỏ lỡ bật lại”.
Hiệu suất của BTC Buy & Hold là cú tát cho mọi AI “thông minh”. Chiến lược này không phân tích kỹ thuật, không thuật toán phức tạp, không điều chỉnh vị thế liên tục, nhưng hiện xếp thứ ba, vượt một nửa mô hình AI.
Kết quả này cho thấy: Trong giao dịch, mắc ít sai lầm quan trọng hơn làm đúng nhiều lần. Gemini giao dịch 193 lần lỗ 66%, BTC Buy & Hold không giao dịch lần nào vẫn giữ được tiền gốc. Ai thành công hơn? Câu trả lời đã rõ.
Ngoại trừ Qwen3, gần như tất cả AI đều lộ rõ thiếu sót nghiêm trọng về kiểm soát rủi ro:
Điều này cho thấy, các AI này dù “đọc hiểu” được dữ liệu thị trường, “thực hiện” được lệnh giao dịch, nhưng về năng lực cốt lõi là kiểm soát rủi ro thì còn rất non kém.
Xem xong dữ liệu và phân tích, chúng ta dễ bị cuốn hút bởi lợi nhuận 56% của DeepSeek hay lỗ 66% của Gemini. Nhưng trước khi kết luận, cần nhìn thẳng vào những giới hạn hệ thống của thí nghiệm này — có thể còn quan trọng hơn kết quả.
Thí nghiệm này chỉ kéo dài từ 18 đến 30/10, tổng cộng 12 ngày. 12 ngày trong thị trường mã hóa là gì? Có thể chỉ là một phần nhỏ của một chu kỳ bull-bear hoàn chỉnh.
Chúng ta thấy “tăng - đạt đỉnh - pullback” đúng một chu kỳ nhỏ, nhưng đó có thể chỉ là may mắn. Nếu thí nghiệm bắt đầu ở đỉnh thị trường, hoặc gặp một ngày bán phá giá lớn kiểu “519” giảm 30%, thứ hạng có thể đảo ngược hoàn toàn.
Lợi nhuận 56% của DeepSeek có thể phụ thuộc rất nhiều vào đặc điểm thị trường 12 ngày này. Chiến lược 95% vị thế Long là vua trong xu hướng tăng, nhưng nếu gặp 3 tháng Một bên, chiến lược này sẽ bị phí giao dịch và cắt lỗ liên tục bào mòn.
Tương tự, tỷ lệ Vị thế Short 82% của Qwen3 là lợi thế trong thị trường Một bên, nhưng trong bull run kiểu 2021 sẽ thua xa. Một bull run BTC từ $10,000 lên $100,000, Vị thế Short 80% thời gian nghĩa là chỉ ăn được 20% mức tăng.
12 ngày dữ liệu, không đủ chứng minh hiệu quả dài hạn của bất kỳ chiến lược nào.
Cả 6 mô hình AI đều nhận cùng một bộ dữ liệu thị trường và khung lệnh giao dịch. Giống như 6 quản lý quỹ cùng đọc một báo cáo nghiên cứu để ra quyết định — bạn đang kiểm tra kỷ luật thực thi, không phải năng lực nghiên cứu.
Trong thực tế, Alpha đến từ bất đối xứng thông tin. Quỹ định lượng hàng đầu có hệ thống theo dõi on-chain độc quyền, thấy được chuyển động của Cá voi; có dữ liệu dòng lệnh OTC, cảm nhận được động thái tổ chức.
Nhưng trong thí nghiệm này, AI đều nhìn cùng một thông tin. Đây giống như “cuộc thi thực thi”, không phải “cuộc thi sáng tạo chiến lược”.
Chúng ta không thể đánh giá, nếu DeepSeek có dữ liệu on-chain độc quyền, Gemini có phân tích cảm xúc Twitter riêng, ai sẽ là người chiến thắng thực sự.
Mỗi AI chỉ quản lý $10,000 tiền gốc. Trên Hyperliquid, đây là quy mô vốn siêu nhỏ — có thể vào ra bất cứ lúc nào, trượt giá không đáng kể, không lo thanh khoản, không cần chia nhỏ lệnh lớn.
Nhưng trong thế giới giao dịch định lượng thực sự, quản lý $10 triệu và $10,000 là hai “loài” khác nhau.
Thí nghiệm này kiểm tra “tính linh hoạt của vốn nhỏ”, không phải “tính ổn định của chiến lược mở rộng”.
Trong thời gian thí nghiệm, thị trường khá ổn định, Biến động ở mức trung bình. Chúng ta chưa thấy:
Hệ thống kiểm soát rủi ro của các AI chưa từng bị thử thách cực đoan, trong khi đó mới là thử thách thực sự của trader mã hóa. Cơ chế cắt lỗ của DeepSeek sẽ ra sao nếu gặp “giảm sàn liên tục không khớp lệnh”? Không ai biết. Qwen3 đóng vị thế nhanh liệu còn hiệu quả khi sàn sập? Cũng không rõ.
May mắn, trong 12 ngày thí nghiệm, có thể chiếm tỷ trọng lớn hơn chúng ta tưởng.
Đây là thí nghiệm một lần, không có “mùa 2” để kiểm chứng sự ổn định của chiến lược. Chúng ta không thể biết:
Kết quả hiện tại giống như 6 người tung xúc xắc, DeepSeek tung được số lớn nhất. Nhưng không có nghĩa xúc xắc của nó tốt hơn, có thể chỉ là may mắn hơn.
Sau khi xem các giới hạn này, bạn có thể hỏi: Vậy thí nghiệm này còn ý nghĩa gì không?
Có, nhưng ý nghĩa không nằm ở “ai là quán quân”. Giá trị thực sự của thí nghiệm là cho chúng ta thấy:
Nhưng nếu bạn thấy DeepSeek đứng đầu mà định giao tiền cho nó quản lý, hoặc sao chép chiến lược của nó, thì đó là sai lầm lớn.
Quán quân 12 ngày không đại diện cho quán quân 12 tháng; quán quân $10,000 không đại diện cho quán quân $1,000,000; quán quân giai đoạn này không đại diện cho quán quân giai đoạn tiếp theo.
Đầu tư chưa bao giờ có đáp án đơn giản. Thí nghiệm này cho chúng ta dữ liệu quý giá, nhưng giới hạn đằng sau dữ liệu có thể còn đáng suy ngẫm hơn chính dữ liệu.
Dữ liệu báo cáo kỳ này do WolfDAO biên tập tổng hợp, nếu có thắc mắc vui lòng liên hệ chúng tôi để cập nhật;
Tác giả: Riffi / WolfDAO( X : @10xWolfdao )