Ngày 17 tháng 2, dữ liệu của Kim Tám cho biết, Microsoft đã phát hành phiên bản mới nhất V2.0 của khung giải mã Agent thị giác OmniParser trên trang web chính thức, có thể biến các mô hình như DeepSeek-R1, GPT-4o, Qwen-2.5VL thành AI Agent có thể sử dụng trên máy tính. So với phiên bản V1, V2 có độ chính xác cao hơn và tốc độ suy luận nhanh hơn khi phát hiện các yếu tố giao diện người dùng nhỏ hơn, TrễThả 60%. Trong bài kiểm tra Điểm chuẩn Agent độ phân giải cao ScreenSpot Pro, độ chính xác của V2 + GPT-4o đạt 39,6%, trong khi độ chính xác ban đầu của GPT-4o chỉ là 0,8%, có bước tiến lớn. Ngoài V2, Microsoft còn Mã nguồn mở omnitool, đây là một hệ thống Windows dựa trên Docker, bao gồm các chức năng như hiểu màn hình, xác định vị trí, lập kế hoạch hành động và thực thi, cũng là công cụ quan trọng để biến các mô hình lớn thành Agent.