該系統名為“Vantage”，是一個由AI驅動的實驗性系統，旨在通過模擬互動環境支持這些能力的發展與評估，該項目由教育專家和研究人員合作開發，包括來自紐約大學的貢獻者。它旨在作為一個結構化的沙箱，讓學生在類似數學或科學等核心學科中應用的方法，練習並被評估未來技能。該系統目前在Google Labs提供英文版本。

該過程通過將用戶置於模擬的多代理環境中，讓他們與AI生成的虛擬角色在開放式情境中互動，例如辯論、協作解決問題或專案規劃練習。在此設置中，一個協調“執行大型語言模型（Executive LLM）”利用預設的評估框架引導互動，並動態調整對話條件。這包括引入分歧、挑戰假設或引導對話方向，以產生與目標技能相關的可觀察行為證據。

基於模擬的AI框架用於評估未來技能

同時，一個獨立的AI評估模型在任務完成後分析整個互動過程。它使用相同的結構化評分標準，評估對話記錄，並生成詳細的表現檔案，將觀察到的行為映射到特定技能類別。輸出包括量化評分和質性反饋，將複雜的人際互動轉化為結構化且可衡量的技能表現指標。

為了確保方法的可靠性，該系統與紐約大學合作，通過控制性研究對188名18至25歲的參與者進行測試。這些評估主要集中在協作相關的能力，如衝突解決和專案協調。結果顯示，基於AI的對話引導比非引導模型產生了更多可評估的技能證據，同時在多個任務中保持了連貫且自然的對話流程。

進一步的測試將AI生成的評分與人類專家評估進行比較，使用相同的教學評分標準。結果顯示，AI評估者與人類評分者之間的一致性水平與人與人之間的協議相當。這表明自動化系統能在結構化評估中接近專家級的一致性。

此外，與外部合作夥伴如OpenMic的驗證擴展到涉及多媒體和文學的創意及語言任務。在這些案例中，AI生成的評價與專家人類評分呈現出強烈的相關性，進一步證明該系統在超越結構化團隊合作場景、進入更開放的創意領域方面的潛力。

這種基於模擬的系統未來可能被整合到教育環境中，作為傳統評估方法的補充層，進行額外的評價。這將使學生不僅在學科知識上受到評估，也能在受控的模擬環境中評估應用人際和認知技能。該研究的更廣泛目標是使未來技能的衡量更具規模性，並使教育評估更貼近不斷變化的勞動市場需求。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
15.39萬熱度
#
Gate13週年現場直擊
42.02萬熱度
#
美伊局勢和談與增兵博弈
77.4萬熱度
#
加密市場回升
9.78萬熱度
#
WCTC交易賽瓜分800萬USDT
62.67萬熱度

Google 新的「Vantage」平台利用 AI 虛擬人偶測試批判性思維、協作能力與現實世界技能

基於模擬的AI框架用於評估未來技能

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

美伊局勢和談與增兵博弈

加密市場回升

WCTC交易賽瓜分800萬USDT

置頂