需要明確的是,此次實驗所使用的并非 1985 年最初發(fā)布的《超級馬力歐兄弟》版本。游戲運行在一個模擬器中,并通過一個名為 GamingAgent 的框架與 AI 進行連接,從而讓 AI 能夠控制馬力歐。GamingAgent 由 Hao 人工智能實驗室自主研發(fā),其向 AI 提供基本指令,例如“如果附近有障礙物或敵人,向左移動或跳躍以躲避”,同時還提供游戲內的截圖。隨后,AI 通過生成 Python 代碼的形式來操控馬力歐。
據實驗室介紹,該游戲環(huán)境迫使每個 AI 模型“學習”如何規(guī)劃復雜的操作并制定游戲策略。有趣的是,實驗發(fā)現像 OpenAI 的 o1 這樣的推理模型(它們通過逐步思考問題來得出解決方案)表現不如“非推理”模型,盡管它們在大多數基準測試中通常表現更強。研究人員指出,推理模型在實時游戲中表現不佳的主要原因之一是它們通常需要花費數秒時間來決定行動。而在《超級馬力歐兄弟》中,時機至關重要,一秒鐘的差別可能意味著安全跳過和墜落死亡的不同結果。
數十年來,游戲一直是衡量 AI 性能的重要工具。然而,一些專家對將 AI 在游戲中的表現與技術進步直接掛鉤的做法提出了質疑。與現實世界相比,游戲往往是抽象且相對簡單的,并且能夠為 AI 訓練提供理論上無限的數據。
IT之家注意到,最近一些引人注目的游戲基準測試結果引發(fā)了 OpenAI 研究科學家、創(chuàng)始成員安德烈?卡帕西(Andrej Karpathy)所說的“評估危機”。他在 X 平臺上發(fā)表的一篇帖子中寫道:“我目前真的不知道該關注哪些 AI 指標?!彼偨Y道:“我的反應是,我目前真的不知道這些模型到底有多好?!?/p>
本站所有直播信號均由用戶收集或從搜索引擎搜索整理獲得,所有內容均來自互聯網,我們自身不提供任何直播信號和視頻內容,如有侵犯您的權益請通知我們,我們會第一時間處理。
Copyright ? 2021-2024 24直播網. All Rights Reserved. 蘇ICP備14038845號-1