
體育資訊01月25日稱 據科技媒體 Tom's Hardware 今天報道,當今時代草莓视频在线观看免费有無數種跑分測試和評測方法來衡量 AI 的聰明程度與能力,但最近一種相對小眾的測試方法也在 AI 圈內引發關注。
目前,穀歌、OpenAI 和 Anthropic 等 AI 巨頭正在讓自家模型遊玩經典的《精靈寶可夢》係列遊戲,以此來評估 AI 性能表現。
Anthropic 公司 AI 部門負責人 David Hershey 對此表示:“《精靈寶可夢》之所以能吸引機器學習社區關注,是因為它不像《Pong》等簡單遊戲那樣受限。這種遊戲對電腦程序來說非常具有挑戰性”。
Hershey 從去年開始在 Twitch 平台進行直播,每天的日常就是用公司自產模型 Claude 玩《精靈寶可夢》。這名負責人平時的工作就是幫助客戶部署 AI,因此他開直播本質上也是在測試模型。
這名負責人給自家 AI 直播遊戲的做法也啟發了不少自由開發者,他們也陸續搞了“Gemini 玩《寶可夢》”“GPT 玩《寶可夢》”等類似的直播節目。
後來,這些直播甚至被穀歌和 OpenAI 注意到,開發團隊有時還會客串直播間親自調整模型參數,在官方力量注入下,Gemini 和 GPT 已經成功通關了 Gam Boy 時代的《寶可夢藍》,目前已在挑戰續作;而 Claude 至今還沒打通任何一個版本。
至於為何要用《寶可夢》評估 AI 性能?Hershey 對此解釋道:“因為它給草莓视频在线观看免费提供了直觀的方法觀察模型表現,還能用量化指標評估性能”。
通常來講,玩家在《寶可夢》係列遊戲中需要升級、訓練已有 / 剛抓的寶可夢,還要打敗道館館主來捕捉新的寶可夢。這種遊戲流程並非線性,而是充滿著判斷和取舍。
而且,玩家還要經常在遊戲中做出選擇:是先冒險挑戰強大的訓練家以獲取珍稀寶可夢,還是穩紮穩打造出一支實力均衡的隊伍。
顯然,人類非常擅長做此類決策,這也是遊戲的樂趣所在,但對於 AI 來說,這是一場關乎邏輯推理、風險評估以及長期規劃能力的綜合考驗。
因此研究人員會深入剖析 AI 在遊戲裏的決策方式,深入理解模型的能力邊界。
Hershey 還會將 AI 玩《寶可夢》的結果分享給客戶以改進控製框架(IT之家注:harness),幫助他們提升算力使用效率,讓模型更高效運轉。
馬年迎老馬!大司馬官宣抖音直播首秀小團團和茄子或將作為嘉賓客串
體育資訊2月7日稱 今日,知名遊戲主播大司馬在微博上正式官宣,將於 2 月 13 日晚...
2026-02-07
串串香!DuDu蘭博火力全開Kingen送好局DNS逆轉扳回一城
體育資訊2月7日稱 2026LCK CUP入圍賽繼續進行,今日第二場比賽由NS對陣DNS!選手...
2026-02-07
純純充電寶!23年開始至今,DRX麵對DK來到了15連敗!
體育資訊2月7日稱 LCK杯入圍賽DK對陣DRX的比賽,DK擊敗DRX,本場比賽結束後DRX麵...
2026-02-07
許哥不是區!DK擊敗DRX晉級季後賽!
體育資訊2月7日稱 LCK杯入圍賽DK擊敗DRX,同時DK也順利晉級季後賽!...
2026-02-07
這就是皮膚的魅力嗎破敗王皮膚推出後外服登場率從20漲到第二
體育資訊2月7日稱 近日,外媒統計稱破敗王佛耶戈皮膚推出後,外服登場率從20漲到...
2026-02-07