230個大模型在嬰幼兒認知題上集體翻車!揭秘多模態大模型的核心知識缺陷_速看
CoreCognition團隊 投稿
量子位 | 公眾號 QbitAI
(資料圖片)
一篇被Yann LeCun轉發的ICML 2025研究給了多模態大模型當頭一棒——
大部分AI在復雜任務上表現很好,但在人類從小就會的基礎認知能力上卻很拉垮。
研究者建了測評題庫CoreCognition,覆蓋在人類嬰幼兒階段即出現的12種核心認知能力(如客體永恒、視角采擇、直覺物理、知覺恒常等),用來對模型進行系統性測試。
在CoreCognition基準的1503道“經典發展心理學測驗”上,230個主流模型系統暴露出對世界常識的“核心知識盲區”。
在歸一化準確率對比中,多模態大模型在基礎核心認知能力上普遍落后,差距往往達到兩位數,即便規模更大也難以彌補。
這是否意味著MLLM(多模態大模型)的先天認知結構中,缺少那些支撐早期人類學習的基礎知識機制?
也就是說,它們是否缺乏“core knowledge”(核心認知能力)?
構建CoreCognition Benchmark
來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員,花費一年時間構造并開源了業界首個核心認知基準CoreCognition。
基準圍繞發展心理學與皮亞杰分層框架,覆蓋從連續性到機械推理12 項核心認知概念,共1503道多模態題目,每類≥95例,含圖像與視頻。
研究團隊在設計題目時遵循以下高標準:
- 判別性強
不具備目標核心知識的模型在邏輯上更易選擇錯誤選項。
- 最小混淆
題目盡量僅依賴待測概念完成推理,剔除與其他核心知識或外部能力的耦合,避免跨概念干擾。
- 無文本捷徑
所有題目必須聯合利用圖像與文本才能得出正確答案。
所有數據由12位具備認知科學、計算機科學或統計學背景的高年級本科或研究生協作完成標注與審核,經過兩輪交叉驗證和Amazon Mechanical Turk人工校驗。
干預測試揭示“假理解”陷阱
為了進一步驗證模型是否真的掌握核心概念,研究團隊提出了Concept Hacking(概念干預) 方法:通過構造“對照組”(control)與“干預組”(manipulated),故意在測試任務中反轉與核心知識相關的關鍵特征,但保持其余細節一致,檢測模型是否真正理解概念還是走捷徑。
例如其中的Intuitive Physics測試:
- 原版題
同時釋放兩顆小球,哪一個會先落地?考察基礎直覺物理(相同釋放高度、忽略空氣阻力時,自由落體等時到地)。
- 孿生版
保持大小不變,但改變釋放高度,用以檢驗模型是否真正依據高度差/落地時間推斷,而非套用“同時落地”的固定模板。
- 人類表現
兩題均能作對,能根據高度改變及時更新判斷。
- 模型表現
原題作對(選C),孿生版仍沿用舊模式選C,直接翻車——暴露出對表面模板的依賴,而非對落體規律的真實理解。
一、在與人類早期認知直接相關的低層能力(如邊界感、連續性、客體永恒、空間性、視角采擇等)上,模型顯著落后于高層能力(如意向理解、工具使用、機械推理),與人類各層穩定高分的模式明顯不同。這表明
當前MLLMs在人類早期即具備的基礎“核心知識”上存在系統性短板。
二、關聯性矩陣顯示,高層能力族內關聯較強,底層能力Permanence/Spatiality/Continuity與高層能力相關性普遍偏弱。說明模型缺乏人類由低到高的腳手架式認知發展結構,模型的高級感知與推理并不是建立在基礎的認知能力上的。這也能解釋為什么模型出現魯棒性缺陷。
三、研究團隊將三階段12個核心能力的得分與26個公開基準做相關性分析,結果表明除Perspective和Intuitive Physics外,大多數核心能力與公開基準(除ChartQA)及高層能力顯著正相關。這表明核心知識越強,上層任務越穩。而Perspective和Intuitive Physics能力作為人類高級推理的基礎展現出的低相關性,與我們之前在關系矩陣里看到的模式一致,這正是現有模型核心知識缺陷的直接證據。
四、基于230個模型擬合“規模—表現”的回歸斜率顯示,低層能力隨規模提升改善顯著更少或幾乎不變;其中Perspective-taking甚至出現反向規模效應(模型越大越差)。增加模型規模主要利好高層能力,對低層核心能力幫助有限甚至為負。
五、Concept Hacking實驗結果顯示,大模型相較小模型整體并未取得提升,部分情形甚至更差。這說明單靠擴規模不足以消除對捷徑的依賴,也難以獲得穩健的核心知識。直觀上,模型并非“越大越懂”,而是越大越善于投機。
結合結果圖中的信息,模型可歸納為四類:
- 核心知識型
控制題與操縱題均表現良好(接近人類水平,但樣本占比極少),說明具備穩健的核心概念理解與遷移。
- 捷徑依賴型
控制題得分高、操縱題顯著下降,提示主要依賴表面線索或訓練相似性,缺乏對概念要素的因果把握。
- 核心缺陷型
控制題即低于或接近偶然水平,操縱題亦無穩定收益,反映基礎“核心知識”不足。
- 偶然型
控制題與操縱題均近似隨機波動,整體不可依賴(更多體現噪聲與運氣)。
認知指令帶來短期增益,但難以彌補底層缺口。
對比推理模型與其對應非推理版本模型性能顯示,推理模型多數核心能力任務未見顯著提升,癥結不在“會不會用推理”,而在底層表征是否具備,即預訓練階段對核心知識的覆蓋與結構化不足。
與此同時,研究團隊發現,引入認知指令(在題目前明確提示相關概念,如perspective taking)可帶來約6%的即刻增益,提示模型內部可能分布式存有相關線索,但缺少有效的檢索與調用機制。
然而,此類做法在真實場景中可獲得性與可用性受限,實際應用往往無法提供如此明確的概念標簽來引導模型。
在引人注目的“能寫會畫”之外,真正的智能首先取決于對世界最樸素規則的把握。
這項研究說明:參數堆疊并不等于理解,地基是否扎實才是關鍵。
與其一味追求“更大、更強”,不如換個起點:先把核心知識補齊,讓模型學會在變化、多樣與噪聲中保持一致的常識判斷與因果直覺。
簡單說就是:先長地基,再長樓層;規模是加法,核心認知是乘法。
論文地址:https://arxiv.org/abs/2410.10855
Website:https://grow-ai-like-a-child.github.io/core-knowledge/
Dataset:https://huggingface.co/datasets/williamium/CoreCognition
推薦
財富更多》
-
如何利用銀行的行業分析提升投資策略? 焦點觀察
在投資領域,合理利用銀行的行業分析對...
-
一組數據見證新疆體育70年發展成就
新疆維吾爾自治區從1955年10月1日成立至...
-
中新集團(601512.SH):已洽談落地多家具身智能領域企業_速看
格隆匯10月9日丨中新集團(601512 SH)在...
-
人民銀行上海總部:8月份長三角地區非銀存款同比多增3079億元 每日看點
8月份,長三角地區人民幣存款增加4891億...
-
動態焦點:敬亭山景區發布倡議:請市民長假期間讓景于客
大皖新聞訊宣城市敬亭山旅游投資有限公...
動態更多》
熱點
- 230個大模型在嬰幼兒認知題上集體翻車!揭秘多模態大模型的核心知識缺陷_速看
- 滾動:漢中金融監管分局核準蒲毅中國工商銀行股份有限公司漢中分行行長
- 新資訊:廊坊交管支隊車管所開通綠色窗口幫企業解決燃眉之急
- 漲停雷達:汽車拆解+國企改革+物流+汽車零部件 交運股份觸及漲停
- 9月30日稀土永磁板塊漲幅達2%
- 中國宏橋(01378.HK)9月29日耗資220.5萬港元回購8.8萬股
- A股收評:深成指、創業板指均漲超2%,券商、電池板塊爆發
- 速讀:株洲隊3:0領先邵陽隊!
- 關注:書聲遠去后,一所魯西南村小的“重生”
- 每日聚焦:中網女單第三輪:利斯2-1戰勝萊巴金娜,晉級16強
- 微動態丨東風汽車取得一種車用散熱器風扇的控制方法專利
- 鹽城宏途包裝材料科技有限公司成立 注冊資本10萬人民幣|今日報
- 大連策學盛燈飾商貿商行(個人獨資)成立 注冊資本1萬人民幣|焦點快看
- CCTV5不直播!亞冠第2輪蓉城、申花有望首勝,海港再戰日本球隊
- 湖北鄖陽:濕地公園展生態畫卷_觀點
- 上市六年來首次籌劃重大資產重組 國林科技擬收購凱漣捷控制權 布局順酐產業鏈 今亮點
- 當前熱門:“贛超”聯賽八強淘汰賽(第二回合) 宜春隊挺進半決賽
- 索辰科技:擬收購力控科技60%股權 構成重大資產重組
- 孤雨晚間(09.29)主要商品操作建議_微資訊
- 當前熱點LABUBU隱藏款價格跌破600元,二手平臺投票超六成人看跌拉布布
- 【新要聞】A股受利好因素帶動看多
- 即時看!溫氏股份:受“樺加沙”臺風影響 公司在廣東區域局部資產出現一定損失
- 浙商中拓:提名張旭亮為第八屆董事會獨立董事候選人
- 焦點快播:KFM金德(03816.HK)擬390萬港元出售CNC生產機器
- 國林科技:擬現金購買凱漣捷91.07%的股權_每日消息
- 國慶中秋全國天氣地圖來啦!你要去的地方天氣如何?-當前熱門
- 焦點資訊:蒙山“武彩之夜”點亮雙節夜空 火鳳凰與煙花共舞迎國慶
- 城建發展(600266.SH):收到中科招商2025年半年度分紅款2400萬元
- 百事通!盤龍區果子象手工藝制品工作室(個體工商戶)成立 注冊資本10萬人民幣
- 道達爾(TTE.US)出售北美光伏資產部分股權 以提高綠色投資回報率
- 焦點播報:全新推出!2025“武網寵粉卡”正式上線!
- 氧化亞鎳商品報價動態(2025-09-29)
- 德施曼五大認證獲權威媒體背書,智能鎖行業走出AI實踐樣本
- 科力裝備(301552.SZ):抗VOC污染吸光涂層技術,已成功應用于小米、吉利、奇瑞、大眾等多家車企的相關車型|播報
- 愛麗家居:北美基地9月外產外銷營收占比預計首破50%
- A股收評:深成指、創業板指均漲超2%,券商、電池板塊爆發
- 微速訊:前三季度新成立基金規模近9000億 權益類基金再成“主角”
- 熱點聚焦:再創歷史新高 去年全國有近15億人次走進博物館
- 蘇州玉嘉取得汽車電池盒箱蓋檢具專利,有效提高效率和檢測精度
- 每日焦點!銀行的客戶細分策略如何影響市場定位?
- 40年!兩代人接力守住徽韻記憶
- “看,誰在海里發光!”金秋十月,來上海海洋水族館尋找會發光的海洋精靈
- 蘋果 iOS 版微信官宣:聊天支持發送實況圖、誤刪對話記錄 5 秒內可撤銷_熱點評
- 視焦點訊!這份國慶檔觀影指南,請收好!
- 消息!海東金融監管分局核準劉吉倉青海循化農村商業銀行股份有限公司董事會秘書
- 當前熱議!投資基金時如何判斷市場估值是否合理?
- 欒樹花開秋意濃 滿城風景入畫來-焦點熱聞
- 理解基金的費用透明度對投資的重要性? 每日頭條
- 當前熱議!造紙板塊震蕩走高,景興紙業漲停
- 速看:字古以來丨“木”字家族的奇妙演變之旅
- 金價再刷新高,黃金相關ETF紛紛走強,有色金屬ETF基金(516650)漲2.8%
- 商湯Seko上線一個月,超10萬創作者選擇它 每日報道
- 中網綜合:張帥止步32強 高芙苦戰晉級_新動態
- 縱覽視頻丨頭接肩扛腳踢5米長中幡,一秒喚醒“龍的傳人”血脈
- 人民銀行開展2886億元逆回購操作-即時看
- 每日速讀!融資余額上周增加264.46億元
- 浙江省博物館開啟“智覽”新篇章:Rokid AR眼鏡助力“浙江一萬年”沉浸式體驗
- 創世紀:融資凈買入1334.27萬元,融資余額9.84億元(09-26)_焦點滾動
- 太湖雪:9月26日獲融資買入45.42萬元
- 音樂劇《大田》南京上演,原型趙亞夫現場寄語農科工作者_熱點
- NFL傳奇球星曼寧造訪拜仁俱樂部,獲贈凱恩的簽名球衣
- 跨城赴約,書寫熱愛!第七屆山東省中小學生作文大賽決賽圓滿收官_今日熱訊
- 速讀:株洲隊3:0領先邵陽隊!
- 12秒90!28歲吳艷妮說到做到:問鼎全國冠軍 跑出無人區+霸氣攤手
- 快資訊丨2025京東服務商開放季交流會落幕 “1234”舉措為電商生態注入強勁新動能
- 關注:書聲遠去后,一所魯西南村小的“重生”
- 建設銀行發行2025年首單小微金融債
- 每日速看!工信部等三部門:開展2025年高端醫療裝備項目申報
- 前沿熱點:商務部:做好2026年度汽車和摩托車出口許可申報工作
- 智光電氣籌劃購買控股子公司智光儲能少數股權 9月29日起股票停牌
- 秀我中國|對話何香蓓:做一個和大家一起探路的人 精彩看點
- “科學家精神”進校園活動走進張家口市崇禮區西灣子小學 播報
- 片仔癀(600436.SH):擬斥2億元參投中金醫療基金
- 既有”硬技術“,更有”暖服務“!他們量身定制方案助101歲抗戰老兵抗癌
- 焦點短訊!研報掘金丨中信建投:維持濟川藥業“ 買入”評級,關注研發創新進展
- 焦點熱訊:大華股份榮獲安全科技進步獎一等獎!
- 焦點熱訊:財政部副部長廖岷會見埃塞俄比亞國家銀行行長特卡里恩
- 今日視點:襄陽至荊門高鐵開通 湖北省內快速鐵路環線形成
- 生意社:9月28日山東地區異丁醛價格弱勢下跌_速讀
- 海底撈推出多款秋季新品 番茄鍋年銷量超7000萬份 焦點速讀
- 通訊!“大連不贏都不行!”
- 注意!國慶中秋“雙節”期間長沙公積金業務辦理有調整 快訊
- 當前看點!年輕人的養生革命:從「貼秋膘」到「輕養生」
- 便攜超聲查身體,耳穴埋籽來調理,這場健康主題義診太貼心
- 每日聚焦:中網女單第三輪:利斯2-1戰勝萊巴金娜,晉級16強
- 【環球財經】巴西財長:消費稅改革將使國家走出稅制混亂 今日關注
- 漢威科技:傳感器產業規模尚處于早期階段,目前占整體營收比重仍較低
- 邦彥云PC亮相第三屆快消品數字科技大會,助力快消企業加速數字化轉型躍遷
- 每日視訊:江蘇無錫“太湖攬勝”水上旅游再添兩條新線路
- 突發!王健林、萬達集團被限消!|焦點消息
- 如何看待基金的投資組合在市場波動中的表現?_每日熱點
- 「性能 Ultra」一加 15 新配色曝光,獨家航天級材質詮釋「沙丘美學」
- 今日報丨世界心臟病日:守護心臟 從生活細節開始
- 小鵬MONA M03累計交付18萬臺,連續12個月獲純電A轎銷量冠軍
- 雙匯在健康輕食領域發力 旗下高端輕食品牌“簡頌”發布新品 快資訊
- METASPACEX采納“中國數智科技”為中文股份簡稱
- 焦點訊息:忻州市亨祥汽車銷售有限公司獲準退出,退出日期2025年9月25日
- “七八分飽”如何界定?3個方法來判斷
- 印度棉花種植面積將減少約2-3% 但預期產量有所提高_訊息
- 新疆維吾爾自治區成立70周年-今日聚焦
- 雷軍:2025年第100次健身房打卡 提前3個月完成全年目標!曾稱“體重都不能控制的人 怎能做好企業家”-視點
- 觀點:湖人第3度追求凱斯勒!爵士開高價:拿里夫斯+首輪簽交換
- 處子球來了!扎巴爾尼細膩端射攻獲巴黎生涯處子球,維蒂尼亞助攻
- 2025瀾湄國家青年企業家交流營活動舉行
- 騰訊混元9月28日將發布新一代生圖模型
- 前沿資訊!上汽王曉秋:預計到2030年我國新能源滲透率上升到70%
- 大霧黃色預警!28日早晨江淮之間有濃霧,局地能見度不足200米
- 臉胖了一圈32歲國足歸化費南多曬視頻,拿下iPhone17 promax 聚看點
- 權威數讀|前8個月,規上工業企業利潤實現同比增長_焦點資訊
- 今頭條!中國人壽:緊抓數字化發展趨勢 打造“大后臺+小前端”科技布局
- 2025 國慶中秋假期無人機相機租賃火爆,“以租代買”模式流行_今熱點
- 女友BELLA+封面 | SUPER JUNIOR銀赫:二十年初心的破繭之旅|視點
- 歐洲六代機項目 德法要鬧掰?_快訊
- 焦點報道:TCL 推出類紙屏平板 TAB 8 NXTPAPER 5G:MT8755,199.99 美元
- 每日速訊:Shams:詹姆斯今夏沒有參與湖人隊的運營,他在享受假期
- 華安證券:給予瑞邁特買入評級
- 南京建鄴區:多部門一站式靶向督導,精準整治工地揚塵污染
- 一汽解放申請長行程比例閥結構及車輛相關專利,提高比例閥在整個行程范圍內的控制精度-每日簡訊
- 恒指夜期收盤(9.27︱恒生指數夜期(9月)收報26290點 高水162點
- 司南導航:9月26日獲融資買入2852.85萬元
- 熱文:碭山縣心語食品有限公司成立 注冊資本1萬人民幣
- 【ETF動向】9月26日博時科創綜指ETF基金跌1.55%
- 鐘樓區鄒區楠之鑫燈飾經營部(個體工商戶)成立 注冊資本8萬人民幣
- 當前資訊!錢塘江大潮現壯美“交叉潮”
- 焦點速讀:青春華章 | 大國水利人物志之探源篇:溯源知水脈,探海利民生
- 澳洲成峰高教(01752)將于12月16日派發末期股息每股0.006港元|每日消息
- 美股周五早盤,標普500指數成份股漲幅前5名
- 銀河磁體:擬購買京都龍泰100%股權,股票9月29日起復牌 精彩看點
- 忙啥去了?曼聯主帥阿莫林并未第一時間出席賽前新聞發布會
- 大摩為微軟(MSFT.US)“排雷”:三大增長擔憂不足為慮 重申“增持”評級-要聞速遞
- 海信家電:子公司海信模具擬購買海信廚衛約26%股權
- 焦點簡訊:2025年唯一“招不滿人”的211:低分考生都不想撿漏,原因曝光
- 2025年TPU龍頭梳理
- 焦點快報!開通運營“倒計時”!南憑高鐵崇憑段開始滿圖試運行
- 快訊:市民咨詢道路施工進度 部門回應:該段九州路寬26米 預計明年動工