2024年6月,主流大語言模型連"strawberry"里有幾個r都數不清。一年后,它們在國際數學奧林匹克競賽上奪金。這個速度讓從業者既興奮又不安。
技術迭代曲線正在變陡。2023年業界還在爭論Scaling Law是否見頂,2024年推理能力突然涌現,2025年數學證明已成為基準測試的標配項目。能力躍遷的間隔從年縮短到月。
![]()
但競賽金牌不等于可靠。奧數題有標準答案,真實世界的決策沒有。模型在形式化推理上突飛猛進,卻在簡單事實核查上反復翻車——這種割裂提示了另一條進化路徑:不是更大,而是更準。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.