您當前的位置：環球傳媒網 - 環球資訊網 - 環球生活門戶>新聞 > 財經 > 正文

OpenAI最新模型o3展現強大推理能力

2024-12-26 13:02:03 來源：科技日報編輯：

12月20日，美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱，o3具備更先進、近似人類的推理能力，在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面，均超越了其“前輩”o1。

不過，英國《新科學家》網站在12月22日的報道中指出，盡管o3“實現了令人矚目的性能飛躍”，但仍未達到業內翹首以盼的通用AI(AGI)水平。

多方面表現出色

OpenAI公司透露，在解決更復雜的多步驟問題時，o3模型會花更多時間計算答案，然后再給出回應。這一推理能力的提升，使o3在多項測試中表現出色。

大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”，o3也不例外。在2024年美國數學邀請賽中，o3模型的準確率高達96.7%，僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中，o3也解決了25.2%的問題。盡管這一得分看似不高，但此前其他大型語言模型曾在此“集體翻車”，正確率均未超過2%。

Frontier Math測試難度極大，曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而，o3只需思考幾分鐘便能解答其中一道題目，而人類數學家則要花費數小時到數天。

在對科學知識的掌握方面，o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現，涵蓋化學、物理和生物學方面的專業知識)基準測試中，o3的準確率達到87.7%，超過了人類博士的70%，也比之前o1表現高近10%。

此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上，o3的準確率約為71.7%，比o1高20%以上。在Codeforces編碼競賽平臺中，o3的得分為2727，相當于榜單上第175名人類編程員的水平，而o1得分僅為1891。

在展示了o3取得的這些傲人成績后，OpenAI首席執行官奧爾特曼強調，o3的出現標志著AI進入了下一個發展階段，這些模型可處理需要大量推理的復雜任務。

與人類智能仍有差異

《新科學家》網站還報道，在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中，o3模型也創下新紀錄：在低算力配置下，它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制，在該算力限制下，o3的挑戰以失敗告終。

不過，在超出官方算力限制172倍的高算力下，o3采用“蠻力”取得了87.5%的成績，達到了代表人類水平的85%門檻。

對于o3的表現，谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道，這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI，因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題，這表明其與人類智能存在根本差異。

AGI是一個假想中的未來系統，它能夠模仿人類思維、決策，擁有自我意識，并能自主行動。然而，AGI目前主要活躍在科幻作品中，尚未走進現實。

升級迭代并非易事

o3不僅是OpenAI公司的最新力作，也是AI巨頭競逐大型語言模型的生動寫照。

兩年前，OpenAI發布了ChatGPT，由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4，再到o1，直至o3，OpenAI在不斷精進自家產品。

其他頂級AI開發商也在利用日益先進的技術，推動自家產品迭代升級。此前不久，谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本，據稱其速度是上一代的兩倍，并且能夠“思考、記憶、規劃，甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。

然而，迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業，正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉，僅6個月的訓練，單計算成本就高達約5億美元，而性能僅比該公司現有產品略勝一籌。

關鍵詞：

亚洲一区二区电影_青青操久久_亚洲狠狠婷婷综合久久久久_国产欧美日韩在线观看精品

新視野

資訊

焦點