訂閱
糾錯
加入自媒體

ChatGPT o1滿血版上線!實測中它竟然敗給了國產(chǎn)AI?

2024-12-09 08:57
雷科技
關(guān)注

國產(chǎn)AI和OpenAI的差距,沒有一些人吹的那么大。

當(dāng)?shù)貢r間12月5日,OpenAI正式上線ChatGPT‍的o1和o1-Pro兩個新的AI模型。其中o1模型實際上大家之前已經(jīng)用過了,只是那時候還叫o1-preview,僅開放了o1模型的部分功能,如今新版本去掉了preview,也意味著o1模型的滿血版終于正式上線。

微信截圖_20241206214852.png

圖源:雷科技

從簡單的測試來看,滿血版的o1模型已經(jīng)支持圖片和文件上傳,而此前是只能進(jìn)行文字輸入,也就是新增了多模態(tài)理解,不過網(wǎng)頁搜索功能仍未上線,這點倒是讓人感到遺憾。

對于o1滿血版的提升,OpenAI的CEO奧特曼用一個簡單的柱狀圖給出了對比:可以看到o1在數(shù)學(xué)推理和編程領(lǐng)域的表現(xiàn)要明顯優(yōu)于o1-preview,提升幅度在50%左右,而在科研領(lǐng)域的測試?yán),o1相對于o1-preview的表現(xiàn)就提升有限了。

accesswximg.png

圖源:OpenAI

考慮到o1模型不需要額外加錢就能使用,對于有需求的用戶來說還是很超值的,只是OpenAI這次醉翁之意不在酒,相較于免費升級的o1,全新的o1-pro才是重頭戲。不過,想要用上o1-pro,得訂閱新的200美元套餐才能優(yōu)先使用,這也是目前AI領(lǐng)域中針對個人用戶的最昂貴訂閱方案。

從OpenAI給出的性能對比圖來看,o1-pro在o1的基礎(chǔ)上確實有所精進(jìn),但是提升幅度并不大,對于普通用戶來說,o1模型就完全可以滿足日常使用了,壓根沒有必要為了o1-pro訂閱200美元的套餐。

當(dāng)然,200美元套餐提供的不只是o1-pro,還有無限制使用o1模型和高級語音功能的權(quán)限(o1-pro不在此列,估計使用次數(shù)仍有上限),如果你覺得o1的提問額度完全不夠用,那么200美元的套餐就是個人用戶的唯一選擇了。

既然有了新的模型,那么肯定是要來測試一下的。雷科技此次測試主要還是針對o1滿血版的多模態(tài)能力,同時也請來了兩位國產(chǎn)AI友情參賽(kimi和文心一言)。

o1滿血版實測體驗并非「無敵」

o1模型的強(qiáng)項在于數(shù)學(xué)等方面的高級推理,那么就先從擅長的地方開始,一道并不算困難的數(shù)學(xué)計算題:

假設(shè)一個公司生產(chǎn)某種商品,生產(chǎn)成本與產(chǎn)量的關(guān)系為C(x) = 3x^2 - 2x + 5(單位:萬元),其中x是產(chǎn)量(單位:千件)。市場售價與產(chǎn)量的關(guān)系為 P(x) = 50 - 0.5x(單位:萬元/千件)。 

 1. 求該公司生產(chǎn) x千件商品時的總利潤函數(shù) L(x)。   

 2. 確定該公司應(yīng)生產(chǎn)多少千件商品以實現(xiàn)最大利潤,并計算最大利潤是多少。

首先看看國產(chǎn)AI的回答:

微信截圖_20241206184744.png

kimi

微信截圖_20241206184817.png

文心一言

國產(chǎn)AI都給出了相同的答案:188.14萬元,那么再來看看ChatGPT-o1的。

下載.jpg

o1

o1模型給出的答案也是188.14萬元,與問題本身的標(biāo)準(zhǔn)答案一致,三個AI都通過了測試。不過大家從回答的截圖里,其實也能看出不同,o1模型展示了大量的推算過程,更方便用戶檢查推理的過程是否正確。

這也與o1模型的主要用途有關(guān),本質(zhì)上o1模型上為科研等用途設(shè)計的,所以在展示答案的時候會更注重于推理過程及正確性,而非只輸出正確的答案。

接下來我們試試直接用圖片進(jìn)行提問,可以讓我們輸入一些比較抽象的數(shù)學(xué)題,比如一道來自小學(xué)四年級的奧林匹克競賽題:

微信截圖_20241206181502.png

還是慣例先看看國產(chǎn)AI的回答:

下載 (1).jpg

kimi

微信截圖_20241206192024.png

文心一言

兩個國產(chǎn)AI分別給出了A和B的選項,其中kimi的推理過程非常長,直接把這道小學(xué)奧數(shù)題以高等數(shù)學(xué)的方式進(jìn)行了解析。

下面看看o1模型的回答:

微信截圖_20241206192500.png

o1

o1模型給出的答案也是B,那么是否說明kimi算錯了?答案并不是,這道題的正確答案其實是A,換言之o1和文心一言都算錯了。文心一言因為沒有給出詳細(xì)推理過程,所以無法看出是在哪一步算錯了,而o1模型顯然是在分析圖片時,錯誤的判斷了圖形的集合數(shù)量,最終導(dǎo)致答案推理錯誤。

在這個問題上,其實就可以看出AI大模型在處理類似的圖形問題時,解題的思路是不同的,文心一言和o1都試圖通過直接找出圖片的規(guī)律來計算答案,也就是類似于人類解題時的思路,而kimi則是直接將圖形等式轉(zhuǎn)化為方程式,然后進(jìn)行計算。

從效率來說,o1和文心一言的推理方式肯定是更節(jié)省算力的,但是如果分析拆解能力沒有跟上,那么就會像這次一樣得出錯誤的答案,而kimi的推理過程雖然會耗費更多的算力,但是也保證了答案的準(zhǔn)確度。

站在企業(yè)角度來看,為了提高推理效率并降低推理成本,采用圖形推理方案自然是最佳選擇。但是考慮到o1本身的高級模型屬性,以及OpenAI給出的科研助手定位,如果還為了節(jié)省算力而給出錯誤的答案,恐怕就難以說服用戶了。

下面再來看看編程方面的表現(xiàn),題目并不算難:

我想制作一個軟件,這個軟件可以每個小時檢查一次電腦的網(wǎng)絡(luò)連接狀態(tài),如果網(wǎng)絡(luò)連接中斷就重啟電腦,如果網(wǎng)絡(luò)連接正常就保持現(xiàn)狀

兩個國產(chǎn)AI都很快就給出了答案:

微信截圖_20241206203248.png

kimi

下載 (3).jpg

文心一言

因為要求很簡單,簡單測試后虛擬機(jī)都提示成功運行。不過,可以看到兩個國產(chǎn)AI的回答有些許不同,kimi在代碼中用灰色字體進(jìn)行了注釋,而文心一言則是通過額外的注意事項進(jìn)行提醒,并且還提醒要安裝運行庫,并給出了更多的編程建議。

那么o1模型呢?答案如下:

下載 (4).jpg

o1

從o1模型的回答來看,它是分三個部分完成的回答,首先給出實現(xiàn)思路,然后給出示范代碼并進(jìn)行注釋,最后再對代碼的編寫過程進(jìn)行分析,同時提供了測試思路和備選方案,算是集中了兩個AI各自的優(yōu)勢,對于初學(xué)者來說,o1模型的體驗或許會更好一些。

從生產(chǎn)力的角度來說,o1模型在特定領(lǐng)域的表現(xiàn)確實出色,但是國產(chǎn)AI的表現(xiàn)也不算差,其中kimi更是讓人感到驚喜,是唯一答對全部測試題目的AI。

測試到這里,本來可以告一段落了,不過我還想看看在日常領(lǐng)域,o1模型的表現(xiàn)和普通模型又會有什么區(qū)別呢?

所以,我又出了一道附加題,從網(wǎng)絡(luò)上搜索了一個草莓餡餅的照片,然后詢問AI如何制作照片里的甜點。

下載 (7).jpg

kimi

下載 (6).jpg

文心一言

下載 (5).jpg

o1

三個AI都很輕松識別出了甜點的類型,并且給出了相似的配方,不過o1模型的回答則是詳細(xì)到了每一個步驟的操作方式和注意事項,相對來說國產(chǎn)AI的步驟說明就簡單很多了。如果是有一定烘培經(jīng)驗的人,國產(chǎn)AI的菜譜是夠用了,但是對于一個新手來說,o1模型的菜譜成功率顯然會高很多。

AI的下一步是學(xué)會真正的「思考」

總體來看,o1模型在回答的細(xì)致度等方面確實有著明顯的優(yōu)勢,在一些需要查看推理過程或者得到更詳細(xì)回答的場景中體驗會好很多。但是從答案的準(zhǔn)確度來看,o1對比目前的國產(chǎn)AI其實也沒有多少優(yōu)勢,表現(xiàn)還不如kimi。

而且國產(chǎn)AI也可以通過追問等方式,得到更詳細(xì)的回答和推理過程,o1模型在多數(shù)場景下其實都沒有明顯的優(yōu)勢,比如我在日常使用ChatGPT時,很多時候ChatGPT-4o就可以滿足需求,只有極少數(shù)情況下會用到o1模型。

作為一個ChatGPT的長期用戶,我認(rèn)為o1模型其實更適合科研人員及金融分析師等職業(yè),他們在日常工作中會用到大量數(shù)學(xué)工具并進(jìn)行多次推理。此時,o1模型那經(jīng)過針對性訓(xùn)練的多步驟推理流程,在解決這些問題時表現(xiàn)會比普通AI好不少。

至于o1-pro,其實從我查詢到的其他用戶測試結(jié)果來看,回答的質(zhì)量與o1模型并沒有太大區(qū)別,兩者的差距主要是o1-pro可以調(diào)用更多的算力,反復(fù)驗算答案的正確性,并且嘗試給出更詳細(xì)的推理過程。

實際上AI大模型發(fā)展到現(xiàn)在的階段,其實又開始出現(xiàn)細(xì)分化的苗頭,在此之前不少AI企業(yè)都希望去打造一個大而全的多模態(tài)模型,但是卻發(fā)現(xiàn)成本很高且效果并不算好,諸如「幻覺」等問題一直難以解決。

而ChatGPT-o1無疑給出了另一個解法,在算力足夠的情況下,可以讓AI先對問題進(jìn)行一次深度的「思考」,再根據(jù)思考的結(jié)果去進(jìn)行推算。你可以這么去理解,o1是先嘗試分析問題本身,再根據(jù)分析結(jié)果去解決問題,而普通AI則是直接對問題進(jìn)行關(guān)鍵詞拆解,然后根據(jù)算法調(diào)用對應(yīng)的數(shù)據(jù)并組合輸出,這種方式雖然回應(yīng)速度快,但是回答的準(zhǔn)確度卻難以保證,特別是面對一些復(fù)雜的問題時。

所以,我們可以看到kimi和文心一言其實也在通過不同的方式去讓AI學(xué)會「思考」,而不是根據(jù)算法和數(shù)據(jù)強(qiáng)行組合答案。kimi的表現(xiàn)更是給我留下了深刻的印象,作為數(shù)學(xué)測試環(huán)節(jié)唯一回答全對的選手,無需付費就可以使用,性價比和體驗都拉滿了。

老實說,如果不是為了方便查詢外文資料和關(guān)注AI的最前沿,ChatGPT的20美刀訂閱性價比確實不高,免費的kimi和提供多種智能體及官方工具,更具有泛用性的文心一言都是更具性價比的選擇。

來源:雷科技

       原文標(biāo)題 : ChatGPT o1滿血版上線!實測中它竟然敗給了國產(chǎn)AI?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號