科大訊飛交卷,實測星火大模型
作者 | 辰紋
來源 | 洞見新研社
星星之火,可以燎原。
5月6日,訊飛星火認知大模型揭開神秘面紗。
發(fā)布會上,科大訊飛董事長劉慶峰、研究院院長劉聰現(xiàn)場實測了星火大模型七大核心能力,并發(fā)布基于該大模型的教育、辦公、汽車和數(shù)字員工等多個領(lǐng)域的相關(guān)產(chǎn)品。
與此同時,劉慶峰還給出了訊飛星火的迭代時間表及每階段目標(biāo):
第一階段:6月9日,突破開放性問答,如實時問答;多輪對話能力再次升級;數(shù)學(xué)能力再上臺階;
第二階段:8月15日,突破代碼能力;多模態(tài)交互能力正式開放給客戶;
第三階段:10月24日,在通用大模型領(lǐng)域?qū)?biāo)ChatGPT,其中中文能力超越后者,英文能力與后者相當(dāng)。
“當(dāng)前,在文本生成、知識問答、數(shù)學(xué)能力三大能力上,訊飛星火認知大模型已超ChatGPT”,劉慶峰表示,認知大模型成為通用人工智能的曙光,科大訊飛有信心實現(xiàn)“智慧涌現(xiàn)”。
在星火認知大模型之前,百度文心一言、華為盤古、阿里通義千問、京東靈犀、商湯日日新等科技大廠的大模型先后發(fā)布,加上美團聯(lián)合創(chuàng)始人王慧文、搜狗創(chuàng)始人王小川、出門問問創(chuàng)始人李志飛等科技大佬重出江湖,并且?guī)恿艘慌Y金,也參與到大模型方向的再創(chuàng)業(yè)中,以至于有專業(yè)人士用“百模大戰(zhàn)”來形容當(dāng)前行業(yè)競爭的激烈程度。
此時問題來了,劉慶峰為何如此有信心,星火認知大模型實力又到底如何,憑什么能夠超越ChatGPT,實現(xiàn)“智慧涌現(xiàn)”?
01到底行不行,結(jié)果說話
光說不練假把式,我們直接對星火認知大模型進行一場測試,驗驗“成色”,是否真如劉慶峰說的那樣“對答如流”。
1、文本生成
發(fā)布會現(xiàn)場,劉聰展示了星火大模型的文本生成能力,不但可以現(xiàn)編“故事”,還會撰寫新聞稿,然而,通過我們后續(xù)的測試發(fā)現(xiàn),星火大模型的文本生成能力遠遠不止這兩項,根據(jù)場景的不同,還能衍生出更多的能力。
比如,可以請大模型擔(dān)任編輯助手,根據(jù)用戶提供的文本段落進行修改并提出寫作技巧上的改進建議。
比如,請大模型幫忙潤色群聊通知,甚至還可要求大模型加上emoji表情。
至于將口語轉(zhuǎn)換成書面語,或是與大模型進行英文陪練,不在話下。
甚至要求大模型制作旅游指南,或是設(shè)計一份幼兒園大班體育游戲活動的計劃,也能很好的完成任務(wù)。
點評:很顯然星火大模型的文本生成能力長文本、短文本都能來者不拒,還具備多種風(fēng)格、多種任務(wù)、跨語言等能力,實測結(jié)果顯示,劉慶峰所說這一功能“星火大模型在國內(nèi)明顯領(lǐng)先,并且在中文方面超過ChatGPT”并不是吹牛自大。
2、語言理解
理解問題是解答的第一步,而中文又博大精深,星火大模型能準(zhǔn)確理解不同語境下的語義嗎?
我們先看看發(fā)布會現(xiàn)場的測試案例:“俗話說,男子漢大丈夫,寧死不屈。但俗話又說,男子漢大文夫,能屈能伸。這兩種說法哪種是對的”?
然后追問:“如果有個小伙子和女朋友吵架了,他是應(yīng)該寧死不屈還是能屈能伸”。
如果女朋友生氣時,說隨便,在這個語境下,男朋友應(yīng)該怎么做呢?
對時下流行的熱點,星火大模型掌握的怎樣?
將問題再深入一些,代入到心理治療的特定場景中,大模型又會給出怎樣的答案呢?
點評:由于有深厚的知識積累,訊飛星火大模型的情商和語義理解能力在很多情況下甚至超過了個別人類,這也是科大訊飛一貫以來的強項,表現(xiàn)突出并不意外。
3、數(shù)學(xué)能力
數(shù)理能力一定程度代表一個大模型的聰明程度,劉慶峰在發(fā)布會上就表示,訊飛星火大模型的數(shù)學(xué)能力很強,能夠達到ChatGPT的水平,現(xiàn)場測試中,劉聰出了一個計算三類花朵數(shù)量的題目,大模型用三元一次方程順利解出了答案。
這個問題不算難,接著我們設(shè)計了一個根據(jù)“三個點的坐標(biāo),如何計算三角形面積”的問題,大模型除了給出正確答案外,還能解釋和列出具體的分步步驟,顯示格式也非常友好。
點評:數(shù)學(xué)能力是體現(xiàn)大模型通用水平的重要能力之一,而在統(tǒng)一大模型框架下也是非常難以實現(xiàn)的,大量測試證明ChatGPT在這一塊也很容易出錯,因為不是大家原來理解的規(guī)則性的輸入輸出(例如平常的直接調(diào)用計算器能力),而是在統(tǒng)一框架下用文本生成的方式來輸出每一個字符。
因此在這個框架之下也不是大家通常理解的難的數(shù)學(xué)題難做,簡單的數(shù)學(xué)題就好做。整體來說,星火大模型在解決綜合性數(shù)學(xué)問題的效果上,目前是很領(lǐng)先的(綜合評價比ChatGPT 3.5效果好,差于GPT 4),但是在各類題型的整體覆蓋上,還要持續(xù)去優(yōu)化。
4、邏輯推理
邏輯推理與語義理解強關(guān)聯(lián),科大訊飛在這方面繼續(xù)延續(xù)著自己的技術(shù)優(yōu)勢。
我們先用一個日常生活中不是很常見的促銷套路來探路,看看大模型能否理解其中的意思。
很可惜,大模型中了圈套,沒能識破文字陷阱,不過話說回來,人類在這個問題上,如果稍不注意,也會翻車,換位思考下,對大模型的疏漏也就可以理解了。
我們換一個經(jīng)典的“過河”推理問題再測一次。
這次大模型的表現(xiàn)很棒,知無不言,言無不盡,回答的非常詳細。
接著,我們再問一個“探寶”的推理問題。
點評:星火大模型在邏輯推理上的表現(xiàn)整體不錯,特別是一些復(fù)雜的推理問題,表現(xiàn)出非常強的邏輯性,在這方面,大大強于一般人類的表現(xiàn)。
5、泛領(lǐng)域知識問答
我們先來一個生活常識,鐵鍋炒菜能補鐵嗎?
再問一個科學(xué)知識,為什么自拍總是比他拍更好看?哪個更接近自己真實的樣子?
如果將大模型模擬成一名育兒專家,將生活常識、科學(xué)知識等進行融合,它又會如何作答呢?
再來一個有關(guān)文言文學(xué)習(xí)的提問,模擬一個苦于學(xué)習(xí)文言文的高中生,向大模型求教有關(guān)文言文字句和語法的疏通,主要內(nèi)容,以及作者想要表達的含義和文字藝術(shù)之美。
點評:通過這項能力的展現(xiàn),我們第一次了解到科大訊飛在泛領(lǐng)域知識數(shù)據(jù)上的積累完全不輸其他科技大廠,通過與文本生成能力相融合,形成了科大訊飛在中文能力上的特有優(yōu)勢,也使得大模型更加接近個人助手的形態(tài)。
6、代碼能力
在官方介紹中,星火認知大模型不僅可以生成代碼,還可以修改、理解、編譯代碼,并且還具備Python、Java等多語言能力。
發(fā)布會現(xiàn)場,科大訊飛研究院院長劉聰就演示了用Python生成一段簡單代碼的能力,我們在后續(xù)測評中,星火大模型對找Bug以及類似數(shù)據(jù)抽取、條件篩選等方向的代碼生成的表現(xiàn)都還不錯。
下面是要求星火大模型對一段代碼進行修改與改良的實例。
我們請教了一名資深程序員,對星火大模型的上述工作進行評價,星火大模型基本上完成了任務(wù)要求,經(jīng)程序員檢查,星火大模型在將boxes的數(shù)字轉(zhuǎn)換成整數(shù)的過程中還是存在小小的瑕疵,漏掉了path節(jié)點。
事實上,劉慶峰在發(fā)布會上也承認星火大模型的代碼能力與ChatGPT相比,存在一定差距,下一步升級的重點功能也是這一塊。
大模型自己也說:“我的代碼生成功能仍然有限,可能無法滿足復(fù)雜的業(yè)務(wù)需求”。
點評:目前星火認知大模型對于簡單的代碼問題不大,但在涉及到一些復(fù)雜問題,架構(gòu)時,則需保持警惕,其生成內(nèi)容只能作為參考,站在開發(fā)者的角度,需要自行檢查代碼的正確性、可靠性和保密性等等。
02大模型競速,落地為王
通過上文的實測,星火大模型的表現(xiàn)已經(jīng)很好的回答了文章開頭的提問,也確實具備與頭部大模型掰掰手腕的實力,在各項能力中,如劉慶峰所說的,文本生成、知識問答、數(shù)學(xué)能力這三項表現(xiàn)出有別于友商競品的長板。
除此之外,星火大模型的差異性還體現(xiàn)在商業(yè)化的落地實踐,表現(xiàn)出更強的進攻性。
科大訊飛之所以能夠突然爆發(fā),給到行業(yè)驚喜,其實是從誕生之時起就開始進行鋪墊了。
24年前,6個中科大在校學(xué)生喊出,“要把中文語音做到世界最好”,這也成了科大訊飛創(chuàng)業(yè)的初心。
2011年,科大訊飛承建語音及語言信息處理國家工程實驗室,躋身人工智能“國家隊”,提出“讓機器像人一樣能聽會說。”
2014年,科大訊飛推出“訊飛超腦計劃”,明確提出:讓機器像人一樣能理解會思考。
2022年,又升級為“訊飛超腦2030計劃”,提出讓懂知識、善學(xué)習(xí)、能進化的通用人工智能技術(shù)成為每個人未來發(fā)展的重要機會,讓機器人走進家庭。
從學(xué)界到產(chǎn)屆,從輸入法到翻譯機,科大訊飛一直深耕于語音語義領(lǐng)域,繼而形成了對認知智能的獨到理解和布局。
算法上,科大訊飛經(jīng)驗豐富,尤其擅長認知智能,僅去年就獲得了常識閱讀理解挑戰(zhàn)賽OpenBookQA等13項世界冠軍,開源了六個大類,超過40個通用領(lǐng)域的系列中文預(yù)訓(xùn)練語言模型。
數(shù)據(jù)上,在多年認知智能系統(tǒng)研發(fā)推廣中積累了超過50TB的行業(yè)語料和每天超10億人次用戶交互的活躍應(yīng)用。
算力上,訊飛總部有自建的數(shù)據(jù)中心,在工程技術(shù)方面實現(xiàn)了百億參數(shù)大模型推理效率的近千倍加速,同時還與華為合作,大模型建立在安全可靠的國產(chǎn)算力平臺之上。
所以,星火大模型發(fā)布的時間雖然較晚,但技術(shù)儲備的時間卻非常的長,繼而由模型到產(chǎn)品落地的速度反而跑到了前面。
對于當(dāng)前大模型的“涌現(xiàn)”,很多行業(yè)人士都旗幟鮮明的表率,大模型的應(yīng)用不應(yīng)只停留在人機對答的自我娛樂,而應(yīng)與產(chǎn)業(yè)融合才能產(chǎn)生更大的價值。
劉慶峰也強調(diào),“一個大模型系統(tǒng)到底好不好,首先要看它是不是能解決剛需、是不是真的有用,而不是一個簡單的單點測試。”
因而星火大模型很大一個特點是,一方面不忌諱自己的缺陷和不足,勇于面向公眾大規(guī)模開放,這也顯示出科大訊飛超強的技術(shù)自信。
另一方面,實現(xiàn)了大模型在應(yīng)用和產(chǎn)品層面的率先落地,通過學(xué)習(xí)機、智能辦公本、汽車座艙交互系統(tǒng)、訊飛聽見、數(shù)字員工等一系列產(chǎn)品,打通了“大模型+產(chǎn)品”的生態(tài)閉環(huán),在數(shù)據(jù)和模型之間形成正向反饋循環(huán)的“漣漪效應(yīng)”。
星火大模型落地的上述產(chǎn)品本身就擁有數(shù)量龐大的用戶群體,自然而然會產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)反饋給模型后,在“漣漪效應(yīng)”下,將推動模型的迭代更新,變得越來越強。
星火大模型的率先落地,表面上看以提升用戶體驗的方式,提高了訊飛產(chǎn)品的競爭力,特別是像學(xué)習(xí)機和智能辦公本,幾乎變成了完全不同的產(chǎn)品,更深層次的影響或?qū)⒏淖冃袠I(yè)生產(chǎn)協(xié)同的行為模式。
03結(jié)語
科大訊飛是人工智能國家隊,自身也有非常強的AI標(biāo)簽,因而在擁抱大模型這件事情上,一定比像百度、華為這類擁有多條業(yè)務(wù)線,更多方向選擇的科技巨頭更加堅定。
在中國率先實現(xiàn)“智慧涌現(xiàn)”之前,科大訊飛還得對照著人工智能紅利兌現(xiàn)的三大標(biāo)準(zhǔn):“有沒有看得見摸得著的真實應(yīng)用案例,有沒有能夠規(guī);茝V應(yīng)用的產(chǎn)品,有沒有統(tǒng)計數(shù)據(jù)能夠證明的應(yīng)用成效”,繼續(xù)夯實科研、產(chǎn)品和服務(wù)這些基礎(chǔ)工作,這樣才能經(jīng)得住時間的考驗,真正迎來星火燎原。
原文標(biāo)題 : 科大訊飛交卷,實測星火大模型
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-12.26立即報名>>> 【在線會議】村田用于AR/VR設(shè)計開發(fā)解決方案
-
1月8日火熱報名中>> Allegro助力汽車電氣化和底盤解決方案優(yōu)化在線研討會
-
即日-1.14火熱報名中>> OFweek2025中國智造CIO在線峰會
-
即日-1.24立即參與>>> 【限時免費】安森美:Treo 平臺帶來出色的精密模擬
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
精彩回顧立即查看>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容