實測阿里通義千問:最接近ChatGPT水平的國產(chǎn)AI模型
在中文文書方面,通義千問的能力與 GPT-3.5 已不相上下,而在代碼寫作方面,通義千問則是大幅度的領先于文心一言。
01 通義千問的誕生背景
阿里巴巴(BABA.US)作為中國最大的電子商務平臺之一,一直致力于利用人工智能技術提升用戶體驗和商業(yè)效率。
在大模型領域,阿里巴巴早在2019年就推出了PLUG,一種基于預訓練語言模型的通用對話框架,這是阿里巴巴對于LLM(Large language model大語言模型)領域的首次嘗試。
2021年11月,阿里達摩院宣布了M6大模型,一種基于10萬億參數(shù)的多模態(tài)大模型,一躍成為了全球最大的 AI 預訓練模型。
根據(jù)阿里巴巴的描述,M6大模型已經(jīng)在淘寶,支付寶,天貓等阿里巴巴旗下產(chǎn)業(yè)中應用落地并取得了卓越成效。
但M6模型至今仍未面向公眾開放,非阿里系的廠商也罕有應用。直到2023年4月7日,阿里云推出了自研大模型“通義千問”,并面向企業(yè)以及邀請用戶開放。
根據(jù)官網(wǎng)描述,“通義千問”是一個專門響應人類指令的語言大模型,它可以理解和回答各種領域的問題,包括常見的、復雜的甚至是少見的問題。
它不僅是一個效率助手,也是一個點子生成機,可以幫助用戶完成各種任務,如寫郵件、寫文章、寫腳本、寫情書、寫詩等。它還可以提供娛樂功能,如講笑話、唱歌等。
在大預言模型大熱的今天,通義千問自然是處于風口浪尖之上。
國內(nèi)的各大公司都想在該領域分一杯羹,百度(BIDU.US)是第一個吃螃蟹的公司,其在2023年3月16日發(fā)布了“文心一言”系列的“多模態(tài)”模型(雖然我們現(xiàn)在知道其實它的圖片生成能力其實是來源于另一個百度開發(fā)的模型)。而阿里巴巴選擇了避其鋒芒在四月發(fā)布全新針對聊天內(nèi)容優(yōu)化的通義千問。
由于阿里巴巴吸取了此前文心一言的慘淡場景,選擇了僅對部分受邀媒體和企業(yè)開放服務。筆者成功拿到了此次的內(nèi)測資格。
02 通義千問能力測試
對于非多模態(tài)的語言模型,主要可以從三個方面考量其能力:文字編排能力、Coding能力和邏輯能力。
為了進一步找到當前各大LLM之間的差距,本次還加入了GPT-4共同比較。
文書能力測試
作為最基礎的語言組織能力測試,我們先讓幾個競品各自寫一份請假條:
圖一 通義千問的回答(▲點擊查看大圖)
圖二ChatGPT的回答(▲點擊查看大圖)
圖三GPT-4的回答(▲點擊查看大圖)
圖四 文心一言的回答(▲點擊查看大圖)
面對基礎的語言文字問題,四款AI工具都可以看似按照需求的完成任務,其中通義千問的語法和措辭最為接近國人的口吻。
再細看一下,文心一言給出的回答為:“我已經(jīng)請假了兩天,并且目前感覺已經(jīng)有所好轉。但是,我不想因為自己的身體問題而影響到工作,因此我希望能夠請一周的病假。”
在我們并未給出任何多余的 prompt 的情況下給自己增加了情景,這也可以算LLM的“幻覺”通病。
再來看下一個問題:請續(xù)寫《紅樓夢》中林黛玉倒拔垂楊柳的故事。
通義千問(▲點擊查看大圖)
ChatGPT(▲點擊查看大圖)
GPT-4(▲點擊查看大圖)
文心一言(▲點擊查看大圖)
在此處我們要求四個模型分別續(xù)寫了一個《紅樓夢》中不存在的情節(jié),林黛玉倒拔垂楊柳。
其中GPT-4的文風最為接近《紅樓夢》,通義千問的續(xù)寫也貼合了原來的人設和背景,較為符合的滿足了我們的要求。ChatGPT的回答則是略有偏差。
此處文心一言就直接讓林黛玉穿越回現(xiàn)代了,并且成功讓她成為了一名醫(yī)生,不僅丟了人設還丟了故事背景。
下面要求四個模型生成一篇完整的文章:請以“AIGC變革內(nèi)容生產(chǎn)模式”為題寫深度文章。
通義千問(▲點擊查看大圖)
ChatGPT(▲點擊查看大圖)
GPT-4(▲點擊查看大圖)
文心一言(▲點擊查看大圖)
四款 AI 都正確的給出了 AIGC 這一名詞的概念,并且理解了用戶的需求。由于通義千問給出的回答較長,本次要求他生成500字的文章。
其中 GPT-4 比較獨特,它選擇了分點式的總結內(nèi)容,而其余的則選擇了更常規(guī)的通稿類型。本次四個 AI 都能夠較為出色的完成任務。
代碼能力測評
我們再來看到代碼能力,在這一個環(huán)節(jié),由于問題比較簡單GPT系列都可以出色完成,因此不加入GPT系列參與對比。
先來個簡單的:用 Python 實現(xiàn)冒泡排序。
通義千問(▲點擊查看大圖)
文心一言(▲點擊查看大圖)
提問:編寫一個SQL查詢,查詢某個數(shù)據(jù)庫表中最近一個月的記錄,并按照某個字段進行降序排列。
通義千問(▲點擊查看大圖)
文心一言(▲點擊查看大圖)
在這個問題上,文心一言仍不敵通義千問無法完成需求。紅框內(nèi)圈出的就是文心一言的重大問題所在。
來到下一個問題:使用函數(shù)遞歸的方法實現(xiàn)斐波那契數(shù)列的計算,并返回前n個斐波那契數(shù)。
通義千問(▲點擊查看大圖)
文心一言(▲點擊查看大圖)
文心一言在這個問題中表現(xiàn)得很可笑。文心一言直接選擇了將斐波那契額數(shù)列硬編碼進入了代碼實現(xiàn)了O(1) 的時間復雜度,并沒有完成我們需要的使用遞歸方法的需要。
通義千問的回答則是滿足了問題的需求而且給出了詳細的代碼解析和輸出結果。
在代碼寫作能力上來看,文心一言也不敵通義千問。上述幾個問題選取的十分基礎,但是文心一言仍然無法滿足需求。
可能是因為百度的代碼庫的缺乏。得益于阿里長期深耕于云領域等,其本身積累了豐富的資源和人次,在代碼寫作方面顯著強于文心一言。
03 測評總結
結論1:通義千問是國內(nèi)最接近ChatGPT水平的本土化LLM。
經(jīng)過上述測試,我們發(fā)現(xiàn)就目前而言,“通義千問”實際上是國內(nèi)最接近ChatGPT(GPT-3.5)水平的本土化LLM。
盡管百度率先推出了文心一言試圖搶占高點,但模型水平一般,回答水平只能與Meta公司前段時間泄露的LLaMA 13B未針對對話調(diào)參前的水平相媲美。
而通義千問和文心一言對比起GPT-4時,即使忽略都欠缺的多模態(tài)能力,在文字方面上來看二者均和GPT-4有較大差距。
結論2:通義千問在中文寫作和代碼編寫方面領先于文心一言。
LLM模型常見的“幻覺”(即回答錯誤事實)現(xiàn)象在文心一言上表現(xiàn)得尤為明顯。當前在中文寫作方面,通義千問的能力與GPT-3.5已不相伯仲,而在代碼編寫方面,通義千問則大幅領先于文心一言。
結論3:百度擁有龐大的語料庫優(yōu)勢,但文心一言表現(xiàn)不盡如人意。
巨型語料庫是LLM訓練中不可或缺的部分,同時還需避免受到“有毒”語料的影響。
從這個角度來看,擁有龐大語料庫的百度天生具備優(yōu)勢,可以利用旗下的問答、百科和抓取的網(wǎng)頁信息作為語料。然而,目前文心一言的表現(xiàn)仍然不盡如人意。
結論4:通義千問在某些場景下的中文文本能力超過了ChatGPT。
相較之下,阿里經(jīng)過一個月的沉淀后推出的產(chǎn)品在多個維度上擊敗了文心一言。
在某些場景下,得益于本土化語料資源優(yōu)勢,通義千問的中文文本能力甚至部分超過了ChatGPT。一些常見的文書工作在進行好事實性核查之后可以交由通義千問處理。
結論5:GPT-4具備強大的多模態(tài)能力,而國產(chǎn)大模型仍然不具備多模態(tài)能力。
再來看多模態(tài)場景。從GPT-4的論文中,我們得知其已具備強大的多模態(tài)能力,包括圖像的輸入和輸出。
GPT-4能夠理解圖像含義并根據(jù)文字/圖像指令完成任務,展示出Transformer的實力。
百度文心一言的“多模態(tài)”能力更像是虛假的多模態(tài),其圖像能力來自于另一個大模型“文心一格”。而通義千問則是明確表示沒有多模態(tài)能力。
結論6:AIGC成為了未來發(fā)展的模式,各互聯(lián)網(wǎng)巨頭都在爭奪戰(zhàn)場,新興職業(yè)如Promopter也在興起。
當前的所有趨勢就是“面向GPT”,AIGC儼然成為了未來發(fā)展的模樣。
不同于元宇宙等項目,AIGC是可以切實提升人類生產(chǎn)效率的工具,互聯(lián)網(wǎng)大廠都看到了這個賽道的未來,不約而同的來到這個戰(zhàn)場上激烈廝殺,基于AI的Promopter這種職業(yè)也正在興起。面向GPT編程,面向GPT寫作,面向GPT繪畫,面向______。這個空,就是未來。
原文標題 : 實測阿里通義千問:最接近ChatGPT水平的國產(chǎn)AI模型
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市