91久久99热青草国产,XXXX性BBBB欧美

最強(qiáng)中文大模型，通義千問2.5追上GPT-4了？

2024-05-11 10:25

最有希望的選手之一。

從 ChatGPT（GPT-3.5）發(fā)布至今的一年多，大語言模型的迭代速度之快、進(jìn)步幅度之大，時(shí)刻刷新著我們的認(rèn)知。最近一段時(shí)間，各家更是密集發(fā)布了新版的大模型，都在追趕和超越最新領(lǐng)先的大模型，甚至逼得 OpenAI 進(jìn)一步取消了 GPT-4 的限制。

現(xiàn)在阿里云最新的通義千問 2.5 版本也來了，不僅在中文語境下追上了 GPT-4 Turbo，更讓人期待的是：在開源和免費(fèi)的發(fā)展策略下，通義千問 2.5 會(huì)不會(huì)成為大模型落地的分水嶺，加速 AI 應(yīng)用的全面爆發(fā)？

這一點(diǎn)還需要我們拭目以待，但至少，通義千問的這一輪升級(jí)中再次證明自己的能力和潛力。

通義千問全面升級(jí)，中文性能追平 GPT-4 Turbo

5 月 9 日，阿里云正式發(fā)布通義千問 2.5，這是其旗下的通義大模型系列的最新版本。與此同時(shí)，阿里云還開源通義千問 1100 億參數(shù)模型。

按照阿里云方面的說法，得益于全方位的能力提升，在中文語境下，通義千問 2.5 的文本理解、文本生成、知識(shí)問答及生活建議、閑聊及對(duì)話、安全風(fēng)險(xiǎn)等多項(xiàng)能力趕超 GPT-4。

通義千問 2.5.png

圖/阿里

而據(jù)權(quán)威基準(zhǔn)測(cè)評(píng) OpenCompass 的結(jié)果顯示，通義千問 2.5 的得分也追平了 GPT-4 Turbo，是第一個(gè)做到的國產(chǎn)大模型。

在 LMSYS 最新的大模型對(duì)戰(zhàn)排行榜中，通義千問（Qwen-Max）暫時(shí)位居總榜第 10，中文場(chǎng)景下與 GPT-4 Turbo 并列第 2，僅僅略遜于排在第一的 Claude 3 Opus 和 GPT-4（1106）。

圖/ LMSYS

當(dāng)然，跑分和排行榜很難完全說明大模型的實(shí)際性能表現(xiàn)，更遑論最終落到實(shí)處的用戶體驗(yàn)。

根據(jù)介紹，通義千問 2.5 采用了阿里云自研的「問天」架構(gòu)，并通過大量數(shù)據(jù)和算法的訓(xùn)練，使得模型的核心性能得到了大幅提升。相比 2.1 版本，2.5 版本通義千問的理解能力、邏輯推理、指令遵循、代碼能力分別提升 9%、16%、19%、10%。

簡單來說，你可以認(rèn)為通義千問 2.5 能夠更準(zhǔn)確地理解自然語言的語義，并識(shí)別出其中的細(xì)微差別；也能進(jìn)行更復(fù)雜的邏輯推理，并解決更具挑戰(zhàn)性的問題等。此外，通義千問版本升級(jí)后還新增了文檔處理、音視頻理解、智能編碼等多種能力。

在文檔處理上，通義千問 2.5 支持單次最長 1000 萬字、100 個(gè)文檔，覆蓋 PDF、Word、Excel，甚至 Markdown 和 EPUB 等多種文件格式。同時(shí)不只是正文內(nèi)容，還可以解析標(biāo)題、段落、圖表等多種數(shù)據(jù)格式。

圖/通義千問

另外在音視頻理解上，通義千問 2.5 也支持了實(shí)時(shí)語音識(shí)別、說話人分離等能力，能夠提取全文摘要、總結(jié)發(fā)言、提取關(guān)鍵詞等，且支持最多同時(shí)上傳處理 50 個(gè)音視頻文件。

這些升級(jí)或許看上去沒有核心性能的提升來得「性感」，但從實(shí)際使用的角度，不管是能一次塞給大模型更大、更多、更多格式的文檔，還是音視頻的多種能力，其實(shí)都在大幅擴(kuò)展大模型的真實(shí)使用場(chǎng)景。

從這個(gè)角度來看，通義千問 2.5 的意義就遠(yuǎn)不只是在性能上追平 GPT-4 Turbo。

另一方面，AI 算力成本的高昂已經(jīng)廣為人知，不管是海外的 ChatGPT Plus（GPT-4）、Gemini Advanced、Claude Pro，還是國內(nèi)的文心一言會(huì)員（文心一言 4.0）、WPS AI 等服務(wù)，都有不低的收費(fèi)。

而面向 C 端用戶，通義千問主打一個(gè)全功能「免費(fèi)」。同時(shí)通義千問 APP 還升級(jí)為「通義 APP」，集成文生圖、智能編碼、文檔解析、音視頻理解、視覺生成等全棧能力，想成為用戶的「全能 AI 助手」。

不難理解，阿里還是通過免費(fèi)迅速擴(kuò)大 C 端用戶規(guī)模。但在現(xiàn)階段，B 端用戶可能更為關(guān)鍵。

大模型生態(tài)落地，開源路線加速

「從 2022 年 9 月發(fā)布通義系列模型以來，如今我們的 API 日調(diào)用量已經(jīng)過億�！�5 月 9 日，阿里云 CTO 周靖人在總結(jié)通義千問過去一年時(shí)指出。

不僅如此，阿里云還透露通義系列大模型已經(jīng)服務(wù)包括新浪微博、小米、中國一汽在內(nèi)的 9 萬家企業(yè)用戶。發(fā)布活動(dòng)上，阿里云還邀請(qǐng)微博和小米分享了他們對(duì)于通義千問的落地應(yīng)用。

其中微博作為最早的用戶，就基于通義千問打造了出圈的官方評(píng)論機(jī)器人「評(píng)論羅伯特」。小米的小愛同學(xué)同樣也是基于通義千問，強(qiáng)化了在圖片生成、圖片理解等方面的多模態(tài) AI 生成能力，包括在小米汽車、手機(jī)、音箱等硬件上。

事實(shí)上，上個(gè)月聯(lián)想發(fā)布了內(nèi)嵌個(gè)人智能體的「真 AI PC」，其背后也是通義系列大模型。

Lenovo AI PC.jpg

圖/聯(lián)想

開源，毋庸置疑是阿里在大模型生態(tài)上發(fā)展迅猛的關(guān)鍵因素之一。「大到整個(gè)產(chǎn)業(yè)落地 AI，小到每個(gè)企業(yè)開發(fā)應(yīng)用，開源技術(shù)都至關(guān)重要，這一點(diǎn)在全球范圍內(nèi)已經(jīng)被多次證明，」周靖人在財(cái)新的采訪中說道。

去年 8 月，阿里宣布通義千問加入開源生態(tài)，隨著沿著「全模態(tài)、全尺寸」的開源路線陸續(xù)推出十多款模型，參數(shù)規(guī)模橫跨 5 億到 1100 億，并且迅速成為開源大模型社區(qū)最受歡迎的開源大模型之一。

通義千問開源.png

圖/阿里

其中，1.8B、4B、7B、14B 等小尺寸的通義千問，可以直接在手機(jī)、PC 等設(shè)備端側(cè)部署運(yùn)行；72B、110B 等大尺寸模型則更多運(yùn)行在服務(wù)器和數(shù)據(jù)中心，支持更大規(guī)模、更專業(yè)的 AI 應(yīng)用。

而隨著通義千問 2.5 的發(fā)布，其落地應(yīng)用還有望得到進(jìn)一步加速。在開源大模型中，通義千問擁有全尺寸的參數(shù)規(guī)模，還有目前最強(qiáng)的性能，開發(fā)者自然會(huì)更傾向基于通義千問的大模型生態(tài)進(jìn)行開發(fā)。

更何況，即使相比最領(lǐng)先的閉源大模型，通義千問的差異也拉得很小了。

寫在最后

「我們?nèi)蕴幱?AI 發(fā)展的初期階段」，谷歌 CEO 桑達(dá)爾·皮查伊在最近一次采訪中說道。

過去一年多，AI 世界幾乎是一天一變，頭部廠商的大模型之爭(zhēng)也愈演愈烈，實(shí)質(zhì)也帶動(dòng)了整個(gè)生態(tài)的前進(jìn)。事實(shí)上，今天打開手機(jī)，不提系統(tǒng)自帶的 AI 功能，已經(jīng)有大量的應(yīng)用都引入了生成式 AI，還在涌現(xiàn)大量的生成式 AI 原生應(yīng)用。

不過還是不夠。所有人都明白，面向普通用戶的 AI 應(yīng)用還沒真正迎來爆發(fā)時(shí)刻，通義千問當(dāng)然也不可能直接做到，但作為開源大模型，通義千問確實(shí)是最有希望推動(dòng) AI 應(yīng)用真正爆發(fā)起來的大模型之一。

來源：雷科技

原文標(biāo)題 : 最強(qiáng)中文大模型，通義千問2.5追上GPT-4了？