Baidu is back」,在業(yè)界權(quán)威大模型公共基準(zhǔn)測試平臺 LMArena 發(fā)布最新一期文本競技場排名(Text Arena)之后,有人發(fā)出了這樣的驚呼。

根據(jù) 11 月 8 日凌晨 LMArena 的最新排名顯示,百度文心最新模型 ERNIE-5.0-Preview-1022(文心 5.0 Preview)在文本榜單上一舉躍居全球并列第二、國內(nèi)第一。
該模型取得了 1432 的高分,其與 OpenAI 的 gpt-4.5-preview-2025-02-27 以及 Anthropic 的 claude-opus-4-1-0805、claude-sonnet-4-5-20250929 三大國外頂級模型持平。

評論區(qū)的網(wǎng)友紛紛對百度新模型的亮眼表現(xiàn)送上了祝賀,還表示「已經(jīng)迫不及待想親自體驗一番」。


毫無疑問,此次榜單結(jié)果將繼續(xù)強(qiáng)化百度文心系列模型在全球通用智能模型競爭格局中第一梯隊的地位。
全球 LLM 實戰(zhàn)擂臺,文心 5.0 Preview 悄然廝殺而來
在 AI 領(lǐng)域,LMArena 是由加州大學(xué)伯克利分校研究者創(chuàng)建的開放 AI 模型評測平臺,成為了 OpenAI、谷歌等國外以及國內(nèi)大模型廠商廝殺的頂級競技場之一。
在該平臺上,用戶自己提交 prompt,接著系統(tǒng)會隨機(jī)抽取兩個匿名的 LLM 分別生成回答。用戶根據(jù)兩條回答選擇偏好,即「哪一個更好」或「兩者都差」等。更具體地,LMArena 會為每個模型分配初始 Elo 分?jǐn)?shù),并在每輪對決結(jié)束后實時更新分?jǐn)?shù)。
相較于依賴傳統(tǒng)靜態(tài)數(shù)據(jù)集或自動評分的基準(zhǔn)平臺,LMArena 通過真實用戶對模型輸出的偏好投票,形成了一種偏向于「現(xiàn)實世界評判」的動態(tài)排名機(jī)制。這種機(jī)制讓模型能力之間的較量更貼近實際使用場景,也讓榜單的含金量更高。
能在 LMArena 榜單上名列前茅的模型,在學(xué)術(shù)指標(biāo)上表現(xiàn)突出之外,更在用戶體驗、語言理解、創(chuàng)意生成與指令執(zhí)行等實際應(yīng)用維度獲得廣泛認(rèn)可。文心 5.0 Preview 正是在這樣真實的 LLM 對決戰(zhàn)場取得了優(yōu)異表現(xiàn)。
具體來講,文心 5.0 Preview 在創(chuàng)意寫作、復(fù)雜長問題理解和指令遵循等方面表現(xiàn)出色,整體成績超越了包括 GPT-5-High 在內(nèi)的多款國內(nèi)外主流大模型。
其中,文心 5.0 Preview 在衡量創(chuàng)意生產(chǎn)力的重要指標(biāo)——創(chuàng)意寫作任務(wù)中排名第一,這意味著其生成文章、營銷文案、劇本等內(nèi)容的速度與質(zhì)量均有大幅提升;在考驗?zāi)P吞幚矶鄬舆壿嬇c長文本能力的復(fù)雜長問題理解中排名第二,其更加勝任學(xué)術(shù)問答、報告分析、知識推理等高認(rèn)知任務(wù);在體現(xiàn)模型對用戶意圖理解與執(zhí)行精度的指令遵循任務(wù)中排名第三,其在智能助理、代碼生成與業(yè)務(wù)自動化等場景的適用性大大增強(qiáng)。
