moneymonday
指數/外匯
明報APP

即時財經新聞

阿里雲AI通義千問旗艦版模型於測試平台排第7 超越DeepSeek V3

大模型性能測試平台Chatbot Arena LLM Leaderboard於今日(2月4日)凌晨公布最新一期排行榜,當中阿里巴巴(9988)旗下阿里雲於1月29日(大年初一)發布的「通義千問」旗艦版模型Qwen2.5-Max衝進前10,超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名。

同時,Qwen2.5-Max在數學和編程上排名第一,在Hard prompts方面排名第二。

至於上月引爆美國科技股股災的DeepSeek,其DeepSeek V3排名第8。冠軍及亞軍均為Google的Gemini模型,OpenAI的ChatGPT-4o-latest排名第三。

阿里雲上月底發布Qwen2.5 Max時,已號稱在測試中的表現超越DeepSeek(深度求索)V3及OpenAI的AI技術模式GPT 4o。

阿里巴巴今日收報97.65元,升3.9%,全日成交115.21億元。

據內地傳媒報道,Chatbot Arena是由LMSYS Org推出的大模型性能測試平台,目前集成了190多種模型。該榜單採用匿名方式將大模型以雙打形式組隊,交給用戶盲測,用戶根據真實對話體驗對模型能力投票。