• <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

    <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
        1. <sup id="mz9d1"></sup>
          每日經濟新聞
          商訊推薦

          每經網首頁 > 商訊推薦 > 正文

          中國模型崛起!阿里Qwen2.5-Max數學及編程能力趕超OpenAI

          2025-02-04 19:29:34

          2月4日凌晨,三方基準測試平臺Chatbot Arena公布了最新的大模型盲測榜單,一周前剛發布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理類的中國大模型冠軍。同時,Qwen2.5-Max在數學和編程等單項能力上排名第一,在硬提示(Hard prompts)方面排名第二。

          截圖自https://lmarena.ai/?leaderboard

          據了解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平臺,目前集成了190多種模型。該榜單采用匿名方式將大模型兩兩組隊,交給用戶進行盲測,用戶根據真實對話體驗對模型能力進行投票。因此,Chatbot Arena LLM Leaderboard成為全球頂級大模型的最重要競技場。

          ChatBot Arena官方評價稱:阿里巴巴的Qwen2.5-Max在多個領域表現強勁,特別是專業技術向的(編程、數學、硬提示等)。

          Qwen2.5-Max是阿里云通義團隊約一周前發布的最新MoE模型,展現出極強勁的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

          Qwen2.5-Max發布后,立刻在海內外大模型社區引發熱議:ChatBot Arena官方發推文稱,以Qwen2.5-Max為代表的中國大模型正在迎頭趕上;有從業者在驚嘆新模型強大性能的同時,也興奮地表示:“我們可以告別ChatGPT了!”

          目前,企業可在阿里云百煉調用Qwen2.5-Max模型的API服務,開發者也可在Qwen Chat平臺中免費體驗最新模型。

          責編 朱德燁

          特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

          模型 大模型 Ai 數學

          歡迎關注每日經濟新聞APP

          每經經濟新聞官方APP

          0

          0

          国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
        2. <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

          <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
              1. <sup id="mz9d1"></sup>
                亚洲欧美制服丝袜精品久久 | 色综合综合久久88网色鬼 | 偷窥国产亚洲女爱视频在线 | 免费偷拍一区2区三区 | 亚洲香蕉网久久综合影视 | 一本色道久久综合亚洲精品小说 |