• <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

    <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
        1. <sup id="mz9d1"></sup>
          每日經(jīng)濟(jì)新聞
          要聞

          每經(jīng)網(wǎng)首頁 > 要聞 > 正文

          記者實(shí)測 | DeepSeek-R1對決四款主流推理模型:基礎(chǔ)題意外“翻車”,高難度推理碾壓ChatGPT o1

          每日經(jīng)濟(jì)新聞 2025-01-27 21:52:13

          DeepSeek的熱度還在持續(xù)。《每日經(jīng)濟(jì)新聞》記者對DeepSeek-R1與四款主流推理模型進(jìn)行了對比測試,結(jié)果顯示其在基礎(chǔ)題上意外“翻車”,高難度問題上卻表現(xiàn)出色,甚至在速度上打敗了OpenAI的o1模型。DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對算力投入的需求將大幅下降。AI預(yù)訓(xùn)練時(shí)代或?qū)⒔K結(jié)。多家券商研報(bào)也指出算力需求將向推理側(cè)傾斜。

          每經(jīng)記者 岳楚鵬    每經(jīng)編輯 蘭素英    

          1月20日發(fā)布的DeepSeek-R1模型讓開發(fā)公司DeepSeek在全球的熱度持續(xù)攀升。1月27日,DeepSeek接連登頂蘋果中國和美國地區(qū)應(yīng)用商城的免費(fèi)應(yīng)用排行榜,甚至超越了大眾熟知的ChatGPT。 

          諸多測評結(jié)果顯示,DeepSeek旗下模型R1在多個(gè)基準(zhǔn)測試下都能匹敵甚至超越OpenAI、谷歌和Meta的大模型,而且成本更低。在聊天機(jī)器人競技場綜合榜單上,DeepSeek-R1已經(jīng)升至全類別大模型第三,其中,在風(fēng)格控制類模型(StyleCtrl)分類中與頂尖推理模型OpenAI o1并列第一。其競技場得分達(dá)到1357分,略超OpenAI o1的1352分。

          據(jù)外媒報(bào)道,Meta專門成立了四個(gè)專門研究小組來研究DeepSeek的工作原理,并基于此來改進(jìn)旗下大模型Llama

          其中兩個(gè)小組正在試圖了解DeepSeek如何降低訓(xùn)練和運(yùn)行成本;第三個(gè)研究小組則在研究DeepSeek訓(xùn)練模型可能用到的數(shù)據(jù);第四個(gè)小組正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型。

          《每日經(jīng)濟(jì)新聞》記者也對炙手可熱的R1模型與四款主流推理模型——OpenAI的ChatGPT o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節(jié)跳動(dòng)的豆包1.5Pro和月之暗面的Kimi 1.5——進(jìn)行了對比測試。測試結(jié)果顯示,DeepSeek在難度最低的簡單邏輯推理問題上表現(xiàn)不佳,但在高難度問題上表現(xiàn)可圈可點(diǎn),不僅回答正確,還在速度上擊敗了o1。

          DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對算力投入的需求將大幅下降。多家券商研報(bào)指出,算力需求會(huì)加速從預(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。 

          記者實(shí)測:DeepSeek簡單問題出錯(cuò),高難度問題完勝,并在速度上擊敗o1

          《每日經(jīng)濟(jì)新聞》記者對DeepSeek-R1以及市面上的幾款主流推理模型進(jìn)行了對比測試,包括o1、谷歌的Gemini 2.0 Flash Thinking Experimental、字節(jié)跳動(dòng)的豆包1.5Pro和月之暗面的Kimi 1.5。

          記者選擇了三個(gè)問題對以上五款模型進(jìn)行測試,難度依次升級(分別為一級到三級),依次評估模型的整體表現(xiàn)。由于DeepSeek的模型并不具備多模態(tài)功能,所以未進(jìn)行多模態(tài)相關(guān)測試。

          首先需要明確的是,推理模型與傳統(tǒng)的大語言模型在輸出方式上采用了兩種不同的模式。傳統(tǒng)的大語言模型對于模型的輸出采用的預(yù)測模式,即通過大規(guī)模的預(yù)訓(xùn)練猜測下一個(gè)輸出應(yīng)該是什么。而推理模型則具備自我事實(shí)核查能力,能夠有效避免一些常見錯(cuò)誤,使之輸出邏輯更接近人類自身思考推理的過程。所以,推理模型在解決問題時(shí)通常比非推理模型需多花費(fèi)幾秒到幾分鐘,在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域,其可靠性更高,但在常識領(lǐng)域可能有著效率不高的問題。

          DeepSeek推理過程示意圖

          難度I|三個(gè)燈泡問題:五大模型全部通關(guān)

          首先,記者選擇了一道簡單的思維問題:在一個(gè)黑暗的房間里,有三個(gè)開關(guān),分別控制著房間外的三個(gè)燈泡。你站在房間里,不能看到燈泡,只能通過開關(guān)控制它們。你只能走一次出去檢查燈泡,如何確定每個(gè)開關(guān)控制哪個(gè)燈泡?

          五個(gè)模型都很快得出了正確答案,在這個(gè)簡單的問題上沒有分出區(qū)別。

          豆包

          DeepSeek

          Kimi

          Gemini

          o1

          難度II|囚犯帽子顏色推理:DeepSeek、Kimi犯錯(cuò),Gemini耗時(shí)最短且完全正確

          接下來問題升級:有四位囚犯排隊(duì)站好,囚犯1號能看見囚犯2號和囚犯3號;囚犯2號可以看見囚犯3號;囚犯3號看不見任何人;囚犯4號也看不見任何人。他們知道一共有4頂帽子,2黑2白,但并不知道自己頭頂?shù)拿弊邮鞘裁搭伾U垎栒l會(huì)是第一個(gè)知道自己頭頂?shù)拿弊邮鞘裁搭伾⑶已杆俸俺鰜淼娜耍?/p>

          在這個(gè)問題上,DeepSeek和Kimi都犯錯(cuò)了,兩者在推理過程中推導(dǎo)出了一種情況,但正確選項(xiàng)應(yīng)該是兩種。

          Kimi

          DeepSeek

          而Gemini、豆包和o1都回答正確。其中,Gemini推理速度最快,僅用了6.8秒就得出了結(jié)果,最慢的是o1,耗時(shí)1分02秒。

          Gemini

          o1

          豆包

          難度III|研究生級別數(shù)學(xué)題:DeepSeek-R1完勝,且用時(shí)最短

          評測結(jié)果顯示,DeepSeek在科學(xué)領(lǐng)域如數(shù)學(xué)能力上排名第一。于是,記者找來了一道研究生級別的數(shù)學(xué)題進(jìn)行測試:找出所有階為147且不包含階為49的元素的兩兩不同同構(gòu)群(出自美國南加州大學(xué)博士資格考試)。

          在這一問題上,DeepSeek-R1沒有“辜負(fù)”評測,表現(xiàn)最好,找出了三個(gè)解。除o1外的其他模型只找出了兩個(gè)解,而且,Kimi在推理過程中還開啟了聯(lián)網(wǎng)查詢功能進(jìn)行輔助推理,但仍然少了一個(gè)解。

          雖然o1也找出了三個(gè)解,但耗時(shí)更長,用了4分17秒得出答案,而DeepSeek-R1只花費(fèi)了2分18秒。

          DeepSeek

          o1

          豆包




          Gemini

          Kimi

          綜合各項(xiàng)測試來看,DeepSeek存在一個(gè)反常識的問題,即在難度不高的問題上表現(xiàn)不如其他模型好,甚至可能會(huì)出現(xiàn)其他模型不會(huì)出現(xiàn)的錯(cuò)誤。但是當(dāng)難度提升到專家級別的程度上時(shí),DeepSeek的表現(xiàn)反而變成了最好的模型。

          這就是說,對于需要專業(yè)知識輔導(dǎo)的從業(yè)人員或研究人員來說,DeepSeek是一個(gè)好的選擇。

          DeepSeek力壓ChatGPT登頂蘋果應(yīng)用榜

          1月27日,蘋果App Store中國區(qū)免費(fèi)榜顯示,近一周全球刷屏的DeepSeek一舉登上首位。同時(shí),DeepSeek在美國區(qū)蘋果App Store免費(fèi)榜從前一日的第六位飆升至第一位,超越ChatGPT、Meta旗下的社交媒體平臺Threads、Google Gemini,以及Microsoft Copilot等AI產(chǎn)品。 

          許多科技界人士都在大肆宣揚(yáng)該公司所取得的成就及其對AI領(lǐng)域的意義。

          例如,著名投資公司A16z創(chuàng)始人馬克安德森27日表示,DeepSeek-R1是AI的斯普特尼克時(shí)刻注:這是指1957年10月4日蘇聯(lián)搶先美國成功發(fā)射斯普特尼克1號人造衛(wèi)星,令西方世界陷入一段恐懼和焦慮的時(shí)期)

          DeepSeek-R1在一些AI基準(zhǔn)測試上匹敵甚至超越了OpenAI的o1模型。DeepSeek-R1在聊天機(jī)器人競技場綜合榜單上排名第三,與頂尖推理模型o1并列。

          在高難度提示詞、代碼和數(shù)學(xué)等技術(shù)性極強(qiáng)的領(lǐng)域,DeepSeek-R1拔得頭籌,位列第一。

          在風(fēng)格控制方面,DeepSeek-R1與o1并列第一,意味著模型在理解和遵循用戶指令,并按照特定風(fēng)格生成內(nèi)容方面表現(xiàn)出色。

          在高難度提示詞與風(fēng)格控制結(jié)合的測試中,DeepSeek-R1與o1也并列第一,進(jìn)一步證明了其在復(fù)雜任務(wù)和精細(xì)化控制方面的強(qiáng)大能力。

          圖片來源:聊天機(jī)器人競技場

          Artificial-Analysis對DeepSeek-R1的初始基準(zhǔn)測試結(jié)果也顯示,DeepSeek-R1在AI分析質(zhì)量指數(shù)中取得第二高分,價(jià)格是o1的約三十分之一。

          圖片來源:Artificial-Analysis

          預(yù)訓(xùn)練時(shí)代將終結(jié),推理正在崛起

          DeepSeek旗下模型極低的訓(xùn)練成本或許預(yù)示著AI大模型對算力投入的需求將大幅下降。 

          “AI預(yù)訓(xùn)練時(shí)代無疑將終結(jié)。”2024年12月13日,在溫哥華NeurIPS大會(huì)上,OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家伊利亞•蘇茨克維爾(Ilya Sutskever)直言。

          在這場演講中,Ilya Sutskever將數(shù)據(jù)比作化石燃料,而燃料終將耗盡。“算力在增長,但數(shù)據(jù)卻沒有增長,因?yàn)槲覀冎挥幸粋€(gè)互聯(lián)網(wǎng)……我們已經(jīng)達(dá)到了數(shù)據(jù)峰值,不會(huì)再有更多數(shù)據(jù)了,我們必須處理好現(xiàn)有的數(shù)據(jù)。”現(xiàn)有數(shù)據(jù)仍可推動(dòng)AI進(jìn)一步發(fā)展,業(yè)內(nèi)也正在竭力挖掘新數(shù)據(jù)進(jìn)行訓(xùn)練,這種情況最終將迫使行業(yè)改變目前的AI模型訓(xùn)練方式。他預(yù)計(jì),下一代AI模型將是真正的AI Agent,且具備推理能力。

          預(yù)訓(xùn)練是指使用大量數(shù)據(jù)訓(xùn)練AI模型的過程,通常需要極高的計(jì)算能力和存儲資源。訓(xùn)練過程通常在數(shù)據(jù)中心完成,耗時(shí)較長,成本高昂。推理是指將訓(xùn)練好的模型應(yīng)用于實(shí)際任務(wù)(如生成文本、識別圖像、推薦商品等),通常需要低延遲和高吞吐量。推理過程可以在云端或邊緣設(shè)備(如手機(jī)、自動(dòng)駕駛汽車)上進(jìn)行。

          推理模型其最突出的地方在于,在給出回答之前,模型會(huì)思考,通過產(chǎn)生一個(gè)很長的內(nèi)部思維鏈(CoT),逐步推理,模仿人類思考復(fù)雜問題的過程。

          隨著各類大模型的成熟,許多企業(yè)和開發(fā)者可以直接使用預(yù)訓(xùn)練模型,而不需要從頭訓(xùn)練。對于特定任務(wù),企業(yè)通常只需對預(yù)訓(xùn)練模型進(jìn)行微調(diào),而不需要大規(guī)模訓(xùn)練,這減少了對訓(xùn)練算力的需求。預(yù)訓(xùn)練時(shí)代或許行將落幕,推理正在崛起。

          近幾日,多家券商研報(bào)都指出,算力需求會(huì)加速從預(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。

          巴克萊12月的報(bào)告預(yù)計(jì),AI推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的70%以上,推理計(jì)算的需求甚至可以超過訓(xùn)練計(jì)算需求,達(dá)到后者的4.5倍。英偉達(dá)GPU目前在推理市場中市占率約80%,但隨著大型科技公司定制化ASIC芯片不斷涌現(xiàn),這一比例有望在2028年下降至50%左右。

          免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

          如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
          未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

          讀者熱線:4008890008

          特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

          模型 DeepSeek Gemini Kimi OpenAI 推理模型 豆包

          歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

          每經(jīng)經(jīng)濟(jì)新聞官方APP

          0

          0

          国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
        2. <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

          <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
              1. <sup id="mz9d1"></sup>
                中文字幕亚洲乱码熟女一区二区 | 中文字幕vs熟女 | 亚洲一区视频香蕉 | 亚洲国产综合专区在 | 一级少妇高清在线 | 亚洲欧美国产国产一区二区 |