• <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

    <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
        1. <sup id="mz9d1"></sup>
          每日經(jīng)濟(jì)新聞
          推薦

          每經(jīng)網(wǎng)首頁(yè) > 推薦 > 正文

          阿里云通義開源超強(qiáng)視覺(jué)理解模型Qwen2.5-VL,AI智能體能力大幅增強(qiáng)

          2025-01-28 14:45:17

          1月28日凌晨,阿里云通義千問(wèn)開源全新的視覺(jué)模型Qwen2.5-VL,推出3B、7B和72B三個(gè)尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評(píng)測(cè)中奪得視覺(jué)理解冠軍。新的Qwen2.5-VL能夠更準(zhǔn)確地解析圖像內(nèi)容,突破性地支持超1小時(shí)的視頻理解,無(wú)需微調(diào)就可變身為一個(gè)能操控手機(jī)和電腦的AI視覺(jué)智能體(Visual Agents),實(shí)現(xiàn)給指定朋友送祝福、電腦修圖、手機(jī)訂票等多步驟復(fù)雜操作。

          通義團(tuán)隊(duì)此前曾開源Qwen-VL及Qwen2-VL兩代模型,支持開發(fā)者在手機(jī)、汽車、教育、金融、天文等不同場(chǎng)景進(jìn)行AI探索,Qwen-VL系列模型全球總下載量超過(guò)3200萬(wàn)次,是業(yè)界非常受歡迎的多模態(tài)模型。今天,Qwen-VL再度全新升級(jí)到第三代版本。根據(jù)評(píng)估,此次發(fā)布的旗艦型模型Qwen2.5-VL-72B-Instruct斬獲OCRBenchV2、MMStar、MathVista等13項(xiàng)評(píng)測(cè)冠軍,在包括大學(xué)水平的問(wèn)答、數(shù)學(xué)、文檔理解、視覺(jué)問(wèn)答、視頻理解和視覺(jué)智能體方面表現(xiàn)出色,全面超越GPT-4o與Claude3.5;Qwen2.5-VL-7B-Instruct 在多個(gè)任務(wù)中超越了 GPT-40-mini。

          新的Qwen2.5-VL視覺(jué)知識(shí)解析能力實(shí)現(xiàn)了巨大飛躍:不僅能準(zhǔn)確識(shí)別萬(wàn)物,還能解析圖像的布局結(jié)構(gòu)及其中的文本、圖表、圖標(biāo)等復(fù)雜內(nèi)容,從一張app截圖中就能分析出插圖和可點(diǎn)按鈕等元素;可精準(zhǔn)定位視覺(jué)元素,擁有強(qiáng)大的關(guān)鍵信息抽取能力,比如準(zhǔn)確識(shí)別和定位馬路上騎摩托車未戴頭盔的人,或是以多種格式提取發(fā)票中的核心信息并做結(jié)構(gòu)化的推理輸出;OCR能力提升到全新水平,更擅長(zhǎng)理解圖表并擁有更全面的文檔解析能力,在精準(zhǔn)識(shí)別的內(nèi)容同時(shí)還能完美還原文檔版面和格式。


          圖說(shuō):Qwen2.5-VL可精準(zhǔn)定位視覺(jué)元素,在理解圖表和文檔方面優(yōu)勢(shì)顯著

          Qwen2.5-VL 的視頻理解能力也大幅增強(qiáng),可以更好地看清動(dòng)態(tài)世界。在時(shí)間處理上,新模型引入了動(dòng)態(tài)幀率(FPS)訓(xùn)練和絕對(duì)時(shí)間編碼技術(shù),使得Qwen2.5-VL不僅能夠能夠準(zhǔn)確地理解小時(shí)級(jí)別的長(zhǎng)視頻內(nèi)容,還可以在視頻中搜索具體事件,并對(duì)視頻的不同時(shí)間段進(jìn)行要點(diǎn)總結(jié),從而快速、高效地幫助用戶提取視頻中蘊(yùn)藏的關(guān)鍵信息。打開攝像頭,你就能與Qwen2.5-VL實(shí)時(shí)對(duì)話。

          視覺(jué)感知、解析及推理能力的增強(qiáng),讓大模型自動(dòng)化完成任務(wù)、與真實(shí)世界進(jìn)行復(fù)雜交互成為可能。Qwen2.5-VL甚至能夠直接作為視覺(jué)智能體進(jìn)行操作,而無(wú)需特定任務(wù)的微調(diào),比如讓模型直接操作電腦和手機(jī),根據(jù)提示自動(dòng)完成查詢天氣、訂機(jī)票、下載插件等多步驟復(fù)雜任務(wù)。開發(fā)者基于Qwen2.5-VL也能快速簡(jiǎn)單開發(fā) 屬于自己的AI智能體,完成更多自動(dòng)化處理和分析任務(wù),比如自動(dòng)核驗(yàn)快遞單地址與照片中的門牌號(hào)是否對(duì)應(yīng),根據(jù)家庭攝像頭判斷貓咪狀況進(jìn)行自動(dòng)喂食,自動(dòng)進(jìn)行火災(zāi)報(bào)警等。

          動(dòng)圖:Qwen2.5-VL手機(jī)端AI Agent 演示:幫我給我的QQ好友張三,發(fā)送一條新春祝福

          在模型技術(shù)方面,與Qwen2-VL相比,Qwen2.5-VL增強(qiáng)了模型對(duì)時(shí)間和空間尺度的感知能力,并進(jìn)一步簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。Qwen2.5-VL創(chuàng)新地利用豐富的檢測(cè)框、點(diǎn)等坐標(biāo),讓模型直接感知和學(xué)習(xí)圖片在空間展示上的尺寸大小;同時(shí),在時(shí)間維度也引入了動(dòng)態(tài)FPS訓(xùn)練和絕對(duì)時(shí)間編碼,進(jìn)而擁有通過(guò)定位來(lái)捕捉事件的全新能力。而在重要的視覺(jué)編碼器設(shè)計(jì)中,通義團(tuán)隊(duì)從頭開始訓(xùn)練了原生動(dòng)態(tài)分辨率的ViT,并采用RMSNorm和SwiGLU的結(jié)構(gòu)使得ViT和LLM保持一致,讓Qwen2.5-VL擁有更簡(jiǎn)潔高效的視覺(jué)編解碼能力。

          圖說(shuō):Qwen2.5-VL模型結(jié)構(gòu)圖

          目前,不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社區(qū)、HuggingFace等平臺(tái)開源,開發(fā)者也可以在Qwen Chat上直接體驗(yàn)最新模型。

          責(zé)編 萬(wàn)清澄

          特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

          歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

          每經(jīng)經(jīng)濟(jì)新聞官方APP

          0

          0

          国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
        2. <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

          <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
              1. <sup id="mz9d1"></sup>
                小草在线影院婷婷亚洲 | 久久精品99久久香蕉国产 | 亚洲精品视频福利 | 亚洲手机在线人成网站播放 | 亚洲色大情网站久久久 | 亚洲日韩欧美一区二区三区在线 |