每日經濟新聞 2025-10-16 20:52:44
百度副總裁、移動生態商業體系負責人陳一凡將AI視頻發展階段比作從“3G到4G”的轉折期,認為競爭正從技術比拼轉向門檻之爭,實時交互是關鍵。百度視頻生成大模型迭代押注實時交互,采用自回歸流式擴展架構,以解決累積誤差和一致性問題。降低門檻、豐富玩法將吸引更多用戶,平臺視頻生成量級已達千萬級。
每經記者|可楊 每經編輯|魏官紅
從Runway、Pika到Sora,AI(人工智能)視頻工具不斷刷新想象空間,而在國內,實踐者們開始探索更深層次的問題——AI如何真正融入內容產業,形成可持續的生產模式。
百度副總裁、移動生態商業體系負責人陳一凡在接受包括《每日經濟新聞》記者在內的媒體記者采訪時將這一節點比作通信史上“3G到4G”的轉折期——從“能生成”邁向“可實時互動”。
陳一凡認為,實時交互被低估了,“如果只是生成,可能只是做了一個類似AI版的抖音”。他表示,AI視頻競爭的下半場,正在從技術比拼轉向門檻之爭,誰能讓更多人更低成本地參與創作,誰就能在生態中積累更大的勢能。
在AI視頻生成的快速演進中,技術的焦點似乎正在悄然轉移,從“能生成”邁向“能交互”。
陳一凡將這一節點比作通信史上3G到4G變革的前夜,“沒有3G,就沒有移動互聯網的繁榮;沒有4G,就不會有短視頻的爆發”。在他看來,生成模型的能力已趨近成熟,下一階段的突破不在于更大的參數或更高的分辨率,而在于讓生成變得實時、可控、可互動。
百度商業研發首席架構師李雙龍也認為,人類創作的過程并不是一次性做成的,而是一個邊寫邊改、不斷思考與修正的過程。他指出,當前許多視頻生成產品仍停留在“盲盒式”體驗——用戶等待模型一次性生成10秒或20秒片段,再判斷結果是否可用,這種反射性生成方式并不符合真實的創作邏輯。
為了實現可打斷和可修改的實時交互,百度“蒸汽機”選擇將整個架構從窗口式擴展升級為自回歸流式擴展架構。“這未必是顛覆性的創新,但它是更符合人性的創作過程。”李雙龍說。
在談及如何實現交互式生成時,李雙龍坦言,這一方向背后存在大量技術挑戰,傳統的窗口式擴散生成方式無法支撐長視頻創作,因為它以10秒為單位生成,出現問題時無法局部修改,只能重來。為此,團隊對底層架構進行了升級,從“窗口擴散”轉向“自回歸流式擴展生成”。
但該機制也帶來了新的問題,例如累積誤差和一致性挑戰。對此,李雙龍介紹,團隊通過采用歷史幀和穩定錨點幀技術等優化手段,來全局管理一致性,解決自回歸帶來的問題。
陳一凡認為,實時交互的需求是被低估了,“如果只是生成,可能只是做了一個類似AI版的抖音”,這當然也有很大的空間,但可互動性之所以重要,在于它提升了信息密度,將傳統的單向、寫好劇本的內容消費轉變為雙向互動。
這能讓用戶擁有不同的情景體驗,極大地提升娛樂性。從淺層應用來看,實時交互能提升廣告線索質量;從深層應用來看,它能完成整個咨詢或服務過程的深度交互,例如在心理咨詢等場景中,數字人可以實時感知用戶表情并作出反饋,實現與傳統廣告截然不同的深度。
在百度內部,“蒸汽機”承擔著模型、工具、產品三層結構的中樞角色:底層是模型層,中層是工具層,上層是產品層。在這種布局之下,百度在視頻生成模型方面的打法,更偏向于構建一個AI內容生態的基礎設施。
放眼全球,AI視頻生成模型領域競爭的激烈程度和變化速度遠超想象。
OpenAI的Sora 2模型一經發布,憑借“電影級”的短視頻生成能力和對物理、人物塑造的巨大突破,其驅動的創作應用“Sora”迅速登上美區應用商店下載榜首,證明了其在To C(面向用戶)端強大的市場號召力。緊隨其后,谷歌的Veo 3.1迅速更新,不僅新增了音頻生成功能,支持為視頻添加背景音樂和音效,更在對象控制、視頻分辨率與時序連貫性上實現技術升級,提升了高質量內容創作的適用性。
這場全球范圍內的技術競賽正以前所未有的速度向前推進,但與此同時,底層架構和技術路徑日益趨同。對于行業終局和應對策略,陳一凡認為,創新和用戶體驗將成為核心突破口。
陳一凡指出,從技術發展歷程來看,視頻生成行業經歷了“從想法到實現,再到反思優化”的階段。初期技術迭代主要集中在算法性能上,但隨著DIT架構等方案成熟,算力需求和生成時間呈幾何級增長,限制了大規模應用。
“創新在這個階段尤為重要。以前大家會關注技術性能,現在更多關注如何降低使用門檻,讓玩法更豐富。”陳一凡表示,降低門檻意味著用戶能夠即時獲得互動體驗,而非等待延遲結果,這也是目前很多大模型在應用上仍然存在短板的環節。
在具體實踐中,百度通過升級流式架構提升生成效率,實現了大規模的視頻生產與分發。陳一凡透露,平臺視頻生成量級已經從百萬級提升到千萬級,“當門檻降低、玩法豐富,自然會吸引更多用戶涌入,最終的目標是讓用戶知道怎么玩、愿意玩”。
對于近期熱門產品如Sora 2的技術表現,陳一凡認為,其底層模型在一致性和運鏡豐富度上有所提升,但尚未達到基礎模型級別的突破。
在商業化的思考上,百度“蒸汽機”當前階段的重點仍是內部賦能,即通過技術能力支撐內部產品,提升To C端的價值。陳一凡坦言,當前最明顯的收益是C端整個的用戶留存和使用時長的提升,這直接帶來了百度原有商業化模式收入的增長。
據透露,目前,營銷相關和內容創作是“蒸汽機”調用量最大的兩大落地場景。營銷相關調用量占到約一半。
對于未來是主攻To C還是To B,陳一凡表示,目前兩側都在投入。To B端,主要滿足內部技術業務庫的需求,以及應對外部客戶的定制化需求,如專有云應用等,需要針對穩定性等進行微調;To C端,側重于結合百家號等生態,將創作者生態做大。
封面圖片來源:每日經濟新聞 資料圖
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP