作者:Haotian
除了AI 在地化「下沉」之外,AI 賽道近段時間最大的變化莫過於:多模態視訊生成的技術突破了,從原先支援純文字生成視訊演變成文字+ 影像+ 音訊的全鏈路整合生成技術。
隨便說幾個技術突破案例,大家感受下:
1)位元組跳動開源EX-4D 框架:單眼視訊秒變自由視角4D 內容,使用者認可度達70.7%。也就是說,給一個普通視頻,AI 能自動生成任意角度的觀看效果,這在以前需要專業的3D 建模團隊才能搞定;
2)百度「繪想」平台:一張圖生成10 秒視頻,宣稱可以達到「電影級」品質。但不是由行銷包裝誇大的成分,要等8 月份的Pro 版本更新後實際看效果;
3)Google DeepMind Veo:可以達到4K 視訊+ 環境音的同步產生。關鍵技術亮點是「同步」能力的達成,之前都是視頻和音頻兩套系統拼接,要能做到真正語義層面的匹配需要克服較大的挑戰,比如復雜場景下,要做到畫面中走路動作和腳步聲的對應音畫同步問題;
4)抖音ContentV:80 億參數,2.3 秒生成1080p 視頻,成本3.67 元/5 秒。老實說這個成本控制的還可以,但目前生成品質看,遇到複雜的場景還差強人意;
為什麼說這些案例在視訊品質、生成成本、應用場景等方面的突破,價值和意義都很大?
1.技術價值突破方面,一個多模態視訊生成的複雜度往往是指數級的,單幀影像生成大概10^6 個像素點,視訊要保證時序連貫性(至少100 幀),再加上音訊同步(每秒10^4 個採樣點),還要考慮3D 空間一致性。
綜合下來,技術複雜度可不低,原本都是一個超大模型硬剛所有任務,據說Sora 燒了數萬張H100 才具備的視頻生成能力。現在可以透過模組化分解+ 大模式分工協作來實現。例如,位元組的EX-4D 其實是把複雜任務拆解成:深度估計模組、視角轉換模組、時序插值模組、渲染最佳化模組等等。每個模組專門做一件事,然後透過協調機製配合。
2.成本縮減面向:背後其實推理架構本身的優化,包括分層生成策略,先低解析度生成骨架再高分辨增強成像內容;快取復用機制,就是相似場景的複用;動態資源分配,其實就是根據具體內容複雜度調整模型深度。
這樣一套優化下來,才會有抖音ContentV 的3.67 元/5 秒的結果。
3.應用程式衝擊方面,傳統影片製作是重資產遊戲:設備、場地、演員、後期,一個30 秒廣告片幾十萬製作費很正常。現在AI 把這套流程壓縮到Prompt+ 幾分鐘等待,能實現傳統拍攝難以達到的視角和特效。
這樣一來就把原本影片製作存在的技術和資金門檻變成了創意和美學,可能會促進整個創作者經濟的再洗牌。
問題來了,說這麼多web2AI 技術需求端的變化,跟web3AI 有啥關係呢?
1.首先,算力需求結構的改變,以前AI 拼算力規模,誰有更多同質化的GPU 集群誰就贏,但多模態視頻生成需求的是多樣化的算力組合,對於分佈式的閒置算力,以及各個分佈式微調模型、算法、推理平台上都可能產生需求;
2.其次,資料標註的需求也會加強,產生一個專業級影片需要:精準的場景描述、參考影像、音訊風格、攝影機運動軌跡、光照條件等等都會成為專業的資料標註新需求,用web3 的激勵方式,可以刺激攝影師、音效師、3D 藝術家等提供專業的資料素,用專業垂類的資料標註增強AI 影片產生的能力;
3.最後,值得一說的是,當AI 從過去集中式大規模資源調配逐漸趨於模組化協作本身就是一種去中心化平台的新需求。屆時算力、數據、模型、激勵等共同組合形成自我強化的飛輪,進而帶動web3AI 和web2AI 場景的大融合。
