SparkVSR:讓使用者也能參與的影片畫質修復技術
影片超解析(簡稱 VSR)就是把模糊、低畫質的影片變清晰、補回細節,是影片修復與後製常用的技術。雖然近年的 AI 模型在這方面進步很快,但它們大多像個黑盒子:訓練完成後,使用者只能被動接受模型吐出的結果,沒辦法插手調整,如果某個地方修得不理想,也很難針對性地修正。少數能用文字下指令的做法,也只能給很籠統的方向,沒辦法精準控制每一幀。問題的根源在於,把模糊畫面變清晰本來就沒有唯一正確答案:同一張模糊的圖,可以還原成好幾種看起來都合理、但細節不同的清晰版本,要選哪一種其實取決於使用者想要什麼,而不是單靠模型自己猜。所以作者認為,與其要使用者一幀一幀盯著改,不如讓他只挑少數幾張關鍵幀來把關;只要模型能把這幾張的修復效果可靠地擴散到整段影片,就能用很小的力氣大幅左右最終成果。基於這個想法,本文把 VSR 變成一個有使用者參與的流程,提出三項重點:以可編輯的少數關鍵幀作為控制錨點、設計一套能穩定傳播又能維持畫面結構的兩階段訓練方法,以及提供彈性的關鍵幀挑選與強度調節機制。
他們提出的方法叫 SparkVSR,運作方式很直覺:使用者(或自動程式)先挑出幾張關鍵幀,用任何一個現成的單張影像修復模型把它們修到最好(互動修圖時用 Nano-Banana-Pro,全自動時用 PiSA-SR),接著 SparkVSR 再把這幾張修好的成果,自然地延伸到整段影片,讓畫面前後一致。技術上,模型建立在現成的 CogVideoX1.5-5B 影片生成模型之上,並把整段低畫質影片和少數修好的高畫質關鍵幀分開處理:兩者各自被壓縮成精簡的數位表示後拼在一起,一起餵給核心的生成模組。為了省時間,模型只用一步就完成修復,既保住原影片的整體結構,又能專心補上細節。訓練分兩階段:第一階段先在壓縮過的空間裡練習,並刻意對關鍵幀加上各種干擾(調色、模糊、雜訊),模擬實際修圖工具會有的瑕疵;同時刻意「偶爾不給關鍵幀」(機率約一成),逼模型在沒有參考時也能自己把畫面修好。第二階段則進到實際畫面層級微調,同時練影片和單張圖片,並用多種品質指標一起把關,消除前後幀閃爍、提升細節真實感。實際使用時,使用者可以手動挑幀、讓系統自動抓影片裡品質最好的幀、或隨機取樣;還能用一個強度旋鈕自由調整:想更貼近自己修好的關鍵幀就調高,想讓模型多自由發揮、或關鍵幀本身有點瑕疵時就調低。
評估方面,作者在多個公開測試集上比較,並額外整理了一組叫 MovieLQ 的資料,取自 1940 到 1950 年代、帶有真實老舊損傷的十段復古影片,用來檢驗在真實困難情況下的表現。結果顯示,即使完全不給關鍵幀,SparkVSR 在還原準確度上就已經很強;而一旦加入修好的關鍵幀,在人眼看起來的畫質相關指標上更是全面領先,相較目前最強的對手最多分別提升約 24.6%、21.8% 與 5.6%;在最難的真實老片 MovieLQ 上,各項感知指標也都拿到最好成績。更深入的分析也印證了幾件事:第二階段的微調對提升真實感很關鍵;那個「強度旋鈕」能讓使用者在忠於原圖和畫面更漂亮之間自由取捨,且取捨表現比所有對手都好;給越多關鍵幀、畫面紋理就越一致細緻;用時間軸切片來檢查也能看出,它的畫面在前後幀之間非常穩定,幾乎沒有閃爍。此外,這套方法不只是修畫質,它本質上是個把少數幀的效果延伸到整段影片的引擎,不需要重新訓練,就能直接拿來做老片修復上色、或把影片變成特定藝術風格等更多應用。
撰文:陳怡亨
原始論文:Yu, J., Gao, X., Verlani, P., Gadde, A., Wang, Y., Adsumilli, B., & Tu, Z. (2026). "SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation." arXiv preprint arXiv:2603.16864.




留言
張貼留言