SparkVSR：讓使用者也能參與的影片畫質修復技術

6/25/2026 08:00:00 上午

SparkVSR：讓使用者也能參與的影片畫質修復技術

影片超解析（簡稱 VSR）就是把模糊、低畫質的影片變清晰、補回細節，是影片修復與後製常用的技術。雖然近年的 AI 模型在這方面進步很快，但它們大多像個黑盒子：訓練完成後，使用者只能被動接受模型吐出的結果，沒辦法插手調整，如果某個地方修得不理想，也很難針對性地修正。少數能用文字下指令的做法，也只能給很籠統的方向，沒辦法精準控制每一幀。問題的根源在於，把模糊畫面變清晰本來就沒有唯一正確答案：同一張模糊的圖，可以還原成好幾種看起來都合理、但細節不同的清晰版本，要選哪一種其實取決於使用者想要什麼，而不是單靠模型自己猜。所以作者認為，與其要使用者一幀一幀盯著改，不如讓他只挑少數幾張關鍵幀來把關；只要模型能把這幾張的修復效果可靠地擴散到整段影片，就能用很小的力氣大幅左右最終成果。基於這個想法，本文把 VSR 變成一個有使用者參與的流程，提出三項重點：以可編輯的少數關鍵幀作為控制錨點、設計一套能穩定傳播又能維持畫面結構的兩階段訓練方法，以及提供彈性的關鍵幀挑選與強度調節機制。

他們提出的方法叫 SparkVSR，運作方式很直覺：使用者（或自動程式）先挑出幾張關鍵幀，用任何一個現成的單張影像修復模型把它們修到最好（互動修圖時用 Nano-Banana-Pro，全自動時用 PiSA-SR），接著 SparkVSR 再把這幾張修好的成果，自然地延伸到整段影片，讓畫面前後一致。技術上，模型建立在現成的 CogVideoX1.5-5B 影片生成模型之上，並把整段低畫質影片和少數修好的高畫質關鍵幀分開處理：兩者各自被壓縮成精簡的數位表示後拼在一起，一起餵給核心的生成模組。為了省時間，模型只用一步就完成修復，既保住原影片的整體結構，又能專心補上細節。訓練分兩階段：第一階段先在壓縮過的空間裡練習，並刻意對關鍵幀加上各種干擾（調色、模糊、雜訊），模擬實際修圖工具會有的瑕疵；同時刻意「偶爾不給關鍵幀」（機率約一成），逼模型在沒有參考時也能自己把畫面修好。第二階段則進到實際畫面層級微調，同時練影片和單張圖片，並用多種品質指標一起把關，消除前後幀閃爍、提升細節真實感。實際使用時，使用者可以手動挑幀、讓系統自動抓影片裡品質最好的幀、或隨機取樣；還能用一個強度旋鈕自由調整：想更貼近自己修好的關鍵幀就調高，想讓模型多自由發揮、或關鍵幀本身有點瑕疵時就調低。

圖一：SparkVSR 的整體推論流程。整套架構分為三個主要階段：
（1）關鍵幀挑選：從低畫質影片（LR-video）中取出關鍵幀，可採手動挑選、編解碼 I-frame 擷取或隨機取樣三種策略。
（2）高畫質參考幀生成：將選出的關鍵幀升級為高畫質參考幀（HR Keyframes Reference）。可使用互動式 ISR 模型——透過「任務提示」（如「升級並去模糊至 4K 寫實畫質」）與「內容提示」（如「頂端的大標題 PARIS」）兩種文字條件精準引導修復；或使用全自動的盲式 ISR 模型。
（3）關鍵幀條件式影片重建：以 Diffusion Transformer 為核心的 VSR 模型，將兩個 Encoder 分別編碼的「修好的關鍵幀潛在」（SR Keyframes latent）與「低畫質影片潛在」（LR-Video latent）串接（Cat）後送入模型，再經 Decoder 解碼，生成前後一致的高畫質影片（Output Video）。

圖二：SparkVSR 的關鍵幀條件兩階段訓練流程。
第一階段（潛在空間訓練）：自真實 HR 影片以稀疏選取（參考丟棄率 0.1）取出關鍵幀，經擴增（ColorJitter、GaussianBlur、雜訊）模擬外部 ISR 輸出後，由凍結的 VAE Encoder 編碼為 HR 關鍵幀潛在；其依時序位置稀疏填入對應索引（未選取者留空），再與 LR 影片潛在沿通道串接（Concat）後送入 Diffusion Transformer，以 MSE 損失（𝓛_mse）對齊 HR 真實潛在進行優化。
第二階段（像素空間訓練）：採影片—影像聯合訓練。影片分支（綠）以 HR 關鍵幀潛在為條件，與 LR 影片潛在串接；影像分支（黃）則將 LR 影像潛在與零潛在（Zero Latent）串接以對齊通道維度。兩分支經 Diffusion Transformer 與 VAE Decoder 解碼至像素空間：影片分支輸出以 𝓛_mse、𝓛_dists 與幀間一致性損失 𝓛_frame 監督，影像分支輸出則以 𝓛_mse 與 𝓛_dists 監督。圖中雪花標記表示凍結權重，火焰標記表示可訓練模組。

評估方面，作者在多個公開測試集上比較，並額外整理了一組叫 MovieLQ 的資料，取自 1940 到 1950 年代、帶有真實老舊損傷的十段復古影片，用來檢驗在真實困難情況下的表現。結果顯示，即使完全不給關鍵幀，SparkVSR 在還原準確度上就已經很強；而一旦加入修好的關鍵幀，在人眼看起來的畫質相關指標上更是全面領先，相較目前最強的對手最多分別提升約 24.6%、21.8% 與 5.6%；在最難的真實老片 MovieLQ 上，各項感知指標也都拿到最好成績。更深入的分析也印證了幾件事：第二階段的微調對提升真實感很關鍵；那個「強度旋鈕」能讓使用者在忠於原圖和畫面更漂亮之間自由取捨，且取捨表現比所有對手都好；給越多關鍵幀、畫面紋理就越一致細緻；用時間軸切片來檢查也能看出，它的畫面在前後幀之間非常穩定，幾乎沒有閃爍。此外，這套方法不只是修畫質，它本質上是個把少數幀的效果延伸到整段影片的引擎，不需要重新訓練，就能直接拿來做老片修復上色、或把影片變成特定藝術風格等更多應用。

撰文：陳怡亨

原始論文：Yu, J., Gao, X., Verlani, P., Gadde, A., Wang, Y., Adsumilli, B., & Tu, Z. (2026). "SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation." arXiv preprint arXiv:2603.16864.

https://doi.org/10.48550/arXiv.2603.16864

https://sparkvsr.github.io/

搜尋此網誌

神經妙算

SparkVSR：讓使用者也能參與的影片畫質修復技術

留言

張貼留言

熱門文章

理解意識：比較兩大領先理論的突破性研究

RAG降低醫學問答AI的幻覺

所以視網膜到底有沒有長反?