跳到主要內容

發表文章

精選

SparkVSR:讓使用者也能參與的影片畫質修復技術

影片超解析(簡稱 VSR)就是把模糊、低畫質的影片變清晰、補回細節,是影片修復與後製常用的技術。雖然近年的 AI 模型在這方面進步很快,但它們大多像個黑盒子:訓練完成後,使用者只能被動接受模型吐出的結果,沒辦法插手調整,如果某個地方修得不理想,也很難針對性地修正。少數能用文字下指令的做法,也只能給很籠統的方向,沒辦法精準控制每一幀。問題的根源在於,把模糊畫面變清晰本來就沒有唯一正確答案:同一張模糊的圖,可以還原成好幾種看起來都合理、但細節不同的清晰版本,要選哪一種其實取決於使用者想要什麼,而不是單靠模型自己猜。所以作者認為,與其要使用者一幀一幀盯著改,不如讓他只挑少數幾張關鍵幀來把關;只要模型能把這幾張的修復效果可靠地擴散到整段影片,就能用很小的力氣大幅左右最終成果。基於這個想法,本文把 VSR 變成一個有使用者參與的流程,提出三項重點:以可編輯的少數關鍵幀作為控制錨點、設計一套能穩定傳播又能維持畫面結構的兩階段訓練方法,以及提供彈性的關鍵幀挑選與強度調節機制。 他們提出的方法叫 SparkVSR,運作方式很直覺:使用者(或自動程式)先挑出幾張關鍵幀,用任何一個現成的單張影像修復模型把它們修到最好(互動修圖時用 Nano-Banana-Pro,全自動時用 PiSA-SR),接著 SparkVSR 再把這幾張修好的成果,自然地延伸到整段影片,讓畫面前後一致。技術上,模型建立在現成的 CogVideoX1.5-5B 影片生成模型之上,並把整段低畫質影片和少數修好的高畫質關鍵幀分開處理:兩者各自被壓縮成精簡的數位表示後拼在一起,一起餵給核心的生成模組。為了省時間,模型只用一步就完成修復,既保住原影片的整體結構,又能專心補上細節。訓練分兩階段:第一階段先在壓縮過的空間裡練習,並刻意對關鍵幀加上各種干擾(調色、模糊、雜訊),模擬實際修圖工具會有的瑕疵;同時刻意「偶爾不給關鍵幀」(機率約一成),逼模型在沒有參考時也能自己把畫面修好。第二階段則進到實際畫面層級微調,同時練影片和單張圖片,並用多種品質指標一起把關,消除前後幀閃爍、提升細節真實感。實際使用時,使用者可以手動挑幀、讓系統自動抓影片裡品質最好的幀、或隨機取樣;還能用一個強度旋鈕自由調整:想更貼近自己修好的關鍵幀就調高,想讓模型多自由發揮、或關鍵幀本身有點瑕疵時就調低。 圖一:SparkVSR 的整體推論流程。整套架構分為...

最新文章

在充滿不確定的世界中尋找最佳解

「動態重塑的藝術:回聲狀態網絡中的 AFRICO 自適應機制 」類腦運算的優化 - ESN 的 feedback framework

神經元裡的「加速度感測器」:樹突如何判斷重要訊號?

為什麼我們移動時,眼前的世界不會糊成一團?

視交叉上核如何從多樣性中編織時間?

如何讓神經網路不只是算出答案,而是能穩定地往目標狀態前進?

如何讓 ESN 擁有估計機率分佈的能力

果蠅如何在風中找到方向:中央複合體、PFN神經元與一場主動製造答案的飛行

看不見就聞不到:果蠅飛行氣味追蹤背後的視覺記憶機制

把果蠅變成「活體微型機器人」:小小昆蟲,如何被引導寫字、走迷宮、搬貨?