利用共形推論的輕量化視覺里程計

在自駕車、無人機的研究中,視覺里程計向來都是重點研究方向之一。想像一下,若走到一處未探索過的地方,除了位置之外,你的自駕車可能也會想知道它有多確信自己真的在它推論的位置上;如果不確信的話,可能就表示走錯方向了。這種「確定性」可以讓我們更好地進行決策、風險管理,是自動駕駛中重要的一部。

伊利諾大學芝加哥分部在今年三月提出了將「共形推論」應用到確定性估算的一系列新方法(Stutts et al. 2023)。共形推論是一種統計技巧,它會建構出一段預測區間,這段區間能在一定的信心指數下保證真實結果一定在其中[圖1]。這個方法的強處是具有高適應性跟靈活度,且只需要有限的資料/運算資源來估算,同時也不需要假設雜訊符合某種特定的分佈[註1]。
圖1: 輕量化 VO 示意圖。除了姿態本身之外,不確定性區間的上下限也會被估計出來,作為後續決策的指標。

在這裡,四種基於共形推論的視覺里程計不確定性估計方法[表1]被提出,分別是共形化分位數迴歸(Conformalized Quantile Regression, CQR)[圖2]、共形化集合預測(Conformalized Set Prediction, CSP)[圖3]、應用蒙地卡羅dropout的多變量CQR(Multivariate CQR, MCQR)[圖4a]、共形化聯合預測(Conformalized Joint Prediction, CJP)[圖4b]。它們各有優缺,將神經網路與共形推論的能力進行不同程度的獨特結合。其中,CJP方法相當可靠且有效率;儘管使用了輕量化的MobileNetV2,它仍在不同的資料集之中表現良好[圖6]。這使得它相當便攜,可以應用在各種平台上。
表1: 四種估計法的定性比較。

圖2: CQR 示意圖。CQR的大致步驟如下: 1. 分割資料成訓練用資料及校正用資料 2. 訓練ResNet神經網路 3. 計算殘差 4. 量化不確定性。在這裡,分位數回歸被應用到個別的姿態分量上,包含表達位置的 x, y, z 座標,以及表達方位的 x, y, z, w 四元數。

圖3: CSP 示意圖。與直接輸出不確定性的CQR不一樣,CSP將姿態估計轉換成了分類問題,將空間/方位分割成不同區間並進行分類。與CQR相比,這樣做的好處是不確定性區間可以是離散的,不需要連在一起。不過,當類別太多/資料太少時,CSP可能就無法正確反應真實的機率分佈。

圖4: MCQR 與 CJP 示意圖。 a. MCQR改進了CQR,可以估計各個分量的聯合分佈。在這邊,蒙地卡羅dropout資料增強被引入,幫助產生一組估計值,使我們得以計算不確定性。不過,此種方法的準確度會直接受到上游ResNet-34姿態品質的限制。 b. CJP改進了MCQR,不使用上游產出的姿態,而是改為直接輸入圖像特徵,同時估算相機姿態與不確定性。在訓練時,除了常見的均方差與交叉熵,各分量維度的共變異數與相關性、不確定性的品質指標也被引入進損失函數之中。

圖5: 各方法的效果比較。

圖6: CJP 效果演示。透過加入各種不同的雜訊,可以發現 CJP 可以很好地透過 interval length 反應出不確定性。

此篇論文提出的方法可以讓我們設計更可靠的系統;這些系統可以基於不確定性,做出更合理的決策,且能更有效的應對突發狀況,使得自駕車與無人機可以了解這個世界,進行更高層次的互動。

註1: 最經典的例子就是假定了常態分佈的卡爾曼濾波器。
註2: 各方法的技術細節被標示在圖片描述中。


撰文|葉宸甫


參考資料
Stutts, Alex C., Danilo Erricolo, Theja Tulabandhula, and Amit Ranjan Trivedi. 2023. “Lightweight, Uncertainty-Aware Conformalized Visual Odometry.” arXiv. https://doi.org/10.48550/arXiv.2303.02207.

留言