整合物體及特徵點的層級定位與建圖

使用物體而非只用特徵點進行定位與建圖,能提高效率與穩定性,而且能提供高級訊息來幫助機器人與環境互動。 但是,精度方面卻沒辦法保證能夠比較好,有時反而更差。這是因為我們還不能有效地利用來自物體的訊息。

北京理工大學提出了 VOOM(Wang, Jiang, and Chen 2024) 來試圖整合特徵點與物體的優點;此方法基於 ORB-SLAM2 處理特徵點、使用 YOLOv8 來偵測物體邊框與分割,並使用雙二次曲面來建立橢球體形狀的物體模型。同時為了增加配對穩定性,在匹配不同幀的同一物體時,相比邊界框的 IoU ,改為使用包含橢圓中心、長軸與方向訊息的 Wasserstein 距離對其進行匹配。

在後端最佳化之中,VOOM 使用了從粗到細的定位與建圖法。定位部份只匹配屬於同一物體的特徵點,增加匹配效率。建圖部份,則先使用物體共視圖更新地圖,再使用特徵點進行姿態最佳化。這樣可以讓算法更充分的利用一些叫久遠的關鍵幀,讓其更穩健。

在 TUM RGB-D 及 LM-Data 測試集上進行測試之後,其結果顯示新的算法不僅在沒有閉環檢測的情況下達到更高精度的相機姿態,在建構地圖時也能用更少的出錯來達到較高的效率。


撰文|葉宸甫


參考文章
Wang, Yutong, Chaoyang Jiang, and Xieyuanli Chen. 2024. “VOOM: Robust Visual Object Odometry and Mapping Using Hierarchical Landmarks.” arXiv. https://doi.org/10.48550/arXiv.2402.13609.

留言