利用多尺度注意力感知網絡(MA-Net)進行光流估算

近年來,基於深度學習的方法已被提出用於光流估計。在特徵提取過程中,常導致細節的損失,從而導致估計效果不好。此研究(Li et al., 2022)提出了一種新型的MA-Net,它同時利用通道(channel attention module)和空間(spatial attention module)注意力模型,通過多尺度神經網路結構並行運算粗尺度及細尺度的圖像特徵。

注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描圖像,獲得需要重點關注的目標區域,也就是一般所說的注意力焦點,研究人員希望神經網路也擁有此能力,因此有注意力模型的產生(Ilg et al., 2017; Woo et al., 2018)。channel attention有助於篩選出有意義的特徵,即告訴神經網路原圖哪一部分特徵具有意義,spatial attention相當於告訴網絡應該注意原圖中哪個區域的特徵。

在MA-Net中,首先以四個卷積層提取圖像特徵,接下來依次使用多尺度通道和空間注意力模型,產生以注意力感知的特徵作為輸出。然後根據兩組產生的結果提取相似的地方,並對應於輸入圖像。同時,「上下文編碼器 」將序列中的第一幀作為其輸入,並產生一組特徵圖作為輸出,其中記錄了該幀中每個物體的初始位置。基於這組特徵圖,可測量後續幀的位置偏移,以估計移動物體的光流。最後與上面的計算結果和上下文信息最後被轉發給更新模組,通過迭代優化產生光流估計結果。
圖一、MA-Net的結構,其中channel attention和spatial attention分別表示為 "CA "和 "SA"。

圖二、實驗結果顯示,MA-Net在光流估算上與其他網路相比有較小的EPE。



撰文:余雪淩


原始論文:Li, M., Zhong, B., & Ma, K. K. (2022, 23-27 May 2022). MA-NET: Multi-Scale Attention-Aware Network for Optical Flow Estimation. ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

參考資料:
1. Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., & Brox, T. (2017). Flownet 2.0: Evolution of optical flow estimation with deep networks. Proceedings of the IEEE conference on computer vision and pattern recognition
2. Woo, S., Park, J., Lee, J.-Y., & Kweon, I. S. (2018). Cbam: Convolutional block attention module. Proceedings of the European conference on computer vision (ECCV)

留言