小朋友也能寫的電腦視覺程式

在本篇文章中,將會介紹一篇有關 Neuro-symbolic AI 的研究。在這個研究中,Neuro 表示主要能夠學習、推理並且可以調用各類型知識的模型,為整個架構的基礎,例如 GPT-3;而 symbolic 則是可供 Neuro 調用的模組,例如 OpenCV的函式庫或其各種負責專門任務的小模型,例如物件辨識或是語意分割等。

VISPROG 是研究團隊提出的模型,是一種運用語言模型解決複雜視覺任務的方法。他們試圖將大型語言模型的推理能力應用於複雜的視覺任務(圖一)。此系統展現出非常強大的能力,並產生可讀性非常高的虛擬碼過程以及好棒棒的結果。
圖一

研究團隊將其應用於四個主要任務,包括是或否的回答、根據使用者問題對原始影像的推理、影像標記以及影像編輯(圖二)。
圖二

在實驗結果中可以看到,VISPROG的準確度將會隨著 Prompts 數量的增加而進一步提高(圖三)。另外,研究團隊也分析了產生錯誤的原因,以提升整個框架的準確性。通過人工檢查 VISPROG 產出的虛擬碼,統計並分析失敗的原因,可以為未來的版本提供更正確的改進方向(圖四)。
圖三

圖四

總之,研究團隊提出了一種將大型語言模型的推理能力應用於視覺任務的方法。未來,尋找更佳的 Prompts 以及使用者的反饋來改進這種系統是一個可以預見的方式,這有助於創建下一個版本的通用視覺系統。


撰文:唐朝洋
校稿:ChatGPT


Reference:
Gupta, Tanmay, and Aniruddha Kembhavi. "Visual Programming: Compositional visual reasoning without training." arXiv preprint arXiv:2211.11559 (2022).

留言