當圖片遇見語言,AI能夠看著圖片跟你聊天了!

今天我們要來談談一個超酷的主題:MiniGPT-4。這是一個由King Abdullah University of Science and Technology的研究團隊研發的模型架構,它的目標是讓語言模型能夠同時理解圖像和語言。是的,你沒聽錯,這個模型可以同時處理圖像和語言信息!現在讓我們一起來看看它是如何做到的。

MiniGPT-4的超能力:
MiniGPT-4的能力是能夠理解圖像和文字,並且能夠讓這兩者相互轉換。這意味著,如果你給它一張圖片和一些文字,它能夠理解這兩種信息,並且能夠生成一個結合了這兩種信息的輸出。這是一個相當大的挑戰,但是研究團隊已經找到了一種方法來實現這個目標。(圖1)
圖1. MiniGPT-4架構

超能力的訓練過程:
MiniGPT-4的超能力是經過兩個階段的訓練獲得的。在第一階段,它使用一個視覺編碼器將圖像編碼成特徵。這些特徵可以被語言模型理解,並且可以與文字一起處理。在第二階段,這些圖像特徵和文字被輸入到一個大型語言模型中,稱為Vicuna。Vicuna的任務是理解這些特徵和文字,並且生成一個結合了這兩種信息的輸出。

為什麼需要兩個階段呢?
你可能會問,為什麼需要這兩個階段?為什麼不能直接將圖像和文字輸入到語言模型中?原因是圖像和文字是非常不同的兩種類型的信息,並且需要一種方法來將它們對齊,這就是視覺編碼器和Vicuna的角色。視覺編碼器將圖像編碼成特徵,這些特徵可以被語言模型理解,而Vicuna則將這些特徵和文字結合在一起,生成一個結合了這兩種信息的輸出。

和之前的VisualGPT的區別:
這與VisualGPT有什麼不同呢?VisualGPT藉由其他的影像基礎模型,這是一種過程將圖像轉換成文字描述,然後使用語言模型來處理這些文字描述。這種方法使VisualGPT能夠處理更複雜的視覺和語言任務,但也可能導致一些信息在轉換過程中丟失。相比之下,MiniGPT-4直接處理圖像和文字,可能會保留更多的原始信息。(圖2)
圖2. 在白板上手寫的前端網頁設計,加上要求語言模型的提示詞,MiniGPT-4即可理解圖片內容並按照提示詞回應。

最後總結一下,MiniGPT-4是一個非常有趣的模型,它將圖像和文字的處理結合在一起,開創了一種全新的方式來理解和生成信息。我們期待看到它在未來的應用和發展!


撰文:許楷翊


參考文獻:
Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." arXiv preprint arXiv:2304.10592 (2023).

留言