Videoprism: 理解並辨識影像內容的AI

近年來大語言模型發展迅速,因此來自谷歌的團隊開發了銜接大預言的基礎影響辨識模型。該模型輸入影像資訊,輸出的多維度資訊可以用來銜接大語言模型,讓大語言模型能更高效的和影片交互作用。

實驗團隊以vit(Vision Transformer)為基本架構,研發新架構並透過蒸餾,將參數減少到八千萬左右,同時保持高準確率。為了保證模型理解影像資料的時許關係,而不是單純只靠物體辨識來預測影像內容,實驗團隊會隨機遮蔽影片內容,讓訓練資料的顯式圖像被遮蔽,模型不能精準辨識出具體的人物或物體,因此只能從影片的動態資訊來學習。這樣做確保影片能學到影片的時序關係。

團隊研發的這款AI有著高度的通用性,乃至實驗資料的準確性。這大大提高了大語言模型的穩健性。

圖1. 模型能夠依據不同的場景,給出精準的回答。最後一排顯示的是實驗dataset,videoprism也能夠精準辨識出實驗動物的行爲。

圖2.訓練流程。第一階段和傳統的模型一樣,第二階段會隨機屏蔽訓練資料的某些部分,讓模型只能依據未被遮蔽的部分來猜測行爲,進而學會時許關係,如把生日蛋糕遮蔽,模型也能夠從散發出來的烟霧,知道有人在吹蠟燭,這代表模型從烟霧的時序動態學到了吹蠟燭的行爲,而不是單純看到蛋糕和蠟燭。


撰文:陳怡亨


原始論文:Zhao, L., Gundavarapu, N. B., Yuan, L., Zhou, H., Yan, S., Sun, J. J., ... & Gong, B. (2024). Videoprism: A foundational visual encoder for video understanding. arXiv preprint arXiv:2402.13217.

留言