自我進化的Transformer架構
本篇論文介紹了一種名為EvolutionViT的新方法,用來簡化視覺Transformer(ViT)模型,讓它能在手機或物聯網等資源有限的設備上運行。ViT是一種的圖像處理模型,但它需要大量計算和儲存空間,普通設備很難負擔。EvolutionViT把簡化ViT的問題看成一個需要平衡計算量和性能的挑戰,通過一種特殊的優化算法,找到既省資源又保持良好表現的解決方案。它不像其他方法那樣只專注於單一目標,而是同時考慮多個目標,並用一種“進化”的方式,像自然選擇一樣,逐步篩選出最佳的簡化方案。
與其他研究不同,EvolutionViT不用人為設定規則或增加複雜模塊,而是讓電腦自動探索如何去掉不重要的圖像分塊(ViT把圖片分成很多小塊處理)。它利用ViT的結構特性,把分塊分組處理,並根據層次關係減少不必要的計算,大幅降低複雜度。同時,它還設計了特別的策略,確保簡化後的模型能在設備的資源限制下運行,比如記憶體或計算速度的限制。這種自動化且靈活的方式,讓簡化過程更高效,也更適合不同設備。
實驗顯示,EvolutionViT能在保持圖像處理效果的同時,大幅減少計算量,讓ViT更適合實際應用。它的優勢在於能根據設備的能力動態調整簡化程度,找到最佳平衡點。未來,研究者希望結合更多技術,比如進一步壓縮模型參數,讓EvolutionViT在更多場景中發揮作用。這項技術讓高性能的AI模型更貼近日常生活,像是手機拍照或醫療影像分析都能受益。
撰文:陳怡亨
原始論文:Liu, Lei, Gary G. Yen, and Zhenan He. "EvolutionViT: Multi-objective evolutionary vision transformer pruning under resource constraints." Information Sciences 689 (2025): 121406.
留言
張貼留言