Crowd behavior detection: leveraging video swin transformer for crowd size and violence level analysis
近年來,人群行為檢測在公共安全與安全領域面臨重大挑戰,即便監控技術有所進步。能夠即時監控並準確識別人群行為,考量人群規模與暴力水平等因素,可在很大程度上避免潛在的人群相關災難與危害。然而,多數現有方法無法處理人群動態的複雜性,亦無法區分人群中的不同暴力水平。
本研究提出一種基於Swin Transformer架構的人群行為檢測框架,該框架利用人群計數圖與光流圖,檢測不同規模與暴力水平的人群行為。為支持此框架,作者創建了一個資料集,包含能識別基於規模與暴力水平的人群行為的影片,這些影片源自CCTV攝影機錄影與線上影片。對基準資料集與作者提出的資料集進行的實驗分析,證實了所提方法優於現有最先進方法的優勢,展示了其有效區分與規模和暴力水平相關的人群行為的能力。透過Nvidia的DeepStream軟體開發工具包(SDK)對本方法進行驗證,突顯了其競爭性能與在實時智能監控應用中的潛力。
此研究的主要貢獻包括:開發了一個基於Swin Transformer的深度學習模型,旨在將人群行為分類為四個離散類別,這些類別具有不同程度的暴力和人群規模;透過整合人群計數圖與光流圖,將與人群密度和暴力水平相關的額外語義知識增強到Swin Transformer框架中;利用DeepStream SDK進行了實驗分析,以確定所提方法在實際實時監控環境中的可行性和實用性。
![]() |
圖一:展示了一基於深度學習的人群行為檢測系統的架構,主要用於分析人群規模和暴力水平。系統通過影片Swin Transformer技術來實現即時監控和行為識別。右側的監視器展示了即時檢測到的場景,與左側的輸入樣本一致,證明系統能夠即時處理和顯示檢測結果。 |
![]() |
圖二:顯示使用不同input之排列組合對於準確率之影響。 |
撰文:陳怡亨
原始論文:Qaraqe, M., Yang, Y.D., Varghese, E.B. et al. Crowd behavior detection: leveraging video swin transformer for crowd size and violence level analysis. Appl Intell 54, 10709–10730 (2024).
留言
張貼留言