行為序列架構分析教師學生行為

教室裡的學習行為其實像一句句由小動作組成的話。 拿筆寫、抬頭聽、舉手、講話......這些字詞按不同順序就會表達聽課、做筆記或分心發呆等多數方法能抓到單一小動作,卻難以在時間軸上讀懂整段行為的脈絡。 本篇研究把重點放在把序列學清楚,先用教室相機抽出學生的「小動作序列」,再用費波那契(Fibonacci)時序位置編碼幫模型標出每個動作在序列中的「座標」,並加入通道注意力讓模型把注意力放在更關鍵的訊號上; 最後以「完整性判斷」去檢查某段行為的必要步驟是否都到齊。 整體架構名為 ConvTran-Fibo-CA-Enhanced,可把「單動作辨識」提升為「序列理解+是否完整」。 

簡單想像,這就像「讀稿+對照表」:先把原始影片轉成小動作腳本,再用「費波那契刻度」當拍點,讓模型對齊節奏、分清主次,最後檢查該有的橋段有沒有演到位。 結果顯示這種「先學會時間脈絡,再談分類與驗證」的路線,能在不同學生與不同行為上更一致、更可信。

上半部(DPE-SAR):把影片幀分塊後送進 Video Swin Transformer 做時空特徵抽取。 經 4 個階段,每階段都用 Patch Merging 降採樣、通道數遞增(2/2/6/12 個塊),最終得到緊湊的 3D 特徵; 前面的 DPE+Linear Embedding 負責把影像先編碼成可被 Transformer 處理的向量。

(a) HAR:紅線整體略高、波動稍小。
(b) Finger Movement:平均略優但抖動大,收斂性一般。
(c) HandMovementDirection:兩者幾乎相同,最終持平。
(d) RacketSports:都很快到高準確率,差異極小。
(e) Handwriting:提升最大——更快上升且最終更高。



撰文:陳怡亨


原始論文:Shou, Z., Yuan, X., Li, D., Mo, J., Zhang, H., Yuan, H., & Wu, Z. (2025). A learning behavior classification model based on classroom meta-action sequences. Scientific Reports, 15(1), 22226.

留言