AI支援手語識別和VR空間雙向通信,使用摩擦電智慧手套

AI最近發展如火如荼,但是大家知道應用方面除了最常見的影像辨識還有什麼呢?今天要介紹的就是透過AI動作分析手語使系統重建和識別句子,手語是與聽覺/言語障礙者溝通最好的方式,但這樣的能力不是一般人會學到的,研究者們想透過AI動作分析來減少聽覺/言語障礙者與世界的隔閡,透過手套式穿戴感應器靠著摩擦電納米發電機(TENG)便可基於手部動作提取各項特徵(例如:振幅、頻率、峰值數),但是他們發現特徵的丟失很高,單純基於TENG開發的手套辨識手語在2020年10月發表在Science的paper 可以看到僅僅五個字母識別[2],因此如果沒有基於AI分析的輔助,大多數當前的手語翻譯解決方案僅限於識別幾個離散且簡單的單詞或字母,並且一般投影或顯示手語識別結果的介面不外乎就是手機或電腦,為了使互動更生動,他們將整個系統結合VR交互介面來提高了手語識別系統的實用性和互動性。

作者們將AI學習分為非分割和分割AI模型,非分割AI框架通過獨立識別單詞和句子信號,可以實現了50個單詞(91.3%)和20個句子(95%)的高精度。但畢竟會有深度學習中沒看過的句子,而分割模型就是為此而生,分割AI框架會將整個句子的信號拆分為獨立單詞單元,並且識別所有信號的片段,在單詞單元和句子之間建立相關性,最後達成85.58%的準確率重建和識別整個句子的資訊。作者特別表示,輔助AI的分割方法可以有能力識別新/從未見過的句子(平均正確率:86.67%),這些句子不包括在訓練資料庫中,並且由單詞元素以新順序重組創建,並隨時透過使用擴展句子資料庫,以便對言語/聽力障礙者進行實際交流。而VR端可以顯示識別結果和直接輸入內容的非手語者。這樣雙向遠端通信的VR介面,與用於手語識別的AI前端相連,展示了未來智慧手語識別和通信系統的潛在原型。
圖一:a手語識別和交流系統示意圖。b手語中常用的不同動作的比例有助於確定感測器在手套上的位置。c基於b中手部運動分析的手套感測器位置。d摩擦電感測器的材料。e–h電壓輸出對關鍵參數的依賴性,包括感測器面積、力、彎曲度和彎曲速度。

圖二:a .50個單詞或手勢中的部分代表(此處顯示19個手勢),其中不透明和半透明的手勢圖像分別顯示手勢的開始和最終狀態。B.摩擦電電壓輸出為19個字(上圖),並基於字信號(下圖)進行相似性及相關性分析。"Get"和"Must"的高相關係數表明這兩個手勢信號之間具有很高的相似性,表明錯誤分類的可能性很高。c .50個字的信號相關係數矩陣。D.相關係數分佈曲線為50字。e 20個手語句子的相關係數矩陣。f 20個句子的相關係數分佈曲線。g電壓輸出為20個句子。

圖三:基於分割法的單詞和句子識別,帶來了新/從未見過的句子識別的可行性。a標籤表 (W01–W20),包含 19 個單詞(它們屬於總共 50 個單詞之一),這些單詞以 20 個句子呈現(使用 Y1–Y17 和 New1–New3 表示)。b以句子信號分割示意圖為例," The dog scared me "。c帶有類別備註的句子彙總表,包括單詞、標籤系列和唯一的標籤編號順序。使用相同的顏色標記相同的單詞。d單分類器示意圖。e基於單分類器的拆分詞元素識別混淆圖(準確率81.9%)。f通過成功識別句子中的每個元素,句子可以在單個分類器中以79.41%的平均正確率進行逆向重構和識別。深綠色表示正確的識別,淺藍色表示錯誤的預測。g層次結構分類器的示意圖。h基於層次結構分類器的分段詞元素識別混淆圖(準確率82.8%)。i隨著句子中每個元素的成功識別,句子可以逆向重建,並在層次結構分類器中以85.58%的平均正確率識別。j CNN模型以前沒有學過的三個新句子的識別過程,以" I lost my dog "為例。

圖四:a.手語識別和交流系統的流程圖,它允許手語者使用手語和非手語者直接進行交流。由AI識別並翻譯手語。基於TCP / IP,VR介面中的用戶端(由手語者Lily控制)接收識別結果並傳輸到伺服器(由非手語者Mary操作)。Mary在聊天框中鍵入以回應Lily。b .(i–v) 基於手語識別和交流系統的語音無序使用者Lily和Mary在VR介面中的交流/對話過程。紅色矩形表示這兩個用戶的相應反應。c.對話摘要


撰文:徐楷昕


reference:
本文- Wen, F., Zhang, Z., He, T. et al. AI enabled sign language recognition and VR space bidirectional communication using triboelectric smart glove. Nat Commun 12, 5378 (2021).
[2]- Maharjan, P. et al. A human skin-inspired self-powered flex sensor with thermally embossed microstructured triboelectric layers for sign language interpretation. Nano Energy 76, 105071 (2020).

留言