張量遞歸網路:語言處理複雜度與 AI 可解釋性

現今自然語言處理所用到的網路模型大多以基於注意力的(attention-based)模型及循環(recurrence) 為主要的技術骨幹。已有研究指出,理論上,RNN 與變換器(transformer)模型在資源充足(註一)的情況下可以執行任何的運算,是一個非常強大的模型(註二)。不過在當今硬體的限制下,RNN 只能辨識簡單的正規語言,而變換器也不容易辨識稍微複雜的上下文無關語言(context-free language)的文法。因此,研究在有限資源的情況下 RNN 究竟能執行多強大的運算,就成為了一個重要的課題。(Mali et al. 2023)為此便提出了一種新的 RNN 架構 Tensor RNN(TRNN);透過引入張量積、命令-儲存兩步驟模擬等方法,新的 TRNN 使得我們可以實時地模擬任何圖靈機、用更少的隱藏狀態(hidden state)來建造圖靈機,且直接將文法反映在權重上的特點也使得它能更容易地被解釋(interpretable by design),以及訓練好的文法可以被直接提取出來,相當地方便。在Tomita文法集的測試中,TRNN也取得了比 LSTM 與變換器模型更好的結果。

Explainable AI (xAI) 的概念最早在二十世紀就被提出;在醫界、金融界、法界等地,模型算出的結果到底能不能被信任是很重要的一件事;以現代的指標(Samek, Wiegand, and Müller 2017)來看,我們可以說本文的 TRNN 相比於龐大複雜的模型更容易被驗證、知道如何改進,並且使得後續的 AI 發展更容易遵守「負責任」及「可解釋」的原則。雖然此篇研究是基於較為精確(或者說死板)的形式語言(formal language),我們仍希望能將效率上的改進、可解釋性等方面推廣到自然語言上,使它們更能貼近我們的生活。

註一:這邊的「資源充足」意思是機器能執行無限精確的運算與儲存無限精確的權重。顯然就連雙精度浮點數double都滿足不了它們。
註二:這裡簡單卻不嚴謹地描述圖靈完備性的意思,在此不做贅述。


撰文|葉宸甫


參考資料
1. Mali, Ankur, Alexander Ororbia, Daniel Kifer, and Lee Giles. 2023. “On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks.” arXiv. https://doi.org/10.48550/arXiv.2309.14691.
2. Samek, Wojciech, Thomas Wiegand, and Klaus-Robert Müller. 2017. “Explainable Artificial Intelligence: Understanding, Visualizing and Interpreting Deep Learning Models.” arXiv. https://doi.org/10.48550/arXiv.1708.08296.

留言