張量遞歸網路：語言處理複雜度與 AI 可解釋性

11/13/2023 07:30:00 上午

張量遞歸網路：語言處理複雜度與 AI 可解釋性

現今自然語言處理所用到的網路模型大多以基於注意力的(attention-based)模型及循環(recurrence) 為主要的技術骨幹。已有研究指出，理論上，RNN 與變換器(transformer)模型在資源充足(註一)的情況下可以執行任何的運算，是一個非常強大的模型(註二)。不過在當今硬體的限制下，RNN 只能辨識簡單的正規語言，而變換器也不容易辨識稍微複雜的上下文無關語言(context-free language)的文法。因此，研究在有限資源的情況下 RNN 究竟能執行多強大的運算，就成為了一個重要的課題。(Mali et al. 2023)為此便提出了一種新的 RNN 架構 Tensor RNN(TRNN)；透過引入張量積、命令-儲存兩步驟模擬等方法，新的 TRNN 使得我們可以實時地模擬任何圖靈機、用更少的隱藏狀態(hidden state)來建造圖靈機，且直接將文法反映在權重上的特點也使得它能更容易地被解釋(interpretable by design)，以及訓練好的文法可以被直接提取出來，相當地方便。在Tomita文法集的測試中，TRNN也取得了比 LSTM 與變換器模型更好的結果。

Explainable AI (xAI) 的概念最早在二十世紀就被提出；在醫界、金融界、法界等地，模型算出的結果到底能不能被信任是很重要的一件事；以現代的指標(Samek, Wiegand, and Müller 2017)來看，我們可以說本文的 TRNN 相比於龐大複雜的模型更容易被驗證、知道如何改進，並且使得後續的 AI 發展更容易遵守「負責任」及「可解釋」的原則。雖然此篇研究是基於較為精確(或者說死板)的形式語言(formal language)，我們仍希望能將效率上的改進、可解釋性等方面推廣到自然語言上，使它們更能貼近我們的生活。

註一：這邊的「資源充足」意思是機器能執行無限精確的運算與儲存無限精確的權重。顯然就連雙精度浮點數double都滿足不了它們。

註二：這裡簡單卻不嚴謹地描述圖靈完備性的意思，在此不做贅述。

撰文｜葉宸甫

參考資料

1. Mali, Ankur, Alexander Ororbia, Daniel Kifer, and Lee Giles. 2023. “On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks.” arXiv. https://doi.org/10.48550/arXiv.2309.14691.

2. Samek, Wojciech, Thomas Wiegand, and Klaus-Robert Müller. 2017. “Explainable Artificial Intelligence: Understanding, Visualizing and Interpreting Deep Learning Models.” arXiv. https://doi.org/10.48550/arXiv.1708.08296.

搜尋此網誌

神經妙算

張量遞歸網路：語言處理複雜度與 AI 可解釋性

留言

張貼留言

熱門文章

SkinGPT-4 – 一個皮膚專用大語言模型

DeepSORT : 一種簡單且有效的物體追蹤方法

簡介條件數（Condition Number）