神經科學與資訊理論

11/19/2020 08:00:00 上午

神經科學與資訊理論 - Part 1

(本文同步發表於：https://pikapei.github.io/blog/20201109-神經科學與資訊理論-part1/)

筆者亦初識資訊理論(information theory)，若理解有誤也請不吝指教。本文內容大多源於〈A tutorial for information theory in neuroscience〉這篇回顧論文，此篇以較淺白方式介紹資訊理論及其於神經科學上之應用。若有興趣深入的讀者，不妨參閱經典教科書《Elements of Information Theory》[1]、交通大學陳伯寧老師開設之線上課程[2]、或其他參考資料[3]。

為何需要資訊理論？

我們常常會聽到，神經系統負責整合感官接收到的訊息，經過中樞處理後，再送往下游產生相應動作；又或者是，神經元相接形成神經網路，訊息在神經元間傳遞，大腦得以對其進行編碼、運算、儲存等等。"訊息"等類似辭彙雖頻繁出現，但其含義也十分模糊，我們如何描述神經元攜帶了多少訊息？兩神經元是否共享了某些訊息？此類問題顯然需要一個量化訊息的方式，而資訊理論正是合適之工具。

資訊理論的優點

無需依賴對應模型(model independent)：不需先假設目標結構(如：事先假設好神經群之間的連結關係，才進行分析)，具有更廣泛的應用場景。
可同時分析不同型態的資料，包含離散型和連續型資料，也有助於分析跨尺度的交互關係(如神經元層級 vs 腦區層級)：

離散型資料：如有無產生動作電位、實驗動物有無產生特定行為模式
連續型資料：如膜電位變化、螢光強度變化、實驗動物位置或速度

可偵測線性和非線性的交互關係
可用於多變量分析
一般而言，輸出的單位皆為bits (後文會加以介紹)，因此在不同實驗結果下比較會相對直觀(但並非可以直接比較)。

資訊理論的限制

無法建構描述系統如何運作的模型：

如：分析結果得知，A與B共享了0.05 bits的資訊，但是我們無法更進一步知道A與B是否存在直接連結，即使有，也不知道是興奮性或抑制性連結。

話雖如此，仍能透過資訊理論排除不可能的模型，限縮尋找目標的範圍。

資訊熵 (Shannon Entropy)

首先，要得知訊息量多寡的方式，是這條訊息可以消除多少來自問題的不確定性(uncertainty)。

例如這個問題：今天晚餐要吃什麼？

A：都可以

B：校外好遠，在校內吃就好

C：吃小7

很明顯的，訊息量C > B > A，又A的回答不具任何訊息量。

因此，在測定訊息量之前，得先衡量出不確定性。Claude Shannon提出以資訊熵$H(X)$ (Shannon entropy)來量化不確定性，不確定性越高，熵也就越大。

(註：熵一詞源自於熱力學，用以描述系統無序的程度，資訊熵和熱力學的熵二者在定義及概念下皆具有相似性。)

(註：為何是以$H$作為代號，可參考資料[4]。)

$$H(X) = - \sum_{x \in X} P(x)\ \log_{2}\!P(x)$$

公式中的$X$包含了所有可能狀態的$x$。

擲一公平硬幣，正面、反面機率皆為$\frac{1}{2}$，對於"朝上的是哪一面？"這個問題的不確定性：

$$H(X) = - \sum_{x \in \{heads,tails\}} P(x)\ \log_{2}\!P(x) = - [\frac{1}{2} \log_2(\frac{1}{2}) + \frac{1}{2} \log_2(\frac{1}{2})] = 1$$

擲一公平硬幣的熵(不確定性)為1 bit，我們可以理解為，用1個是非題能夠得到結果，也就是說提問"朝上的是正面嗎？"，若為是，則朝上的是正面，若為非，則朝上的是反面。

從上述例子得知，熵具有多少bits，就代表平均需要多少個是非題來求得最終狀態。

類似前一例，改擲一有問題的硬幣，正面機率$\frac{4}{5}$、反面機率$\frac{1}{5}$，直覺來說，這枚硬幣丟出後的不確定性會比公平硬幣來得小，因為我們知道他比較有可能是正面朝上。
$$H(X) = - \sum_{x \in \{heads,tails\}} P(x)\ \log_{2}\!P(x) = - [\frac{4}{5} \log_2(\frac{4}{5}) + \frac{1}{5} \log_2(\frac{1}{5})] \approx 0.72$$
的確，熵降到了0.72，也表現出當任一狀態出現的機率較高時，不確定性下降。

只有當各個狀態出現機率皆相同時，不確定性具有最大值(如Fig. 1 熵等於1 bit之處)；反之，若某一狀態出現機率為1，其他狀態就不可能發生，此時熵值為0，沒有不確定性(如Fig. 1 兩端)。

最後，資訊熵$H(X)$的公式具有幾項重要的性質：

$H(X) \ge 0$，代表熵不為負值，負的不確定性沒有解釋意義。
當任一狀態絕對會發生(機率=1)時，熵值為零，沒有不確定性。
兩獨立變量的聯合熵(joint entropy)，會等於各自的熵值相加，表現出熵的可加成性。(此文尚未提及聯合熵，會於下一篇中介紹。)

小結

本文目前簡單介紹了資訊理論的優點和限制，並引入到資訊理論最基礎的量--熵，熵代表了不確定性，而資訊量則等同減少不確定性的程度。下一篇文中，將從一個變量增加到二個(可推廣至多變量)，並介紹聯合熵、條件熵(conditional entropy)、相互資訊(mutual information)等等在資訊理論中重要的概念。

撰稿：黃宣霈 H. P. Huang

原始論文：

Timme, N. M. & Lapish, C. A tutorial for information theory in neuroscience. eNeuro 5, (2018) doi:10.1523/ENEURO.0052-18.2018.

參考文章：

1. Cover, T. M. & Thomas, J. A. Elements of information theory, 2nd Edition (Wiley-Interscience, 2006).

2. 交通大學陳伯寧老師 - 消息理論 Information Theory

http://ocw.nctu.edu.tw/course_detail.php?nid=612

3. Resources on Information Theory

https://www.itsoc.org/resources

4. Why is “h” used for entropy?

https://math.stackexchange.com/questions/84719/why-is-h-used-for-entropy

搜尋此網誌

神經妙算

神經科學與資訊理論 - Part 1

留言

張貼留言

熱門文章

The Urgency Gating Model

DeepSORT : 一種簡單且有效的物體追蹤方法

透過蜜蜂避障學習自然界中的仿生導航策略