神經科學與資訊理論 - Part 2


前言
前文中提及了不確定性與資訊熵的概念,但仍侷限在只有一個變數的情況,這篇文章將從一個變數增加至兩個變數,介紹聯合熵、條件熵,最後引入相互資訊和不確定性的關係。

聯合熵 (Joint Entropy)
若是系統含有多於一個以上的變數,使用聯合熵
$$H(X,Y) = - \sum_{x \in X,y \in Y} P(x,y)\ \log_{2}\!P(x,y)$$

●丟擲一枚硬幣,並且從黑桃、紅心、方塊、梅花四張A中任抽一張,會有以下八種組合,機率各1/8。
$X=\{正面,反面\}$
$Y=\{黑桃,紅心,方塊,梅花\}$

$$H(X,Y) = - \sum_{\substack{x \in \{heads,tails\} \\ y \in \{spades,hearts,diamonds,clubs\}}} P(x,y)\ \log_{2}\!P(x,y) = 8\cdot-[\frac{1}{8} \log_2(\frac{1}{8}) ] = 3$$
聯合熵為3 bit,可以理解成用3個是非題得知最終狀態,例如:是正面嗎 → 是黑色的牌嗎 → 是黑桃嗎。

當X、Y兩變數是獨立的時候(如前例,丟擲硬幣和抽撲克牌並不會互相影響),$P(x,y)=P(x)P(y)$,此時的聯合熵為兩變數各自的資訊熵之和。

●如前例 (丟擲一枚硬幣和抽一張撲克牌):
$$H_{independent}(X,Y) = H(X) + H(Y) = 1+2 = 3$$

條件熵 (Conditional Entropy)
條件熵計算的是,當已經知道一個變數的狀態時,整個系統的平均不確定性為何。
$$H(X \mid Y) = - \sum_{x \in X,y \in Y} P(x,y)\ \log_{2}\!P(x \mid y)$$

●再一次使用前面的例子,但這次我們先抽出並翻開一張牌,也就是說在知道花色的情況下,計算擲硬幣的資訊熵。
$$H(X \mid Y) = - \sum_{\substack{x \in \{heads,tails\} \\ y \in \{spades,hearts,diamonds,clubs\}}} P(x,y)\ \log_{2}\!P(x \mid y) = 8\cdot-[\frac{1}{8} \log_2(\frac{1}{2}) ] = 1$$
這邊$P(x \mid y)= \frac{1}{2}$表示當我們已知撲克牌花色,硬幣是正面或背面的機率為1/2。事實上,因為這兩件事相互獨立,知不知道花色並沒有任何影響,因此條件熵的結果$H(X \mid Y)=1$和只有擲硬幣的資訊熵$H(X)=1$是一樣的。

●讓我們考慮另一種情況,撲克牌花色和硬幣之間有神祕關係,當抽到黑色牌(黑桃、梅花),硬幣容易出現正面,反之抽到紅色牌(紅心、方塊),硬幣比較容易出現反面,新的機率如下表。

此時的聯合熵 (已經不再是3 bit):

此時的條件熵 (也不再是1 bit):

由此可看出,因為花色和正反面的神秘關聯性,只要先得知抽到什麼花色,就會知道正面或是反面的機率高,因此不確定性較小。

而無論X、Y是否相互獨立,皆滿足$H(X,Y)=H(X \mid Y) + H(Y)$,推導如下:

相互資訊 (Mutual Information)
從神經科學與資訊理論-Part1中,我們一再說明一個概念是:資訊代表減少不確定性。
現在,讓我們更清楚地把資訊描述成:當已知一個變數時,所減少的不確定性。
上述的概念,又可以如下的方式表達:全部的不確定性 = 資訊 + 殘餘的不確定性。
$$H(X) = I(X;Y) + H(X \mid Y)$$
也就是說,資訊 = 全部的不確定性 - 殘餘的不確定性。
$$I(X;Y) = H(X) - H(X \mid Y) = \sum_{x \in X, y \in Y} p(x,y)\ log_{2}(\frac{p(x,y)}{p(x)p(y)})$$

Kullback-Leibler divergence, 相對熵 ($D_{\text{KL}}$, Relative Entropy)
這邊額外插入一個度量方法:
$$D_{\text{KL}}(p \! \mid \mid \! q)=\sum_{x \in X} p(x)\ log \frac{p(x)}{q(x)}$$
$D_{\text{KL}}$用來測量兩個分布之間的差異程度,當兩個分布重合時$D_{\text{KL}}=0$,而當兩個分布差異愈大時,$D_{\text{KL}}$值也愈大,也因此$D_{\text{KL}}$又稱為兩個分布的相對熵,但須注意$D_{\text{KL}}(p \! \mid \mid \! q) \neq D_{\text{KL}}(q \! \mid \mid \! p)$。

●如Fig. 1,這裡有3條高斯分布曲線,$D_{\text{KL}}(藍 \mid \mid 紅) < D_{\text{KL}}(藍 \mid \mid 綠)$,這裡使用連續版本$D_{\text{KL}}(p \! \mid \mid \! q)=\int_{} p(x)\ log \frac{p(x)}{q(x)} dx$。
Fig. 1

比較相互資訊、$D_{\text{KL}}$的公式,可以發現:
$$I(X;Y) = D_{\text{KL}}(p(x,y) \mid \mid p(x)p(y))$$
也就是說,相互資訊在看$p(x, y)$、$p(x)p(y)$間的差異程度,如果二者互相獨立,此時$p(x, y) = p(x)p(y)$,知道其中之一並不會帶給另一方資訊,$D_{\text{KL}}=0$。

●回到例一,計算知道花色所帶來的資訊:
$$I(X;Y) = H(X) - H(X \mid Y) = 1-1 = 0$$

●回到例二,也計算知道花色所帶來的資訊:
$$I(X;Y) = H(X) - H(X \mid Y) \approx 1-0.85 \approx 0.15$$

相互資訊的對稱性
最後描述相互資訊的其中一個性質:對稱性。意思是,X提供給Y的資訊量=Y提供給X的資訊量,這也是使用"相互資訊"這個名詞的原因。

小結
當引入時間關係之後,就可以用來測量因果關係,例如已知過去的X,是否能提供資訊給未來的Y。因此在下一篇文中,將介紹transfer entropy,用來度量一個變數到另一個變數之間的資訊傳遞量。

相互資訊:已知一事件的情況下,減少的不確定性!


撰稿:黃宣霈 H. P. Huang


原始論文:
Timme, N. M. & Lapish, C. A tutorial for information theory in neuroscience. eNeuro 5, (2018) doi:10.1523/ENEURO.0052-18.2018.
參考文章:
Cover, T. M. & Thomas, J. A. Elements of information theory, 2nd Edition (Wiley-Interscience, 2006).

留言