含人類認知偏好特質的機器學習模型
機器學習在21世紀對於科技發展有著極大的貢獻,並且在各個領域的不同層面都發揮著影響力。目前已有的機器學習方法著名的有logistic regression (LR), neural network (NN), support vector machine (SVM), random forests (RF) 和 naïve Bayes (NB)等等,但這些學習方法在訓練時都需要大量的資料庫才能使結果達到一定的精準度。除此之外,上述的方法對於分類的資料數量比例大小有著顯著的精準度差異,如文中例子:對於分類垃圾郵件 (spam) 和非垃圾郵件(ham)的判斷,在固定資料數量內改變 spam 和 ham 的比例得出的結果精準度有著一定的差異。為了解決上述的問題,三位日本的學家希望做出效仿人類學習的模式,即只需要小量資訊就能達到很好的歸納結果,進而利用了人類的學習特性 cognitive biases,以 NB 為基礎在條件機率式子上做出改變,發展出兩套機器學習的方法,loosely symmetric naïve Bayes (LSNB) 和 enhanced LSNB (eLSNB).
LSNB 加入的條件由兩個簡單的邏輯條件組成,若p且q及若非p則非q,文中指出雖然這兩個條件不會在隨意情況都對,但在某些情況下對判斷是有利的,文中使用的例子,判斷信件是spam或ham,通常信中含有特定的文字,如: 'casino' 等字眼,是spam就比較高,若沒有這些字眼則反之。eLSNB 則是 LSNB的進階版,在模型中加入文字出現密度 (word density) 的條件,更有利於判斷 spam 或 ham 。若 'casino' 一字出現的密度高,則此信件為 spam 的機率則更高,進而增加判斷結果的精準性。
實驗進行方式使用了對於 spam 和 ham 的判斷,經由改變 spam 和 ham 的相對比例,並對不同數量的資料庫使用不同機器學習的方法進行測量得出判斷的精準度。實驗結果發現 LR, SVM, NN 在判斷時分別做出了犧牲來提高ham判斷的精準度,而NB的犧牲比較不顯著但相對精準度卻比較低,整體而言 LSNB 和 eLSNB 有比較平衡的精準度。筆者最後指出,發展出的兩套方法顯然還比不上人類的認知判斷能力,要繼續發展還需要了解更多人類學習和認知的模式,套入這些 cognitive biases 才能做出更仿效人類的機器學習模型。
-
撰文:薛又齊
-
原始論文:Hidetaka Taniguchi, Hiroshi Sato & Tomohiro Shirakawa (2018). A machine learning model with human cognitive biases capable of learning from small and biased datasets. Nature Scientific Reports Vol. 8, Article number 7397(2018). https://www.nature.com/articles/s41598-018-25679-z
LSNB 加入的條件由兩個簡單的邏輯條件組成,若p且q及若非p則非q,文中指出雖然這兩個條件不會在隨意情況都對,但在某些情況下對判斷是有利的,文中使用的例子,判斷信件是spam或ham,通常信中含有特定的文字,如: 'casino' 等字眼,是spam就比較高,若沒有這些字眼則反之。eLSNB 則是 LSNB的進階版,在模型中加入文字出現密度 (word density) 的條件,更有利於判斷 spam 或 ham 。若 'casino' 一字出現的密度高,則此信件為 spam 的機率則更高,進而增加判斷結果的精準性。
實驗進行方式使用了對於 spam 和 ham 的判斷,經由改變 spam 和 ham 的相對比例,並對不同數量的資料庫使用不同機器學習的方法進行測量得出判斷的精準度。實驗結果發現 LR, SVM, NN 在判斷時分別做出了犧牲來提高ham判斷的精準度,而NB的犧牲比較不顯著但相對精準度卻比較低,整體而言 LSNB 和 eLSNB 有比較平衡的精準度。筆者最後指出,發展出的兩套方法顯然還比不上人類的認知判斷能力,要繼續發展還需要了解更多人類學習和認知的模式,套入這些 cognitive biases 才能做出更仿效人類的機器學習模型。
-
撰文:薛又齊
-
原始論文:Hidetaka Taniguchi, Hiroshi Sato & Tomohiro Shirakawa (2018). A machine learning model with human cognitive biases capable of learning from small and biased datasets. Nature Scientific Reports Vol. 8, Article number 7397(2018). https://www.nature.com/articles/s41598-018-25679-z
留言
張貼留言