高效調整:讓人工智慧學會自己調參數
訓練人工智慧模型,有時就像調收音機。你慢慢轉動旋鈕,試著找到那個最清晰、最悅耳的頻道。這些旋鈕在AI的世界裡叫做超參數(hyperparameters)——它們控制著模型的學習節奏、平滑程度、甚至思考方式。問題是,這些旋鈕可不是隨便轉一轉就好。研究人員往往得反覆嘗試上百次,才能找到那個「剛剛好」的設定。
想像一下:為了找出最清楚的頻道,你得買許多台收音機,各調一種頻率,然後一台一台地測試哪台最好。聽起來瘋狂嗎?這就是現實中AI訓練的樣子。研究人員往往得用暴力法去找最佳設定——把同一個模型用不同的超參數重訓上百次,看哪個版本表現最好。這不只浪費時間,也消耗驚人的運算資源,是人工智慧發展的一大瓶頸。
麻省理工學院與麻省總醫院的研究團隊,原本是在解決一個醫學影像的老難題——如何更快、更準確地對齊兩張MRI大腦影像。這項技術叫做「影像變形配準」(image registration),需要讓兩張不同時間或角度的影像完美重疊。問題是,這個過程對超參數極度敏感:一點點不同的設定,就可能導致結果完全走樣。而每次嘗試新參數都要重訓模型,耗時又耗能。
在這樣的瓶頸中,他們想起了一個來自深度學習領域的概念Hypernetwork(超網路)。這個想法最早可追溯到1990年代,由學者Jürgen Schmidhuber提出;後來在 2016年由David Ha等人重新發揚光大,用來讓一個網路生成另一個網路的權重。研究團隊把這個「網路生網路」的概念首次應用在醫學影像配準中,打造出全新的架構:HyperMorph。
在HyperMorph中,不再需要為每個超參數重訓模型。相反地,它在訓練過程中學會了超參數與模型權重之間的關係。當研究人員輸入新的設定時,底層的超網路便能即時生成主網路對應的權重。換句話說,它不是讓超參數消失,而是讓模型學會如何自我調整。這種方法徹底改變了遊戲規則,傳統做法需要訓練好幾十個模型、讓電腦連續跑上好幾天,而 HyperMorph 只需訓練一次,就能模擬所有設定下的結果,速度提升數倍。更令人驚訝的是,它的結果更穩定,不再因為初始條件的不同就出現不同表現。
在生物大腦裡,神經元之間的連結權重會根據環境自我調整;在HyperMorph裡,模型也學會根據任務即時生成最合適的權重。這讓人開始想像:如果一個神經網路能理解自身結構、甚至生成另一個專門的神經網路,會不會就是通往「自我學習型智慧」的第一步?
*聲明:本文使用ChatGPT輔助編輯*
撰稿人:呂菁菁
Reference:
[1] Hoopes, A., Hoffmann, M., Greve, D. N., Fischl, B., Guttag, J., & Dalca, A. V. (2022). Learning the effect of registration hyperparameters with hypermorph. The journal of machine learning for biomedical imaging, 1, 003.
[2] Ha, D., Dai, A., & Le, Q. V. (2016). Hypernetworks. arXiv preprint arXiv:1609.09106.




留言
張貼留言