機器人要開始學會如何感覺了:用液態狀態機,讓 BAXTER 拿筆畫出漂亮的方形
如果我們把一支白板筆交給機器人,並且要他畫出一個漂亮的方形,乍聽之下好像很簡單,做起來卻很複雜。因為人類手指與手臂的肌肉、肌腱、觸覺與前庭系統會在腦內自動協調、分工合作,讓筆尖既不飄在空中、也不把筆壓爆;機器人則得同時管理馬達角度、末端施力、與桌面距離,還要面對機構彈性、感測器雜訊與表面粗糙度的干擾。這篇由巴西南大河州聯邦大學與英國普利茅斯大學合作的研究,把一種我們先前介紹過、受神經科學啟發的模型:液態狀態機 (Liquid State Machine, LSM),搬進機器人控制裡,讓機器人不只會「算」,還能「感覺」,而且真的在真實世界裡拿著筆把圖畫好。
本次的登場主角是圖1的協作型機器人 BAXTER (13歲/♂/屬性:鋼)。研究團隊給他的任務簡單暴力:就是要求 BAXTER 用左手握著筆,在桌上畫一個正方形,僅此而已 (圖2左半部)。由於 BAXTER 除了有攝影鏡頭的視覺感測器之外,他多達7個關節的手臂末端還裝有力感測器,要完成這個任務,具體來說就是要求他的手臂末端沿著方形軌跡移動,同時還要維持兩件事:第一,筆尖與桌面的距離大致固定,也就是垂直的 Z 軸位置不要忽上忽下;第二,筆尖施加在桌面的力要穩定,不能忽然太重或太輕。為了讓這件事更貼近真實世界,研究團隊也沒在客氣的,還讓機器人在軟的筆記本、硬的白板,以及略為傾斜的桌面上重複實驗,這些情境不知道會不會讓 BAXTER 不爽,但總之會放大任何控制上的不穩定。最後的畫面非常直覺:沒有控制時,筆尖時而飄起時而重壓,方形畫不好;換上經典的 PID 控制器時,線條穩定許多;但當 LSM 出場,軌跡與接觸力變得更自然、更貼近理想的「恰到好處」。(見圖2右半部)
![]() |
| 圖1、由 rethink robotics 公司於 2012 年開發的 BAXTER 協作型機器人。 |
![]() |
| 圖2、左半部:BAXTER 機器人的左臂共有7個關節,本研究僅使用其中4個關節,在桌面上繪畫正方形。右半部:研究團隊將繪畫結果分成三種分類,由上到下分別為下筆過輕、筆跡不連貫;下筆過重、筆跡抖動托拽;下筆適中、圖形完整。 |
要理解這個成果為何重要,需要先回頭看兩種世界觀。傳統控制的世界,把系統想像成一條明確的方程式;PID 就是其中最普遍的代表,它把「現在離目標差多少 (P)」、「過去累積的誤差 (I)」、「變化有多快 (D)」這三件事加權相加,得到一個輸出,並且在每一個時間點試圖推著系統回到目標。這種方法在很多工程系統上好到不能再好,外功、內功、輕功三者同時掌握,根本是不世出的武學奇才!但 PID 也還是有脆弱的一面:現場如果多了未知的彈性、延遲或摩擦、或是感測器帶來偏差,PID 的參數就可能得重新整定,否則表現會走樣。而大腦式計算的世界恰恰相反。對於本系列科普文信仰點數還沒有很高的讀者們,我們除了呼籲大家動動小手連往本系列其他文章,補充一下計算神經科學新知的 daily dose 之外,在這裡也再次幫大家考前複習一下:所謂大腦式計算架構背後的設計精神,是網路中神經元之間的連結會形成一個動態的「液體」,外界輸入像石頭丟進水池,激起一圈一圈隨時間衰減的漣漪;系統利用這些漣漪裡的時間結構來做出回應。LSM 就是把這個直覺變成工程可用的架構:把連續的感測訊號先轉成 spike train 餵進液態池 (reservoir),讓池內的神經元彼此循環影響,形成高維且非線性的時間狀態;接著再用簡單的讀出層,把這些狀態線性組合成我們要的輸出。表面上只是一層線性回歸,但因為入口的液態網路已經把時間的記憶與非線性的組合「攪拌」起來,即使reservoir的水池裡面沒有銀龍魚,但整體還是能表現出關公都點頭的聰明行為。
這個團隊精心設計了訓練流程。首先整個方形軌跡被細分為1000步,他們先用兩個 PID 控制器做成一個「老師系統」:一個 PID 是 D 老師,負責控距離,目標高度大約15公分;另一個 PID 是 F 老師,負責控施力,目標約-2牛頓 (負號代表朝向桌面壓下)。再把這個老師系統在不同表面、不同傾斜條件下跑100次試驗,每次沿著方形軌跡一邊走過1000個時間步,一邊同時收集每一步當下來自力感測器與距離感測器的數據 (圖3上半部)。接著,他們把這兩個感測器收到訊號轉換成神經元的 spike train,並且建立5個不同的候選液態池,每個池包含200個互相隨機連接的神經元。這裡的「隨機」並非混亂,而是讓液態池自然產生多種時間尺度的回應,就像感覺神經網路裡長長短短的迴路。液態池會對每個輸入映射成高維的時間狀態軌跡 (圖3下半部),研究團隊把這些狀態再經過一個低通濾波器取得較平滑的表示,最後交給讀出層去學習。而讀出層的目標任務,是要從液態層得到的特徵資料中想辦法看出點什麼端睨,在本研究中採用的是 regularized ridge regression;之所以加上 regularization (正則化),是因為液態狀態在不同神經元之間往往高度相關,如果只用入門普通低配版的最小平方法,模型會對雜訊過度敏感,學到的權重在新情境裡就不穩定,機器人八字比較輕,可能畫出不存在的靈異寫真。Regularization 等於在權重大小上加了溫和的懲罰,也幫機器人增加八字重量,逼著模型學到更「樸實」但泛化力更好的解。
![]() |
| 圖3、(上) 利用兩個 PID 控制器產稱施力與垂直距離的訓練集資料,與 (下) LSM 示意圖。 |
訓練好之後,LSM 先是拜在 D 師父與 F 師父門下學習本門功夫、模仿師父的拳腳架式,等到神功大成之後便被派下山去控制 BAXTER 的 Z 軸行為,也就是同時維持筆尖與桌面的距離與接觸力。在沒有控制的情況下,主角 BAXTER 機器人的左手關節和致動器彈性常常會給 Z 軸帶來明顯的起伏,這很麻煩,因為內建位置估測值在模擬中明明是恆定的,但在真實機器操作上會圍繞平均值上下波動;像這種現實世界的「亂流」正是 PID 最容易被干擾的地方,害我們的主角的黃金左手像得了帕金森氏症一般。當換上神功大成的 LSM 後,筆尖力道的平均值與變異度落在一個更合理的範圍內,尤其是在硬表面與軟表面的切換、或桌面輕微傾斜時,LSM可以幫助主角「記得」剛剛的輸入序列帶來的狀態,並在下一瞬間給出恰當的修正,保持優雅。從圖4的平均曲線來看,無控制時,力感測器的讀值會時而暴衝時而下墜;換成 PID師父們出場時,曲線貼近目標線但仍隨環境改變起伏;LSM 則更接近師父的設定點,雖不能斷言是青出於藍,但可以看出上下震盪的幅度更小,給人的感覺像是筆尖貼著白板滑行,不再時輕時重。
![]() |
| 圖4、三種情形下的 (上) 力感測器與 (下) 距離感測器平均讀數。橫軸為繪畫正方形時的 1000 步,縱軸為 (上) 力感測器與 (下) 距離感測器收到的數據。藍色:無控制時的繪圖;紅色:PID 控制器在軟平面上的繪圖;綠色:LSM 控制下在硬平面上的繪圖過程;黑色虛線:預設給 PID 要達到的目標。 |
看我們講的唾沫橫飛、誇得有多神多猛,我想你一定忍不住要發難「Let the numbers speak.」當然,我們也明白更耐看的證據總來自統計,能夠理解各位買菜都用非齊次十七次偏微方程組找錢的數學小神童們,這次沒有看到數據和公式就渾身不對勁的癮頭,那我們就來看吧!表I與II為研究者把在不同測試組合下得到的「力」與「距離」結果彙整成平均與標準差,並比較它們落在 PID 控制器分布的95%信賴區間中的比例。力的部分,若把所有情境合在一起,LSM 的平均約為 -2.1x牛頓,變異數為 2.x 牛頓,約有 3/4 的讀值落在 PID 的信賴區間內;距離的部分則更漂亮,合併之後的平均為 15.83 公分,變異數 0.41 公分,將近 98% 的讀值都落在 PID 的信賴區間裡。這樣的結果有兩個含義:第一,LSM 成功學會了 PID 的「行為輪廓」,在多數情境裡它的輸出與老師相容;第二,因為 LSM 透過液態池掌握了輸入的時間結構,它能在環境變化時維持與老師相同甚至更穩的表現。對實務而言,這代表在你不想 (或不能、或不爽、或不會) 頻繁重整 PID 參數的場合,自己躺平改讓 LSM 上場跟在主控制器旁邊學會 hold 住場面,看起來還真是一條不錯的可行途徑!
這套方法之所以迷人,在於為它把「感測融合」做得很自然。當然,研究者並沒有把 LSM 過度神化,接著就叫 LSM 開始畫超級阿斯拉的設計圖還是清明上河圖。他們的研究中並未完全拋棄 PID,而是先用 PID 當老師,讓 LSM 先模仿出一個安全、可控、可解釋的基準行為。這種「先由規則帶,再由經驗接手」的策略,對於要把新方法上線的工程領域尤其實際。現在的成果,就像是一個精心搭好的跳板,作者他們證明了:在真實的機器人手臂上,LSM 可以不靠花俏的深度網路,也不靠龐大的資料,就把「持續貼住桌面、筆尖力道穩定」這種很人類的動作學起來。可以想見,作者們若有更大的野心,未來搞不好可以把兩者並聯工作,甚至把 LSM 部署在神經形態硬體上,例如 SpiNNaker 這類專為尖峰神經網路設計的系統,讓 sensory – control 迴路的延遲更小、能耗更低、而且更接近生物神經系統的風格。從這個角度來看,原來吳宗憲說現在牽未來的手,裡面那隻貫穿時空的手,就是本篇研究中我們充滿魅力又穩重、眼神堅毅又誠懇、還搭載了 LSM 的 BAXTER 的黃金左手啊!(優良傳統:「現在牽未來的手[1]」)
如果我們把視角拉遠,這篇研究提供了有趣的教育意義。高中生讀到這裡,除了更加衝動想要上淘寶訂購寫作業機器人之外,或許第一次面對需要把物理課上的力與距離、電腦課上的程式與演算法、以及生物課上的神經元全運用上的場景。大學生則會發現,幸好當初數學課沒有翹課留在宿舍玩遊戲,原來線性回歸在好好設計的表示學習之後,能夠拿來解決複雜的控制問題;而研究生除了品味菸酒之外,應能更進一步品味出細節:為什麼要用 ridge 正則化、為什麼要做 spike coding、液態池的規模與連結密度如何影響記憶時間常數、以及在不同摩擦條件下讀出層是否需要適度地遷移學習。這些問題一旦深入,便會通往更廣的地圖:從自適應控制、到神經形態工程、再到以生物為靈感的機器人學,學術的大門已然打開,裡面就是汪洋學海,等著大家跳下去找尋 one piece (當然是在沒有吃過惡魔果實的前提下)。
《賭神》裡有一句經典的台詞講得很好:「巴拿馬總統還算是跟我有點交情」…不是這句,是:「年輕人終究是年輕人,太衝動了」,如果要用一句話總結我們從這篇研究裡學到的事,那就是:要沉得住氣!無論是力與距離的感測、機構彈性的回彈、或筆尖在表面上滑行的摩擦,都不是「瞬間」決定的,而是被一段短短的歷史所塑造;液態狀態機的聰明,就在於沉得住氣,先按兵不動收集情報,取得一小段時間發展的情形後,接著把那段歷史攤開來,讓網路的動力學先把它理解,最後再用最簡單的讀出把它說出口。當我們讓機器人也擁有這樣的「短期記憶」,它處理現實世界的方式就會更像人,既不囿於理想化的方程式,也不會被環境的毛邊擊倒。
讀到這裡,你大概能感覺到這篇工作的性格:它不以複雜模型取勝,而是把一個優雅的想法做紮實。用 PID 生成可控且可解釋的訓練資料,讓 LSM 學會一個「合格的習慣動作」,再把它丟進實機測試,在各種稀鬆平常卻惱人的情況下驗證穩定性。結果顯示,LSM 不但能追上老師,還在若干情境裡多一分柔軟與韌性。若把這條路繼續走下去,下一步或許是把更多軌跡樣式納入訓練(例如三角形、圓形與不規則曲線),或進一步把速度與加速度的限制明確嵌進讀出層的目標函數,甚至直接用強化學習在安全邊界內微調權重,讓系統在現場自行「把手感調到位」。等到硬體端遷移到神經形態平台,這樣的控制就不只聰明,還會變得異常省電而快速,從這邊開始,機器已經可以用更加貼近生物大腦與神經的運作原理來學習五感之一的「觸覺」,加上已經成熟發展的「視覺」與「聽覺」,在未來AI等人工智慧領域,要正式宣稱「機器人已經會感覺了」恐再不是遙不可及。機器人拜師學藝武功大成,不但掌握了力透紙背的判官筆、現在還已經有所知覺了,會不會哪天打開研究室驚見BAXTER已經在讀九陽真經還是坐在電腦前架設天網了?你各位動不動就命令GPT幫寫期中期末報告的,有沒有好好跟人家說「請」、「謝謝」、「我愛你」?
或許,等你下次在白板上畫出一個漂亮的正方形…等等,不要說是你,連我們都有點懷疑什麼時候才會出現這種場合…上面的結語有點 low。這樣好了,我們換個實境舉例重新講一次:或許,等哪天你不幸慘遭歹徒挾持、被拿槍抵著太陽穴,而對方留你小命的條件,是要你在白板上畫出一個漂亮的正方形時,你就會感激涕零好險上次有看到我們介紹的這篇文章,忽然意識到這命懸一線的手感,其實蘊含了多麼奧妙的計算,然後跟歹徒一起讚嘆這份奧妙。而現在,我們有了一條通往那種計算的工程之路,到時除了 call the police 之外,你也可以 call the LSM。
(題外話:我們也希望多介紹一些研究團隊如何調參數的哲學,但可惜作者輕巧的以 We’ve done some initial pilot tests, not presented here 之類的咖啡話帶過;即便是網路架構他們引用了自己的前一篇作品,當我們特意過去看了之後,也在前作看到熟悉的 We’ve done some pilot studies, not shown here 字樣...看到這裡腦海中彷彿浮現作者微微上揚的嘴角,讓我們不禁困惑到底什麼 PILOT 還 ZEBRA 還 TOMBOW?)
AI 使用聲明:部分內文由 ChatGPT 5 協助編輯
撰文:鄭主佑
原始論文:
Alberto Sala D, João Brusamarello V, de Azambuja R, and Cangelosi A. (2017) Positioning control on a collaborative robot by sensor fusion with liquid state machines. 2017 IEEE International Instrumentation and Measurement Technology Conference (I2MTC), Turin, Italy, 2017, pp. 1-6.








留言
張貼留言