使用大語言模型加速果蠅的基因研究

果蠅一直以來都被用於研究各種神經相關活動比如睡眠。 果蠅相關研究能夠提供龐大的基因資料庫,能夠調控不同的基因來調控不同的神經活動。 然而,目前果蠅的基因型有數萬種,如果要研究某個神經功能,需要閱讀大量的論文找出涉及該活動的基因型。

最新發展的大語言模型簡化了這個流程。 本篇論文的團隊使用GPT3.5,並將找到的基因型進行測試。 團隊得出的實驗結果為果蠅的睡眠,移動以及社交行為相關的基因。 對於偽陰性,團隊透過詢問一些基因組合,這些行為有一些為行為相關的基因,得出平18到25百分比的偽陰性,即GPT的答案會忽略的基因為這個比例。 對於偽陽性,模型給出的數據中有93百分比的準確性。 這符合我們對大語言模型的認知,即會出現一些「幻覺」,給出不存在的答案。 雖然如此,因為偽陽性還是比較低的,對於果蠅的研究還是起到了參考的作用。

團隊指出,由於GPT3.5的資料截至與2022年,而這些行為相關的研究在2022年出現了重大發現,因此才會出現一些偏差。 綜合而言,GPT還是適合用於果蠅的基因研究。



撰文:陳怡亨


原始論文:Peng, D., Zheng, L., Liu, D. et al. Large-language models facilitate discovery of the molecular signatures regulating sleep and activity. Nat Commun 15, 3685 (2024). https://doi.org/10.1038/s41467-024-48005-w

留言