生命科學研究近幾年蓬勃發展,各國科學家每年發表研究論文超過六十萬篇,如何有系統快速分析文獻結果、擬訂研究方向,成為生物學家嚴苛挑戰。中央研究院資訊科學研究所特聘研究員許聞廉領導研究團隊日前參加「國際分子生物文獻探勘競賽」,在強敵環伺下勇奪蛋白質名詞搜尋冠軍。

「國際分子生物文獻探勘競賽」日前在西班牙舉辦,全球十個頂尖團隊參賽,包括上屆冠軍美國亞利桑那州立大學,及日本東京大學和歐洲等。我國研究團隊以超過六成的搜尋準確率贏得冠軍,亞軍團隊只有五成,部分團隊的準確率甚至不到一成。

全球目前收錄美國國家衛生研究院線上資料庫「PubMed」的生命科學研究文獻超過一千八百萬筆,許聞廉表示,競賽主題是要找出所有「蛋白質交互作用」有關文獻。同時,在限定時間內,將大會提供的數百篇研究文獻中提及與「蛋白質交互作用」的有關蛋白質,正確找出對應到資料庫內的「身分證字號」。

這項競賽最大的挑戰在於,蛋白質名稱沒有統一命名方式,且容易與其他生物醫學名詞或是一般英文單字混淆;甚至在不同物種間可能也有同樣蛋白質名稱。以現有搜尋技術搜尋,須耗費時日逐篇瀏覽,才能篩選出具參考價值的文獻報告。

長期投入人工智慧研究的許聞廉分析,我國研究團隊勝出原因,除了系統程式可根據前後文判斷文中出現的蛋白質所指為何,團隊包括資訊科學與生命科學研究人員,互補不足也是重要關鍵,「我們最終的目標是發展出具有人工智慧的google,可以代替人類的智慧。」