近來採訪了幾位網路科技業人士,對台灣發展人工智慧、機器學習領域都有相同評論,「先天上存在數據量劣勢」,在框架與算法沒有創新突破的情況下,數據量關鍵成為我國難在該領域成為全球佼佼者。

所謂劣勢是比較而來,當時比較的對象為大陸,地廣物博人多、加上早期相關規範不夠完善讓業者容易蒐集數據,使大陸AI產業一飛沖天有引領全球之姿。其實,台灣人口密集、都市化程度高、感測系統完善等條件也都利於數據蒐集,所謂劣勢也沒這麼糟,故幾位專家認為,細分化發展、從台灣特有與優勢行業著手,是發展AI的一條出路。

但實際上,細分化發展所遇上的數據高牆才巨大,舉個筆者知道的例子,在某場法律科技競賽中,有團隊想要透過機器學習估測出車禍的精神賠償金範圍,但最後因過往數十年所有的判決量總和也遠不足進行機械學習,最後只好以統計方法進行預測。

不同於當前主流的圖像等數據可透過調整解析度、角度、顛倒等方式將1個數據變成十多個數據使用,上述的法律判決或是研究實驗,就難用這種方式增加數據。

誠然,如何在算法、研究設計與數據運用上有創新突破,更能看出一個AI業者的價值所在,但要使AI產業在數據匱乏的環境中有茁壯機遇,實在是可遇不可求。

故如何協助打造出數據友善環境是上位者可以思考的,以上述法律判決舉例,倘若判決書能夠更加制式化、法律規定能對造成影響的多變因列出所占比重、或是法官在判決時能揭露更多思考歷程,如「在該情況下原欲判罰多重,但因某條件減輕判罰多少」等都記錄紙上,那對於台灣的數據環境將是很大進展。

#數據量 #算法 #AI產業 #思考 #劣勢