近来採访了几位网路科技业人士,对台湾发展人工智慧、机器学习领域都有相同评论,「先天上存在数据量劣势」,在框架与算法没有创新突破的情况下,数据量关键成为我国难在该领域成为全球佼佼者。

所谓劣势是比较而来,当时比较的对象为大陆,地广物博人多、加上早期相关规范不够完善让业者容易搜集数据,使大陆AI产业一飞冲天有引领全球之姿。其实,台湾人口密集、都市化程度高、感测系统完善等条件也都利于数据搜集,所谓劣势也没这么糟,故几位专家认为,细分化发展、从台湾特有与优势行业着手,是发展AI的一条出路。

但实际上,细分化发展所遇上的数据高墙才巨大,举个笔者知道的例子,在某场法律科技竞赛中,有团队想要透过机器学习估测出车祸的精神赔偿金范围,但最后因过往数十年所有的判决量总和也远不足进行机械学习,最后只好以统计方法进行预测。

不同于当前主流的图像等数据可透过调整解析度、角度、颠倒等方式将1个数据变成十多个数据使用,上述的法律判决或是研究实验,就难用这种方式增加数据。

诚然,如何在算法、研究设计与数据运用上有创新突破,更能看出一个AI业者的价值所在,但要使AI产业在数据匮乏的环境中有茁壮机遇,实在是可遇不可求。

故如何协助打造出数据友善环境是上位者可以思考的,以上述法律判决举例,倘若判决书能够更加制式化、法律规定能对造成影响的多变因列出所占比重、或是法官在判决时能揭露更多思考歷程,如「在该情况下原欲判罚多重,但因某条件减轻判罚多少」等都记录纸上,那对于台湾的数据环境将是很大进展。

#数据量 #算法 #AI产业 #思考 #劣势