由OpenAI推出的ChatGPT引領生成式AI(GenAI)快速席捲全球,各大科技廠競相推出相關的產品,建立大型語言模型(LLM),生成式AI所訓練的LLM品質優劣,實與其收集的資料多寡呈現高度正向關係。惟文字與資料探勘(Text and Data Mining;簡稱TDM)過程涉及著作權問題,引發諸多爭議,其中日本就是採取比較寬鬆的做法,我國是否要跟進頗值得深究。

■從紐時控告OpenAI案談起

LLM最常使用的訓練的資料,為Common Crawl,從數十億的開放且免費使用網頁收集的數據集,看似資料很多,但資料良莠不齊,經過濾後可用資料即大幅縮水,以GPT-3模型所公布的資料源(Data Sources)為例(之後的GPT-3.5與GPT-4就不再公布),過濾前有45 TB壓縮純文字,過濾後只剩下570 GB。

■是否屬於「合理使用」尚未定論

為增加訓練的來源,AI業者就將收集目標投向品質高且數量龐大的資料庫與書籍上。但擷取網路內容的行為引發媒體出版商反彈,《紐約時報》、《CNN》、《BBC》等媒體已經封鎖AI的擷取。去年底《紐約時報》更開出第一槍,向紐約地方法院提起OpenAI及微軟侵犯著作權訴訟,認其未經其同意使用網站新聞內容來訓練AI模型,侵害其聲譽及營運獲利能力。

經濟部智慧財產局去年對此行為作出函釋(經授智字第11252800520號):「在蒐集資料訓練AI模型階段,訓練資料如受著作權法保護(下稱原始著作),會涉及『重製』原始著作之行為,除有著作權法第44條至第65條合理使用之情形外,應取得著作財產權人之同意或授權,始得為之。」

多數國家與歐盟的《著作權法》規範,也類似我國的規定,AI模型訓練未經著作財產權人之同意,使用受著作權法保護的資料,即可能涉及非法重製。至於是否符合「合理使用」(fair use)原則,目前尚未定論。前案OpenAI回應稿就抗辯稱,訓練符合合理使用,且已提供權利人退出的制度,有待司法判決確認。

■日本著作權法有獨特的規定

值得注意的是,日本直接在法律上明文該行為屬於例外允許的行為。日本2018年修改《著作權法》時,新增第30條之四:「在下列情形下,或者以不以欣賞自己在作品中表達的思想或者感情為目的或者讓他人欣賞作品的其他情形下,可以以任何方式使用作品。但是如果作品的類型和用途以及作品的使用方式會不公平地損害著作權擁有者的利益,則不適用。」「(i)略。(ii)資訊分析(指從大量受著作權保護的作品和其他大量資訊中提取、比較、分類和以其他方式分析與構成資訊的語言、聲音、圖像和其他元素相關的資訊)同樣適用於第47-5條第(1)項第(ii)款。」

依照其規範,AI模型訓練目的在於LLM的開發,並非基於自己或他人「欣賞」之用,訓練也不至於會損害著作權人的利益(但LLM生成作品,就另當別論),故原則上符合前述第二款「資訊分析」的範疇,得不經著作權人的允許在必要範圍內使用。

該模式的優點是,AI訓練容易取得高品質的資料,尤其日本原本就是文創產業的大國,在動畫、文學、音樂與電影等領域都表現相當優異,進而提升大模型的效能,LLM回答也將更加符合使用者的需求,並有助於加速該國AI產業的發展。

■日本做法值得借鏡?

至於我國是否有必要仿效日本的制度?基於以下理由,本文採取比較保留的態度:首先,承認著作權最重要的目的,係透過一定的保護,鼓勵創作者分享創作,進而促進國家文化發展(參照我《著作權法》第一條)。而日本則是以犧牲創作者為代價,將大舉降低創作者的創作誘因。其次,日本制度有其背景因素,日本人口約為1.25億,雖已開發國家中僅次於美國,但日文網路資料卻相當有限,遠不如英文與中文資料,導致其發展大型語言模型受限,在新一代AI軍備競賽中居於落後,為了要迎頭趕上他國的發展,採取比較寬鬆的制度,也不難理解。最後,日本國內也有反對看法,且該規定還有許多模糊空間,2018年立法時無法思慮的問題紛紛浮現,近期日本文化廳於1月15日提出《人工智慧與著作權方法(草案)》,試圖減緩對著作權的衝擊。

#作品 #訓練 #創作 #著作權 #模型