IT之家1月10日消息,ChatGPT開發(fā)商OpenAI近日承認(rèn),像ChatGPT這樣的AI工具的開發(fā)離不開受版權(quán)保護的素材,并稱如果沒有這些素材,這些工具根本無法誕生。據(jù)《每日電訊報》報道,OpenAI在提交給英國上議院通信和數(shù)字事務(wù)特別委員會關(guān)于大型語言模型調(diào)查的文件中做出了這一表述。


ChatGPT和圖像生成器DALL-E等AI模型之所以擁有強大的能力,主要是因為它們通過海量的內(nèi)容進行訓(xùn)練,其中一部分是從網(wǎng)上公開內(nèi)容抓取而來,并不總是經(jīng)過版權(quán)持有人的許可(OpenAI確實會獲得部分訓(xùn)練內(nèi)容的許可)。這種“自由奔放”的抓取方式在學(xué)術(shù)機器學(xué)習(xí)研究中由來已久,但隨著深度學(xué)習(xí)AI模型近期走向商業(yè)化,這種做法也受到了愈加嚴(yán)厲的審查。
OpenAI在提交給上議院的文件中寫道,“由于當(dāng)前版權(quán)涵蓋了幾乎所有形式的人類表達(dá)方式,包括博客文章、照片、論壇帖子、軟件代碼片段和政府文件,如果不使用受版權(quán)保護的內(nèi)容,就不可能訓(xùn)練當(dāng)今領(lǐng)先的人工智能模型。”
OpenAI進一步表示,如果將訓(xùn)練數(shù)據(jù)僅限于“一個世紀(jì)前”的公共領(lǐng)域書籍和圖畫,將無法訓(xùn)練出“滿足當(dāng)代公民需求”的AI系統(tǒng)。
IT之家注意到,去年12月《紐約時報》對OpenAI和OpenAI重要投資者微軟提起訴訟,指控他們未經(jīng)許可在產(chǎn)品中非法使用了該報的內(nèi)容。OpenAI于本周一在其網(wǎng)站上對此案作出了回應(yīng),稱該訴訟毫無根據(jù),并重申了其對新聞業(yè)的支持以及與新聞機構(gòu)的合作關(guān)系。
OpenAI的辯護主要基于“合理使用”的法律原則,該原則允許在特定情況下未經(jīng)所有者許可有限使用受版權(quán)保護的內(nèi)容。該公司堅稱,版權(quán)法并不禁止使用此類素材訓(xùn)練AI模型。
“使用公開可獲取的互聯(lián)網(wǎng)素材訓(xùn)練AI模型屬于合理使用,這一觀點得到了長期以來廣泛接受的先例的支持,”OpenAI在其周一發(fā)布的博客文章中寫道,“我們認(rèn)為,這一原則對創(chuàng)作者是公平的,對創(chuàng)新者是必要的,對美國的競爭力也至關(guān)重要。”
這不是OpenAI第一次就其AI訓(xùn)練數(shù)據(jù)提出合理使用辯護。早在去年8月份,OpenAI在回應(yīng)喜劇演員Sarah Silverman的版權(quán)訴訟時,同樣以合理使用為由捍衛(wèi)了其使用公開可獲取素材的做法。OpenAI宣稱,那位喜劇演員對版權(quán)范圍存在“誤解”,沒有考慮到“合理使用”等限制和例外條款,而正是這些條款為像大型語言模型這樣的前沿人工智能創(chuàng)新留下了必要的發(fā)展空間。