IT之家 7 月 16 日消息,據(jù) Wired 報道,包括蘋果在內的一些科技巨頭未經(jīng) YouTube 視頻創(chuàng)作者同意,就使用了他們視頻的字幕文件來訓練人工智能模型。

IT之家注意到,此次事件影響到的創(chuàng)作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脫口秀主持人斯蒂芬?科爾伯特、約翰?奧利弗和吉米?坎摩爾等。這些被用于訓練 AI 的字幕文件相當于視頻的文本轉錄內容。
調查記者披露,一些世界上最富有的科技公司一直在利用來自成千上萬個 YouTube 視頻的素材來訓練 AI,而這違反了 YouTube 禁止從平臺上未經(jīng)許可抓取內容的規(guī)定。據(jù)悉,超過 17.3 萬個來自 4.8 萬個頻道的 YouTube 視頻字幕文件被用來訓練人工智能模型,其中就包括蘋果、英偉達、Salesforce 等硅谷巨頭。
據(jù)報道,下載這些字幕文件的是一個名為 EleutherAI 的非盈利組織,他們聲稱其目的是幫助開發(fā)者訓練 AI 模型。雖然 EleutherAI 的初衷可能是為小型開發(fā)者和學術研究者提供訓練材料,但該數(shù)據(jù)集也被蘋果等科技巨頭使用。
根據(jù) EleutherAI 發(fā)布的一篇研究論文,這份數(shù)據(jù)集是他們發(fā)布的名為“The Pile”的大型數(shù)據(jù)集的一部分。“The Pile”中的大部分數(shù)據(jù)集都是公開的,任何擁有足夠存儲空間和計算能力的人都可以訪問。除了科技巨頭之外,一些學者和開發(fā)者也使用了該數(shù)據(jù)集。然而,蘋果、英偉達和 Salesforce 等市值數(shù)百億甚至數(shù)千億美元的公司也在他們的研究論文和帖子中提到了他們如何使用該數(shù)據(jù)集來訓練 AI 模型。
有文件顯示,蘋果在 4 月份發(fā)布了備受關注的 OpenELM 模型幾周之前,就使用了“The Pile”進行訓練。而 OpenELM 模型的發(fā)布恰逢蘋果宣布將在 iPhone 和 Macbook 中加入新的 AI 功能。
需要注意的是,蘋果自己并沒有下載這些數(shù)據(jù),而是由 EleutherAI 完成的。因此,從技術層面來說,是 EleutherAI 違反了 YouTube 的使用條款。
盡管蘋果和其他公司可能使用了公開的數(shù)據(jù)集,但此事件凸顯了從網(wǎng)絡上抓取數(shù)據(jù)來訓練 AI 系統(tǒng)所帶來的法律風險。此前就曾出現(xiàn)過 AI 系統(tǒng)在回答小眾話題時抄襲整段文本的案例,當公司使用第三方編譯的數(shù)據(jù)集時,只會增加未經(jīng)許可使用素材的風險。