Meta 被指控使用盜版數據集訓練 Llama AI 模型,扎克伯格批准引發爭議

根據 TechCrunch 9 日的報道,在一起針對 Meta 的版權訴訟中,原告律師表示,Meta CEO 馬克・扎克伯格批准了公司 Llama AI 模型開發團隊使用盜版電子書和文章的數據集進行訓練。當地時間週三晚些時候提交給美國加州北區法院的最新文件中,Kadrey 訴 Meta 案的原告(包括暢銷書作家莎拉・西爾弗曼和塔-內希西・科茨)敘述了 Meta 去年晚些時候的證詞,證詞中透露扎克伯格批准了 Meta 使用名爲 LibGen 的數據集進行 Llama 相關的訓練。

LibGen 自稱爲“鏈接聚合器”,提供包括 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的盜版作品。LibGen 曾多次被起訴、關閉,並因版權侵權被罰款數千萬美元。

根據 Meta 的證詞,原告律師稱,扎克伯格在 Meta 的 AI 高管團隊和其他員工提出擔憂的情況下,仍批准使用 LibGen 數據集來訓練至少一個 Llama 模型。文件中引用 Meta 員工的話稱內部“知道這是盜版”,並且指出使用該數據集“可能會削弱 Meta 與監管部門的談判地位”。

文件還引用了一份備忘錄,指出在“上報至 MZ”後,Meta AI 團隊“獲准使用 LibGen”。而此處的“MZ”,顯然是“馬克・扎克伯格”的簡寫。

週三的文件還揭示了新的指控,稱 Meta 可能試圖通過去除 LibGen 數據中的版權標記來掩蓋侵權行爲。原告律師表示,Meta 工程師尼古拉・巴什利科夫爲 Llama 團隊編寫了一個腳本,用於刪除電子書中的版權信息,並且 Meta 還涉嫌從“用於訓練 Llama 的科學期刊文章和其他數據”中去除了版權標記。“這一發現表明,Meta 不僅僅爲了訓練而刪除版權信息,可能還試圖掩蓋其侵權行爲,因爲刪除版權信息可以防止 Llama 輸出可能揭露‘侵權’的版權信息。”

Meta 還在證詞中透露,它通過 torrent 下載了 LibGen,部分 Meta 工程師對此表示擔憂。torrent 下載是一種通過網絡共享文件的方式,它要求下載者同時“做種”,即上傳他們試圖獲取的文件。原告律師稱,Meta 通過 torrent 下載 LibGen 實質上又進行了另一種形式的版權侵權,幫助傳播盜版內容。不僅如此,Meta 還通過減少上傳的文件數量來隱瞞其侵權行爲。

文件中提到,Meta 生成式 AI 部門負責人艾哈邁德・阿爾-達赫勒批准了通過 torrent 下載 LibGen,忽視了巴什利科夫對其可能“法律上不合規”的擔憂。原告律師表示:“如果 Meta 直接購買或借閱原告的作品並未經授權訓練 Llama 模型,它將構成版權侵權。Meta 選擇繞過合法途徑,加入非法 torrent 網絡,證明其侵權行爲。”

風險警告:本文根據網絡內容由AI生成,內容僅供參考,不應作爲專業建議或決策依據。用戶應自行判斷和驗證信息的準確性和可靠性,本站不承擔可能產生的任何風險和責任。內容如有問題,可聯繫本站刪除。