
一名YouTube創作者打算對OpenAI提起集體訴訟,指控該公司在未通知或賠償影片擁有者的情況下,訓練其生成式AI模型,使用了來自YouTube視頻的數百萬個轉錄。
上周五在加州北區聯邦地方法院提起的一項投訴中,麻薩諸塞州的YouTube用戶David Millette的律師聲稱,OpenAI秘密轉錄了Millette和其他創作者的視頻,以訓練推動該公司AI聊天機器人平台ChatGPT和其他生成式AI工具和產品的模型。投訴聲稱,OpenAI通過收集這些數據「從創作者的工作中獲得了顯著利益」,同時違反了版權法和YouTube的服務條款,該條款禁止將視頻用於服務之外的應用程式。
由Bursor and Fisher律師事務所代表的Millette正在尋求陪審團審判,以及對可能涉及OpenAI培訓的所有YouTube用戶索賠超過500萬美元的賠償。
像OpenAI這樣的生成式AI模型沒有真正的智能。通過提供大量示例(例如電影、語音記錄、文章等),模型根據模式學習數據發生的可能性,包括周圍任何數據的上下文。
大多數模型是使用從公共網站和網絡上的數據集中收集的數據進行訓練的。公司主張,根據合理使用,他們的努力無選擇性地擷取數據並用於訓練商業模型。然而,許多版權持有人不同意這一點,他們正在提起訴訟以制止這種做法。
視頻轉錄已成為其他數據枯竭的關鍵培訓數據成分之一。
據Originality.AI的數據顯示,全球前1000個網站中有超過35%阻擋OpenAI的網絡爬蟲。 MIT數據來源倡議小組的一項研究發現,約25%來自「高質量」來源的數據已被限制用於訓練AI模型的主要數據集。如果目前的訪問阻擋趨勢繼續下去,研究小組Epoch AI預測,開發者將在2026年至2032年之間用完訓練生成式AI模型的數據。
今年4月,《紐約時報》報導,OpenAI創建了其第一個語音識別模型Whisper,旨在從視頻中轉錄音頻以收集額外的訓練數據。據《時報》報導,OpenAI團隊,包括公司總裁Greg Brockman,使用Whisper從YouTube轉錄了超過一百萬小時的視頻,並使用這些轉錄來訓練OpenAI的文本生成和分析模型GPT-4。
一些OpenAI員工討論了這樣的舉措可能違反YouTube的規則,根據《時報》。
在7月,《Proof News》報導稱,包括Anthropic、蘋果、Salesforce和Nvidia在內的公司使用了一個名為The Pile的數據集,其中包含數十萬YouTube視頻的字幕,用於訓練生成式AI模型。許多YouTube創作者的字幕被納入The Pile,但他們不知情也未同意這一做法;蘋果後來發表聲明表示,他們沒有打算使用這些模型來驅動其產品的任何人工智能功能。
Google, YouTube的母公司,也試圖使用轉錄來訓練其模型。
去年,Google擴展了其服務條款的範圍,部分是為了允許公司更廣泛地使用用戶數據來訓練生成式AI模型。根據舊的服務條款,尚不清楚Google是否可以使用YouTube數據來開發超出視頻平台的產品。但在新的條款下,這些限制被大大放寬。
我們已聯繫OpenAI和Google對這項集體訴訟發表評論,如有回應,我們將更新這篇文章。
OpenAI這個月開局並不順利。
特斯拉和X公司的CEO埃隆·馬斯克周一對OpenAI和CEO Sam Altman提起了一項新的訴訟,指控該公司放棄了其最初的非營利性使命,將一些最尖端的技術保留給商業客戶。馬斯克在今年2月對OpenAI提起訴訟時做出了相同的指控,但新的訴訟聲稱,OpenAI還在進行敲詐活動。