用公共视频网站数据训练大模型？美AI巨头频陷非法数据收集争议

砍柴网 • 1月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

“有许多专家相信，Open AI公司在使用公共视频网站的数据训练其大模型。”美国“ 商业内幕”网站18日刊文称，这家业界领先的人工智能（AI）初创企业获取数据的方式正在引发争议。不只是Open AI，近期美国多个头部科技企业遭遇类似争议。训练人工智能大模型的数据来源是否合法？如何界定企业使用公众数据的边界？都成为未来各国完善人工智能法规需要认真考虑的问题。

Open AI遭遇质疑

“商业内幕”网的文章以Open AI公司旗下大火的人工智能视频创作工具Sora为例称，Sora的训练依赖海量数据，这些数据很可能搜刮自谷歌旗下的YouTube视频网站，而这已经几乎是公开的秘密。事实上，YouTube官方一直禁止使用自动化工具批量下载网站视频的做法，也禁止下载YouTube视频用于商业目的，并采取限流等措施应对工具刮削。文章称，目前尚不清楚Open AI是用了什么样的技术手段绕过YouTube的拦截。

用公共视频网站数据训练大模型？美AI巨头频陷非法数据收集争议

美国《华尔街日报》近期采访Open AI首席技术官米拉·穆拉蒂，在被问及公司使用什么数据训练Sora时，她回应称“使用的是公开和被许可数据”。但被问及其中是否包括YouTube视频内容时，她表示“对此并不确定”。

中关村信息消费联盟理事长项立刚20日告诉《环球时报》记者，人工智能大模型分为通用大模型和垂直（行业）大模型。Open AI做的是通用大模型，会在YouTube等公共平台上爬取数据。图片和视频的版权往往较文字更为明确，更容易引发争议。“比如，我拍的视频、图片就是我所创作的内容，但被整合到人工智能大模型里后，就成为后者的内容。这里面有很多法律问题是需要解决的。”

当前，人工智能赛道在全球持续火热，众多初创公司争先恐后地收集高质量的数据训练人工智能大模型。“商业内幕”网援引熟悉Open AI运营的人士的话称，该公司指派了一个“秘密团队”来获取训练数据，公司内部也不会深究数据来源。互联网界的各大玩家似乎达成某种“共识”——只要自身能抓取到别人的数据，也就默许其他玩家采取相同的做法。

在一些人看来，这样的“共识”是狂飙突进中的人工智能产业需要留意的一大隐患。“商业内幕”网的报道认为，生成式人工智能的快速兴起掀起了一场世界范围内的技术竞赛，在这个新领域中，什么是合法的，什么是合乎道德的，目前尚缺乏明确而成熟的规则。

“混乱”中推动监管措施变革

“商业内幕”网称，人们对复杂的生成式人工智能系统给公众带来的潜在危害有很多担忧，公众对这些人工智能大模型从何处获取数据、如何使用数据以及在涉及敏感信息时是否采取保护措施知之甚少，科技公司不仅没有告诉公众太多信息，甚至连自身都无法将这一过程彻底解释清楚。

一段时间以来，美国多家业内头部企业因人工智能训练数据来源而陷入侵权纠纷，甚至吃到官司。本月初，3名作家在美国加州对英伟达公司发起集体诉讼，指控该公司的NeMo AI平台使用盗版文学网站素材训练人工智能的自然语言撰写技能。早前，包括《冰与火之歌》作者在内的18名作家起诉Open AI侵权；《纽约时报》起诉Open AI和微软非法使用其内容；在2023年，就有许多设计师起诉人工智能绘画软件Midjourney和Stability AI未经许可使用其版权作品训练人工智能绘图工具。美国娱乐游戏网站IGN评价上述官司称，这些案例或成为推动监管措施变革的关键。

面对外界越来越频繁的质疑，一些巨头对训练人工智能所用的海量数据来源讳莫如深。去年年底，两名美国议员提出一项《人工智能基础模型透明法案》，要求所有人工智能基础模型都必须披露训练数据来源、获取数据的方式以及使用的算法等。但这项法案何时能成为正式立法不得而知。

多国法规有待检验

中国经济学者盘和林告诉《环球时报》记者，对于获取训练人工智能大模型的数据，各国法规尚有分歧，甚至是一片空白。有些国家的法规更加倾向于信息公开，有些国家的法规更加倾向于信息安全。共识在于，选取数据不能涉及个人隐私数据。如果企业爬取公共数据，需对数据进行处理以达到脱敏脱密。

项立刚告诉记者，中国去年在人工智能大模型的管理方面出台了相关的条例。至于涉及知识产权的管理，需要在未来随着人工智能产品的完善和技术的发展进一步制定相关的法律和法规。

在管理人工智能训练数据来源方面，欧洲步子迈得较大。瑞士《一瞥报》19日称，人们已经意识到，会有犯罪者通过网络数据进行非法AI创作，甚至还会出现勒索事件。欧洲议会13日以压倒性票数通过《人工智能法案》。该法案为人工智能技术设置严格的规则，旨在确保人工智能的使用不会侵犯人的基本权利，如隐私、数据保护和非歧视等。欧盟官员将其称为“世界上第一部针对可信人工智能的全面、具有约束力的法规”。

盘和林表示，与美国不同，中国主流人工智能大模型多基于企业内部数据进行训练。美国是判例法国家，经纪商可能从数据平台购买数据，更多的则是从互联网公开数据中爬取有用数据。包括社交媒体的所有资料。继而对数据进行预标注和加工处理。“商业内幕”网认为，谷歌、Open AI和一些科技公司认为，在当前的“共识”下，即使使用受版权保护的内容进行人工智能模型训练是合法的，但这样的诉求也有待得到监管机构或法庭的检验。

【来源：环球时报】