李开复旗下「零一万物」大模型被指抄袭LLaMA

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

李开复初创的 AI 公司零一万物(01.AI)发布开源大模型 Yi-34B不久后,被指套壳Meta公司在今年开源的大模型LLaMA。

  Yi-34B被指是对LLaMA的重构

阿里前技术副总裁、大模型行业创业者贾扬清近日在朋友圈中表示,做小公司不容易,在做适配某国内大厂的新模型的业务时,发现此大厂新模型完全照搬LLaMA的架构,“今天有朋友告诉我,这个大厂新模型exactly就是LLaMA的架构,但是为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。”

李开复旗下「零一万物」大模型被指抄袭LLaMA

贾扬清表示希望不要换名伪装,以免做多余的适配工作,“各位大佬,开源社区不容易,如果你们就是开源的模型结构,求高抬贵手就叫原来的名字吧,免得我们还做一堆工作就为了适配你们改名字。”

贾扬清没有指明具体的大模型名字。但业内怀疑的对象指向李开复旗下的零一万物(Yi)。

在全球三大开源社区平台之一Hugging Face上,零一万物的社区中,开发者ehartford指出,“据我们了解,除了两个张量(tensor)被重命名之外,Yi 完全使用了 LLaMA 的架构。”

李开复旗下「零一万物」大模型被指抄袭LLaMA

原贴链接:https://news.ycombinator.com/item?id=38258015

据《机器之心》报道,有研究者在加速器创业网站Y Combinator上发帖指出,Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。

帖子还指出:Yi-34B 的代码实际上是对 LLaMA 代码的一次重构,但看似并未作出任何实质性改变。这个模型明显是基于原始 Apache 2.0 版的 LLaMA 文件进行的编辑,但却未提及 LLaMA:

李开复旗下「零一万物」大模型被指抄袭LLaMA

Yi vs LLaMA 代码对比。

代码链接:https://www.diffchecker.com/bJTqkvmQ/

在Hugging Face上零一万物社区讨论中,有用户指出套壳对于Yi许可证的风险,“如果他们使用完全相同的 Meta LLaMA 结构、代码库和所有相关资源,也必须遵守 LLaMA 规定的许可协议。以 LLaMA 格式正式发布 Yi 模型是有问题的,会破坏 Yi 许可条款的可执行性。”

零一万物回应争议

对于本次争议,零一万物回应称:GPT 是一个业内公认的成熟架构,LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

零一万物团队开源总监 richardllin 回应 ehartford 称:

非常感谢您在讨论中指出了这一点,也感谢您以良好的耐心等待我们做出回复。

您对张量名称的看法是正确的,我们会按照您的建议将其从 Yi 重命名为 LLaMA。我们也一直强调以准确、透明的方式完成工作。您在前面的帖子中提到,“开源社区肯定会重新发布 Yi 模型并调整张量名称,制作出符合 LLaMA 架构的新版本。”这让我们不禁好奇:您是希望提交一条包含这些变更的 PR 吗?或者说,如果您希望由我们处理更新,我们也可以按要求操作并在本 repo 中发布新版本——这样可能更省时间。

这个命名问题是我们的疏忽。在大量训练实验中,我们对代码进行了多次重命名以满足实验要求。但在发布正式版本之前,我们显然没能将它们全部正确调整回来。我们对此深感抱歉,对于由此造成的混乱也感到遗憾。

我们正在努力加强工作流程,力争未来不出现类似的失误。您的反馈给了我们很大帮助,接下来我们将再次核查所有代码,确保其余部分准确无误。也希望您还有整个社区持续关注我们的工作进展。

再次感谢您的提醒,期待您的更多支持和宝贵建议。

“34B是开源大模型稀缺的黄金比例尺寸”

今年3月下旬,李开复宣布将以Project AI 2.0入局大模型。7月,李开复上线了“AI 2.0”公司零一万物(01.ai)。11月,零一万物发布首款开源中英双语大模型“Yi”。

与此同时,零一万物已完成新一轮融资,由阿里云领投。目前,零一万物估值超过10亿美元,在成立不到8个月的时间即跻身独角兽行列。

中英双语开源大模型“Yi”系列,包括Yi-6B(参数规模为60亿基础模型)和Yi-34B(参数规模为340亿的基础模型)两个版本。

李开复认为,340亿参数量属于开源大模型稀缺的“黄金比例”尺寸,达到“涌现”门槛、满足精度要求的同时,对厂商而言能够采用高效率单卡推理,训练成本友好。在参数量和性能方面,Yi-34B相当于只用了不及LLaMA 2-70B一半的参数量,取得了在各项测试任务中超越全球领跑者的成绩。

据介绍,Yi目前拥有全球大模型中最长的200K上下文窗口,可处理约40万字的文本。这意味着Yi-34B可以理解超过1000页的PDF文档,同时可以让很多依赖向量数据库构建外部知识库的场景,用上下文窗口来完成替代。

在训练数据上,李开复表示,零一万物团队通过正规渠道购买和爬取的方式,获得了 100T 的中英文数据,并选取了其中 3T 的优质内容进行训练。

但和 LLaMA2 一样,Yi 系列模型在 GSM8k、MBPP 的数学和代码评测表现略逊 GPT 模型。李开复解释,这是由于当前零一万物的技术路线倾向于在预训练阶段尽可能保留模型的通用能力,没有加入过多的数学和代码数据。但也将陆续继续推出 Yi 系列大模型的量化版本、对话模型、数学模型、代码模型、多模态模型等一系列模型。

责任编辑:张薇

随意打赏

提交建议
微信扫一扫,分享给好友吧。