数据标注领域真正的巨头:0融资、10亿美元营收
比 Scale AI 更值得关注的 AI 数据标注公司出现了。
同样是华人创始人,2020 年创立,120 人左右的团队,去年营收达到 10 亿美元,至今没有融资,Google、OpenAI 和 Anthropic 都是它的客户。
对比之下,Scale AI 去年的收入是 8.7 亿美元,已经是 F 轮融资,累计融资 16 亿美元。
在被 Meta 收购了近一大半股份、创始人 Alexandr Wang 加入 Meta 之后,Scale AI 被谷歌、OpenAI 等大客户暂停合作,Surge AI 的优势更加明显,隐约要成为数据标注领域的领头者。
创始人兼 CEO Edwin Chen 是一个很独特的创始人,曾在谷歌、Facebook 和 Twitter 担任机器学习工程师的他,对于数据有非常多有价值的深入思考。Edwin Chen 最近接受了几家播客的采访,对于创业和模型的数据训练,输出了不少观点。
比如在他看来,创业是为了解决问题,而不是为了融资。合成数据现阶段被高估,高质量的数据仍旧是壁垒。
以及,大语言模型竞技场 (LMArena) ,某种意义上把模型训练方向带歪了。
在合成数据和榜单已经成为了“共识”的当下,Edwin Chen 的不少观点,都值得一听。我们整理了近期 Edwin Chen 接受 No Priors、20VC 的访谈,精选了其中的一些内容。
TLDR:
-
数据标注领域的其他公司本质上只是“人力外包公司”,交付的不是数据,而仅仅是人力。Surge 定位其产品是:直接用于训练和评估 AI 模型的高质量数据,包括监督微调 (SFT) 数据、偏好数据等。
-
Edwin Chen 用“画边界框”和“写诗”来类比两类数据。前者数据质量天花板很低,而后者 (如写诗、编程、数学证明) 质量天花板极高,充满了主观性、创造力和智慧。生成式 AI 时代所需要的数据是后者。
-
未来 AI 训练需要的是多种数据的结合,包括强化学习环境、专家推理过程的轨迹记录等,单一的奖励信号已经不足以捕捉复杂任务的全貌。
-
业界高估了合成数据的作用。 很多客户发现,海量的合成数据中绝大部分是无用噪音,且在现实世界的用例中表现得很糟糕。
-
即使模型能力超越人类,人类反馈也永远不会过时。深入、细致、有良好品味的人类评估,是所有前沿模型实验室公认的“黄金标准”。
-
大语言模型竞技场,以及各种学术基准测试是“人工智能的一大祸害”。用户凭 5-10 秒的直觉选择,导致模型被训练得去优化排版、表情符号和回答长度等表面特征,牺牲了事实性和指令遵循能力,本质上是在训练模型产出“点击诱饵”。
-
对于有盈利能力的公司来说,不融资、保持控制权、专注于产品是更优选择。创业是为了解决问题,不是为了融资。
一、创业是为了解决问题,不是为了融资
主持人: Surge 一直很低调,介绍下目前公司的规模和创立初衷。
Edwin Chen: 去年,我们的营收突破了 10 亿美元,我们几乎是这个领域最大的人类数据服务商。我们最初的创业理念是,坚信人类数据在推动人工智能发展方面的力量。从一开始,我们就将重心放在确保我们能提供最高质量的数据上。
主持人 : 创立五年就做到 10 亿营收,怎么起步的?
Edwin Chen: 我们创立于 2020 年,成立五年了。我之前在 Google、Facebook 和 Twitter 工作过。 我们创办 Surge 的根本原因,就是为了解决我在大公司工作时反复遇到的一个巨大障碍:几乎无法获取训练模型所需要的数据。 我们想做的事情还有很多,但即使是做一些最基础的事情,在获取数据上都困难重重。
与此同时,我们还想构建许多更具未来感的东西。比如我们想开发下一代人工智能系统,但在当时,如果我们连构建一个简单的情感分析分类器所需的数据都难以获得,那我们又如何能取得更大的进步呢?这确实是最大的问题。
主持人 :外界都知道你们不融资,靠自己盈利,为什么选择这条路?
Edwin Chen: 不融资的很大一个原因显然是我们不需要这笔钱。我们非常幸运,从一开始就实现了盈利,不需要资金。
放弃控制权总让我感觉很奇怪。我一直很讨厌硅谷的一点是,你总能看到很多人为了融资而融资。我经常发现,许多创始人并非真的怀揣着一个宏大的梦想,想要打造一款产品来解决他们真正信奉的某个问题。
比如,你和一些 YC 创始人交谈,问他们的目标是什么?他们就是为了告诉所有朋友他们融了 1000 万美元,给父母看他们登上了 TechCrunch 的头条——这就是他们的目标。我在 Google 的一些朋友常对我说:“我在 Google 或 Facebook 干了 10 年了,我想创业。” 我会问:“好的,那你想解决什么问题?” 他们不知道。他们会说:“我就是想做点新东西,我厌倦了。”
这很奇怪,因为他们完全有能力支付自己几个月的薪水,毕竟他们在 Google 和 Facebook 工作了 10 年,不是刚毕业的学生,但他们首先想到的就是去融资。
我一直觉得这很奇怪,因为他们可能会尝试和一些用户交流,也可能尝试开发一个最小可行产品 (MVP) ,但他们做这些事的方式很敷衍,唯一的目的似乎就是为了在创业加速器的申请表上打个勾。
然后他们就在各种随机的产品想法之间不断转型,希望能碰巧获得一点关注,这样就会有风投给他们发私信。于是他们把所有时间都花在发推文和参加各种风投晚宴上,所有这一切都只是为了向世界炫耀他们融到了一大笔钱。
所以,立即融资这件事对我来说一直很愚蠢。似乎每个人的默认选项都是马上融资。但如果你从第一性原理出发思考,假如你不知道硅谷的运作方式,不知道融资这回事,你为什么要这样做呢?
对于 90% 的初创公司来说,如果创始人幸运地有一些积蓄,融资又能真正解决什么问题呢?我认为,你的第一直觉应该是去创造你梦想的东西。当然,如果你遇到了财务问题,那当然可以考虑融资,但当你们甚至都不知道要拿钱做什么时,就不要在前期浪费所有这些精力和时间。
主持人 : 我感觉我是少数几个经常试图劝退人们融资的投资人之一。比如今天我刚和一个创始人聊,他想融资,我问他为什么,我说你没必要这么做,你可以保持控制权。但另一方面,我其实认为在硅谷之外,当资金确实能帮助公司扩张时,寻求风险投资的人又太少了。所以我觉得硅谷是融资过剩,而硅谷之外是融资不足。这形成了一种有趣的、不同模式并存的分布。
很多创始人觉得,融资是公司实力的一种证明,也能帮他们招人。你怎么看?
Edwin Chen: 首先,这取决于“外部验证”具体指什么。我总是从这个角度思考问题:你是想创办一家真正能改变世界的公司吗?你是否怀揣着一个宏大的梦想?如果你有这样一个梦想,你为什么还需要在意那些呢?
主持人 : 那如果创始人没背景、没人脉,刚毕业也没什么钱,该怎么吸引人才?
Edwin Chen: 我会区分两种情况。第一是,你是否真的需要钱?首先,有些人确实是刚毕业,甚至可能没上过大学,所以他们可能没有任何积蓄,确实需要一些钱来维持生计。
而另一些人,并不一定需要钱,因为你可能已经在 Google 或 Facebook 工作了 10 年或 5 年,总有一些积蓄。所以我想说,根据这两种不同的情况,要走的路是不同的。
但其中一个问题是,你真的需要马上去招那么多人吗?
我经常看到一种现象,就是创始人会告诉我:“我正在考虑最初要招的几个人。”然后他们说:“我要招一个产品经理,要招一个数据科学家。他们会是我最早的 5 到 10 名员工之一。”
我听了就觉得:什么?我绝不会把数据科学家列为公司最早的三名员工之一,我这么说是因为我自己就曾是数据科学家。当你想把产品优化 2% 或 5% 的时候,数据科学家很棒,但这绝对不是你创业初期该做的事。
在初期,你追求的是 10 倍或 100 倍的改变,而不是去担心那些微小的百分点,那些反正也只是噪音。再比如产品经理,当公司规模足够大时,产品经理很有用,但在初期,你应该自己思考想做什么产品,你的工程师也应该亲力亲为,并且有好点子。而产品管理是大公司衍生出的一种奇怪概念,那是因为工程师们没有时间深入细节并亲自推动项目。这不是你一开始就该设立的岗位。
二、Surge 的壁垒就是高质量的数据
主持人: 先具体讲讲你们 10 亿美元的营收是怎么来的?你们的产品到底是什么?
Edwin Chen: 归根结底,我们的产品就是数据。我们实实在在地向客户交付数据,他们用这些数据来训练和评估他们的模型。
想象一下,假如你是一家前沿 AI 模型实验室,想要提升模型的编程能力,我们就会去收集大量的编程数据。这些编程数据有多种形式,可能是 SFT (监督微调) 数据,我们负责编写代码解决方案或单元测试,这些是优质代码必须通过的测试。
也可能是偏好数据,比如提供两段代码或两种代码解释,然后判断哪个更好。还可能是验证器,比如:“我创建了一个网页应用,我想确认屏幕右上角有一个登录按钮,并且点击这个按钮后会发生某个特定的事件。”
数据可以有多种形式,但最终,我们交付的就是数据。
这些数据能帮助模型提升相关能力。与此紧密相关的是评估模型的概念,因为你也想知道,这个编程模型好不好?它是否比另一个更好?这个模型在哪些错误上表现得更差?我们能从中获得什么洞见?因此,除了数据本身,我们常常还向客户提供洞见,比如交付损失模式、失败模式。所以,可能还有很多与数据相关的东西,但我们交付的数据及其周边形成了一个应用生态,这就是我们的产品。
主持人: 这个领域的公司经常被归为一类,你们的业务和他们到底有什么不同?
Edwin Chen: 我们思考的方式是,我们始终将数据质量作为我们的首要原则。因此,我们需要建立技术来衡量和改进这一点。人们通常没有意识到质量控制有多么困难。
他们普遍认为人类很聪明,所以只要找一群聪明人来解决问题,就能得到高质量的数据。 我们发现这完全是错误的。
比如说,就算你从麻省理工学院招募到会编程的人,他们实际上也只会试图欺骗你。他们可能会把自己的账户卖给其他人,或者尝试使用大语言模型 (LLM) 为你生成数据。他们会想出各种疯狂的方法来欺骗系统。
因此,检测低质量是一个非常具有挑战性且充满对抗性的问题。
我们发现,当你想获得最高质量的数据来训练那些已经超级智能的 LLM 时,你实际上需要构建大量非常复杂的算法。
你不能只是随便招个人,或者仅仅通过简历筛选就期望得到好的结果。 我认识的那些尝试这种方法的团队,在没有意识到的情况下,实际上比其他人慢了 10 倍。
所以,归根结底,这完全取决于我们构建的技术,以提取尽可能高质量的数据。
主持人: 那你们的核心竞争力是什么?或者说,你们有什么是竞争对手做不到的?
Edwin Chen: 我们区别于他人的地方在于,这个领域的许多其他公司本质上只是“人力外包公司”。他们交付的不是数据,而仅仅是“人头”,这意味着他们最终没有任何技术。
而我们的一个基本信念是,质量是最终极、最重要的事情。这些是高质量的数据吗?这是一个好的代码解决方案吗?这是一个好的单元测试吗?这个数学问题解对了吗?这是一首好诗吗?基本上,这个领域的很多公司,由于历史发展的原因,一直将质量和数据视为同质化的商品。
我们经常这样思考:想象一下,让你在一辆车周围画一个边界框。像 Sarah、你和我,我们画出的边界框可能都一样。你去问海明威,再去问一个二年级小学生,最后我们画出的边界框都会是同一个。我们在这件事上做不出太大差异。
这种任务的质量水平天花板非常低。但换成写诗这样的事情,我就不擅长了,海明威写的诗肯定比我写的好得多。或者想象一下,一份风险投资的融资演示文稿 (pitch deck) ,你做的肯定比我的好得多。
在如今的生成式 AI 世界里,你能创造的质量类型几乎是没有上限的。因此,我们这样看待自己的产品:我们拥有一个平台,拥有真正的技术,用来衡量我们的工作人员或标注员所产出内容的质量。如果你没有那样的技术,你就没有任何衡量质量的方法。
主持人: 你们怎么衡量产出内容的质量?靠人还是靠模型?
Edwin Chen: 我们经常打一个比方,就像 Google 搜索或 YouTube 一样。你有数以百万计的搜索结果、网页和视频,你如何评估它们的质量?
比如,这是一个高质量的网页吗?它信息量大吗?你实现这一点的方式是,你需要收集大量的信号——页面相关信号、用户相关信号、活动相关信号等,最终将所有这些都输入到一个庞大的机器学习程序中。
同样地,我们也收集关于标注员的各种信号,包括他们正在执行的工作、他们在网站上的活动等,然后将这些信息输入到许多不同的算法中。我们内部有一个机器学习团队,专门负责构建这些算法来衡量这一切。
主持人: 现在模型的基线越来越高,对标注质量的要求也远超普通人水平。这对你们的业务有什么影响吗?
Edwin Chen: 这其实也是我们内部做了大量研究的一个课题。
在人工智能对齐领域,有一个叫做“可扩展监督”的研究方向,它探讨的核心问题是:如何让模型与人类携手合作,产出比任何一方单独完成时质量更高的数据?
举个例子,比如从零开始写一个故事。几年前,我们可能需要完全由自己从头写起。但如今,这种方式效率很低。你可以从模型生成的故事草稿开始,然后进行编辑。你可能会做大幅修改,也许故事的核心非常平淡、普通,但其中有很多繁琐的工作,由人来做效率很低,也无法真正发挥我们希望注入到回答中的人类创造力和智慧。
所以,你只需要在一个基本框架上进行叠加和完善。当然,关于可扩展监督还有更复杂的思考方式,但核心问题就是如何构建合适的交互界面。如何构建合适的工具?如何以正确的方式将人与人工智能结合起来,让他们变得更高效?这正是我们投入大量技术去研发的方向。
主持人: 你们的很多竞争对手融了大量资金,规模却比你们小得多。是你们做得太好,还是他们做得太差?
Edwin Chen: 我认为是两者兼而有之。我认为我们这个领域的许多其他公司,归根结底都不是科技公司。它们要么是“车身修理厂” (body shops) ,要么是伪装成科技公司的“车身修理厂”。
主持人: 你说的“车身修理厂”和“伪装的科技公司”具体指什么?
Edwin Chen: 这个领域的很多公司没有任何技术。
当我谈到技术时,指的是他们没有任何方法来衡量或提高他们所生成数据的质量。 从某种意义上说,它们是纯粹的“车身修理厂”,有时甚至没有任何技术平台供工人使用。
他们所做的就是像招聘人员一样,寻找人才,看到简历上有博士学位就立即雇用,然后将这些人送到 AI 公司或前沿实验室。
他们没有技术,没有办法衡量这些工人的具体工作表现,也不知道他们是否做得好。 他们无法进行 A/B 测试,
比如“如果我改变这个算法来提高质量会怎样?”或者“如果我调整工具来改变这些问题,会提高工人的效率和质量吗,还是会变得更糟?”
他们无法做这些事情,因为到最后,他们交付给客户的只是“凑人数”,是人,而不是数据。
三、大家高估了合成数据的作用
主持人: 最近很多讨论都转向了强化学习 (RL) 环境,这块业务的难点在哪?
Edwin Chen: 我们投入了大量工作来构建强化学习环境。我认为人们严重低估了这件事的复杂性,它不是简单地通过合成方式就能生成的。你需要大量的工具,因为客户需要的是极其庞大的环境。
主持人: 能举个例子吗?什么样的环境算“庞大”?
Edwin Chen: 想象你是一名销售人员。作为销售,你需要与 Salesforce 交互,通过 Gmail 获取潜在客户,在 Slack 上与客户沟通,创建 Excel 表格来追踪线索。你可能还要撰写 Google Docs 文档,制作 PowerPoint 演示文稿来向客户展示。
所以,你需要的是一个极其丰富的环境,它能真实地模拟一个销售人员的整个工作世界,就像模拟你的整个世界一样。
包括你桌面上的所有东西,未来甚至还包括你桌面之外的一切。比如,你的日历,你可能需要出差去见客户,然后你想模拟一场车祸的发生,你收到了通知,所以你需要提早一点出发。这些都是我们希望在极其丰富的强化学习环境中建模的元素。
那么问题是,你如何生成所有注入到这个环境中的数据?比如,你需要生成数千条 Slack 消息、数百封电子邮件,并且要确保它们之间彼此逻辑一致。
回到我那个车祸的例子,你还要确保环境中的时间是流动的,并且某些外部事件会发生。你如何做到这一切?而且,还要以一种有趣、有创意、同时又真实且不互相矛盾的方式实现。要确保这些环境内容丰富、有创造性,能让模型从中学习到有价值的东西,这背后需要大量的思考。所以,是的,创建这些环境需要大量的工具和相当高的复杂性。
主持人: 这种模拟环境的复杂性,有上限吗?还是说越真实、越复杂越好?
Edwin Chen: 我认为没有上限。归根结底,你希望获得尽可能多的多样性和丰富性,因为环境越丰富,模型能学到的就越多。时间跨度越长,模型能学习和改进的就越多。所以我认为这里的上限几乎是无限的。
主持人: 预测一下未来 5-10 年,哪种数据需求增长会最快?
Edwin Chen: 我认为会是以上所有。我不认为单靠强化学习环境就足够了,因为这些环境中的轨迹通常非常丰富且漫长,所以很难想象一个单一的奖励信号就能涵盖所有情况。
事实上,即使在今天,我们也常常从多个奖励信号的角度来思考,而不是单一奖励。一个单一的信号可能不够丰富,无法捕捉到模型为解决某个极其复杂的目标所付出的全部努力。所以我认为,未来可能会是所有这些的结合。
主持人: 合成数据被很多人视为威胁,你怎么看它和人类数据的关系?
Edwin Chen: 我认为人们高估了合成数据的作用。
现在有很多模型在合成数据上进行了大量训练,但这意味着它们只擅长解决非常学术的、基准风格的问题,而在现实世界的用例中表现得很糟糕。
合成数据使得模型善于解决合成问题,而不是实际问题。
我们有很多客户告诉我们,他们花了一年时间在合成数据上训练模型,现在才意识到所有的问题,并花了几个月的时间来清理这些数据。
对他们来说,我们生成的几千条高质量人类数据,其价值超过了一千万条合成数据。
本质上,模型会在合成数据创造的狭窄相似性范围内崩溃,它无法为模型提供所需的多样性和泛化能力。
此外,模型会犯一些人类永远不会犯的独特错误。比如,一个 2025 年的前沿模型,在回复中会随机输出俄语和印地语字符,这种错误对任何一个二年级学生来说都是显而易见的,但模型却不知道。
因此,你总是需要这种来自人类的外部价值体系作为一种保障措施,以确保模型正常运行。
四、大模型竞技场是对模型评测的误导
主持人: 如果未来模型的能力全面超越人类,人类数据还有价值吗?会不会被合成数据取代?
Edwin Chen: 我认为人类反馈永远不会过时。
首先,即使在今天,人们也常常高估了合成数据的作用。我认为合成数据确实非常有用,我们自己就大量使用它来补充人类的工作,就像我之前说的,有很多琐碎的工作不值得花费人力。
但我们经常发现,很多时候客户会来找我们说:“过去六个月我们一直在试验合成数据,生成了一两千万条。但我们最终发现,99%的数据都没用。我们现在正试图筛选出那有用的 5%,但我们实际上准备扔掉其中的 900 多万条。”他们常常会发现,甚至仅仅一千条高质量的人类数据,其价值远超那上千万个合成数据点。
第二点是,有时候模型需要一个外部信号。模型的思维方式与人类截然不同,所以你必须时刻确保它们与你真正想要的目标保持一致。
我认为对人工智能的一大祸害是大语言模型的竞技场 (arena) 模式。
我认为目前人们常常在错误的优化目标上训练模型。你应该这样理解大语言模型竞技场:人们输入提示词,得到两个回答,然后花 5 到 10 秒钟看一下,就选那个看起来更好的。他们不评估模型是否出现幻觉,不评估事实准确性,也不评估是否遵循了指令,他们纯粹是凭感觉选,觉得“这个看起来更好,因为它排版好,有很多表情符号,看起来更令人印象深刻”。
人们就这样基于主观感受来训练模型,却没意识到其后果。模型本身并不知道它的真正目标是什么,所以你需要一个外部的质量信号来告诉它正确的优化目标应该是什么。如果没有这个信号,模型就会走向各种疯狂的方向。就像你可能看到过一些长文本模型的表现一样,它们会走向各种疯狂、毫无意义的方向,所以你需要这些外部的评估者。
主持人: 给当前 AI 发展的瓶颈排个序:算力、算法、数据质量,哪个最紧急?
Edwin Chen: 数据质量绝对排在第一位,其次是计算能力,然后才是算法。
我根本不相信你可以仅仅通过投入更多计算能力来解决问题,因为如果没有高质量的数据来训练,或者没有正确的目标和评估指标,你就会陷入一种看到虚假进步的陷阱。
我们经常听到一些团队说,在使用我们的产品之前,他们花了六个月甚至一年时间训练模型,指标不断上升,但后来才意识到他们的训练和评估数据都很糟糕。
他们看到的所有进步实际上完全是误导性的,他们的模型甚至比开始时还要糟糕。我们在 LM Arena 上经常看到这种情况,它基本上就是一个点击诱饵。
人们投票给看起来更好的回复,但根本不花时间去核实事实。一个回复可能完全是幻觉,但因为它有表情符号和加粗的单词,人们就会觉得它更好。
我们发现,在这个领域提高排名的最简单方法就是让你的模型回复更长。很多公司都在不知不觉中这样做,他们添加越来越多的表情符号和格式,看到模型在排行榜上攀升,以为取得了进步,而实际上他们只是在训练模型制作更好的点击诱饵。
他们可能在六个月或一年后才最终意识到这一点,就像你在行业里可能看到的一些情况一样,但这基本上意味着他们在过去六个月里毫无进展。
我认为,除了大语言模型竞技场,你还有各种学术基准测试,它们与现实世界完全脱节。很多团队专注于提升这些 SAT 风格的分数,而不是在真实世界中取得进展。我举个例子,如果你去看 IF EVAL 的基准测试,它用来检查模型能力的一些指令是这样的:“你能写一篇关于亚伯拉罕·林肯的文章吗?每次提到亚伯拉罕·林肯这个词时,确保其中五个字母大写,其他字母小写。” 这算什么?
注:IF EVAL,全称为“指令遵循评估” (instruction following eval) ,用于评估大模型是否能准确遵循复杂或特殊指令的基准测试。
有时候,客户会跟我们说:“我们需要提高在 IF EVAL 上的分数。” 这意味着,你看到这些公司和研究人员,他们不专注于现实世界的进步,而是在为这些愚蠢的 SAT 式基准测试进行优化。
五、高质量数据的终极标准是主观创造力
主持人: Meta 最近和 Scale AI 的合作,对你们有什么影响?
Edwin Chen: 我们已经是这个领域的头号玩家了。这对我们是有利的,因为确实还有一些传统的团队在使用 Scale AI,他们只是不知道我们,因为我们过去一直很低调。
我们一直相信的一件事是,当人们使用这些低质量的数据解决方案时,他们可能是因为在人类数据上‘栽过跟头’。他们有了负面体验后,就不想再使用人类数据了。于是他们会去尝试其他方法,而那些方法老实说要慢得多,而且优化目标也不正确。所以我认为这整体上损害了模型的进步。因此,我们越是能让所有这些前沿模型实验室使用高质量数据,对整个行业来说就越有益。所以我认为,总的来说,这是一件好事。
主持人: 如果要赌一匹黑马,你觉得谁能追上 OpenAI、Anthropic 和 DeepMind?
Edwin Chen : 我会赌 xAI。我认为他们充满渴望且使命驱动,这给了他们很多非常独特的优势。
主持人: 未来大模型市场,你觉得是三足鼎立还是群雄并起?开源模型有机会吗?
Edwin Chen: 是的,我认为随着时间的推移,会有越来越多的前沿模型出现,因为我并不认为模型会成为同质化的商品。
过去几年里,一件令人惊讶的事情是,你看到所有模型都有自己的侧重点,这赋予了它们独特的优势。
例如,Anthropic 在编程和企业应用方面显然非常出色。而 OpenAI 因为 ChatGPT 有着强大的消费者导向——我个人非常喜欢它的模型个性。而 Grok 模型则有独特的言论边界和行为风格。
这就像每家公司都有一套自己关心的不同原则。有些人永远不会做某件事,而另一些人则完全愿意。不同模型在技能类型上会有许多不同的层面和个性。当然,最终通用人工智能 (AGI) 或许会涵盖这一切,但在此期间,你必须有所侧重,因为一家公司能专注的方向是有限的。所以我认为这将导致所有模型提供商拥有不同的优势。
我的意思是,今天我们已经看到很多人,包括我,会根据我们正在做的事情在不同模型之间切换。所以我认为未来这种情况会更加普遍,因为人们会在生活的更多方面使用模型,无论是个人生活还是职业生活。
主持人 : 所有人都想要高质量数据。在你们看来,到底什么才算“高质量”?你们又是怎么生产的?
Edwin Chen: 比方说,你想训练模型写一首关于月亮的八行诗。
大多数公司的做法是,从 Craigslist 或通过招聘机构雇一堆人,让他们写诗。然后他们衡量质量的方式是:这是一首诗吗?有八行吗?包含“月亮”这个词吗?如果都满足,他们就觉得:“好的,这三个框都打勾了,所以这肯定是一首好诗,因为它遵循了所有指令。” (注:Craigslist 是美国一个著名的大型分类广告网站,用户可以在上面发布和查找招聘、租房、二手交易等各类信息)
但你仔细想想,现实是你得到的是一些糟糕透顶的诗。它们确实是八行,也提到了月亮,但感觉就像是高中生写的。于是其他公司会想:“好吧,Craigslist 上的人没有写诗经验,那我就雇一堆有英语文学博士学位的人。”但这同样糟糕,因为很多博士其实并不是好的作家或诗人。
你想想海明威这些人,他们肯定没有博士学位,我甚至觉得他们大学都没读完。我想说的一点是,我毕业于 MIT,我认识的很多 MIT 计算机科学专业的毕业生,他们的编程水平很糟糕。所以,我们思考质量的方式完全不同。
我们想要的不是那种满足条条框框要求、用了一些复杂词汇的诗歌。我们想要的是诺贝尔奖得主会写的那种诗。你真正需要的是认识到,诗歌其实是非常主观和丰富的。
可能一首是关于月光洒在水面上的俳句,另一首采用了抑扬格韵律,还有一首则专注于月亮在夜晚升起时的情感。你真正想要捕捉的是,写一首关于月亮的诗有成千上万种方式,没有唯一的正确答案。每一种方式都能让你对语言、意象和诗歌有不同的洞见。而且你想想,这不仅仅是诗歌,数学也是如此,证明一个定理可能有上千种方法。
所以我认为区别在于,当你以错误的方式思考质量时,你得到的是同质化的数据,它优化的目标是评估者之间的一致性,以及满足清单上的条条框框。
但我们试图教给所有客户的一件事是,高质量数据真正拥抱的是人类的智慧和创造力。当你用这种更丰富的数据来训练模型时,它们不仅是学会遵循指令,它们真正学到的是那些更深层次的模式,是那些让语言和世界变得有意义的东西。很多公司只是用人海战术来解决问题,并认为这样就能得到好数据。
我认为真的需要从第一性原理出发,去思考质量的真正含义;需要大量的技术来识别出,哪些是绝妙的诗歌,哪些是有创意的数学解法,哪些是设计优美、玩起来有趣的网页应用和游戏,而哪些又是体验糟糕的。你真的需要构建大量技术,并以正确的方式思考质量。否则,你基本上只是在规模化地生产平庸。
主持人: 所以你们对“高质量”的定义,是需要在每个专业领域和客户一起共建的吗?
Edwin Chen: 是的,我们有整体性的质量原则,但不同领域通常会有差异,所以是两者的结合。
主持人: 既然流行的基准测试和竞技场排名都容易被操纵,那用什么来真正评估模型的好坏?
Edwin Chen: 我认为所有前沿模型实验室都视为黄金标准的替代方案,就是人类评估。真正到位的人类评估,需要花时间仔细审阅回答,进行事实核查,看它是否遵循了所有指令。你需要有良好品味的人来判断写作质量。这种花大量时间去做评估的概念,而不是只凭五秒钟的感觉,我认为真的非常重要。因为如果你不这样做,你基本上就是在训练你的模型去生成类似“点击诱饵”的内容。
主持人: 所以 Surge 会不会尝试把这种深度的人类评估做成标准化的产品,让更多人用上?
Edwin Chen : 在内部,我们目前确实做了大量工作,与所有前沿模型实验室合作,帮助他们理解自己的模型。我们持续评估它们,不断为他们找出需要改进的薄弱环节。目前,这些工作很多是内部的,但我们确实想做的一件事是,也开始进行外部的推广,帮助大家了解,这些不同模型有不同的能力:这个模型在编程上更强,那个模型在遵循指令上更好,而某些模型实际上幻觉很多,所以你不能太相信它们。我们希望开始做更多外部工作,来帮助整个行业更好地理解这一点。
六、AI 更可能让 10X 工程师变成 100X 工程师
主持人: 你在创立 Surge 之前曾告诉我,此前你在谷歌、Facebook 和 Twitter 工作时,感觉 90%的人都在解决无用的问题。你从中学到了什么?
Edwin Chen: 是的。对我来说,最大的教训是,你可以用 10%的资源和 10%的人力,建立一家完全不同的公司,但你的发展速度仍然可以快 10 倍,并且能生产出好 10 倍的产品。
想象一下,如果你能神奇地剔除那 90%不致力于解决有趣问题的人,会发生什么?
首先,如果你的公司规模没有那么庞大,你就不需要雇佣那么多人。
因此,你花在面试上的时间会更少,花在会议上的时间会更少,花在给人们同步信息上的时间也会更少。
当信息更加集中时,每个人都能更好地了解公司全局,因为没有那么多杂乱的信息掩盖真正重要的事情。 而且,由于人才密度更高、团队规模更小,沟通自然更顺畅,迭代速度更快,好的想法也能更快地传播开来。
主持人: 在大公司里,人人觉得自己的项目最重要,导致优先级混乱。你是如何在公司内部确定优先事项,并判断哪些事情重要、哪些不重要的?
Edwin Chen: 是的,我认为保持小规模的一大优势就在于此。
当你公司规模较小时,我和公司里的其他人都能更清晰地把握客户问题的本质,以及每个人正在做的事情。
在那些大公司里,很多时候你设定的优先级、你正在构建的东西,都只是为了给别人留下深刻印象。
比如,“我需要给我的副总裁留下深刻印象,我需要给我的经理留下深刻印象,我需要给我的主管留下深刻印象,这样我才能得到晋升。”
你构建或优先考虑某些事情,并不是因为它们真正对最终客户有利,或者对最终产品有好处。
很多时候,优先级是这样的:
-
我需要改进内部工具。
-
为什么要改进内部工具?
-
它能让员工的生产力提高 5%。
-
我为什么希望他们的生产力提高 5%?
-
因为他们花了 10%到 20%的时间在面试上。
-
他们为什么要面试?
-
因为他们为了增长而增长。
这就导致了一个永无止境的循环,你的许多优先事项都与最终客户和最终产品脱节,它们几乎只是为了维持公司内部这台巨大机器的运转而存在。
主持人: 现在很流行一个说法:未来会出现一人创建的十亿美元公司。你同意吗?
Edwin Chen: 是的,我绝对相信有一天这样的公司会出现。
我一直相信存在 10 倍工程师,甚至 100 倍工程师。
现在已经有很多单人创业公司的收入达到了 1000 万美元。
因此,如果人工智能能够带来所有这些效率提升,我完全可以看到这个数字再增长 100 倍,从而诞生一家价值 10 亿美元的单人公司。
主持人: 100X 工程师真的存在吗?他们和普通工程师有什么不一样?
Edwin Chen: 我的意思是,即使在今天,你也看到我们比一些同行公司效率高得多。
因此,仅凭这一点,你就已经可以看到 10 倍或 100 倍工程师的存在。如果你把它分解开来,就会发现有些人就是比其他人编码快两到三倍,他们的想法好两到三倍,他们付出的努力多两到三倍,他们参加的会议少两到三倍,他们的想法是别人根本想不到的。 所以如果你把所有这些因素相乘,你会发现 2 到 3 倍的数字实际上往往是低估了。
我认识的一些人,他们的编码效率确实比其他人高出五倍。现在,再加上你从 AI 中获得的所有效率提升,你把所有这些数字相乘,是的,你就能得到 100。
主持人: AI 是让 10X 工程师变成 100X,还是让 1X 工程师变成 10X?
Edwin Chen: 我倾向于认为,顶尖的人才脑子里有很多想法,只是没有时间去实现。
如果你认为今天的人工智能,它不一定能提出最伟大的想法——虽然有时可以——但它主要做的是消除你日常工作中的许多苦差事和常规编码。
因此,如果你不必花时间做那些苦差事,而脑子里又有无数的想法,AI 会帮助你把它们付诸实践。
所以我确实认为,这在某种程度上更有利于那些已经是 10 倍工程师的人。
本文来自微信公众号: Founder Park ,编译:Founder Park