Turing CEO : Scale.AI、Surge、Turing、Mercor :数据标注赛道谁能笑到最后?谁将黯然离场? | 数据标注的收入是真实营收还是 GMV? | 为何 99% 的知识型工作将不复存在?后续将如何演变? | 为何在 AI 时代,SaaS 已走向终结? 89

原文引用:
这里是《20VC》播客,我是主持人哈里·斯特宾斯,今天的节目我超级期待。我对数据标注市场一直很着迷——Mercor、Surge、Turing(图灵)、Invisible这些公司,据我所知有七家年经常性收入超过1亿美元。它们所有人的收入中,超50%都来自两个客户。而且他们对“收入”这个词的使用有时和GMV(商品交易总额)的界限非常模糊。坦白说,这里面有太多疑问了。今天,我将对这个赛道的领军企业之一的掌门人毫不留情地提问——乔纳森·悉达多,他是Turing的创始人兼CEO。他将公司规模扩大到年经常性收入超3.5亿美元,期间融资2.25亿美元,如今已实现盈利。这是一场精彩的对话,正如我所说,尖锐问题都得到了解答。
市场空白:
https://www.thetwentyminutevc.com/jonathan-siddharth
原文总结:
{"highlight":[{"answer":"我认为人才市场本质上是将人才与某种机会匹配的平台。所以Turing不是人才市场。我们正在做的是训练超级智能。我们与八大前沿实验室中的七家都有合作。要实现超级智能,需要研究、算力和数据。研究方面,OpenAI、Anthropic、DeepMind等实验室都在内部进行;算力方面,我们要感谢黄仁勋(Jensen),或许还有英伟达(NVIDIA);而数据支柱,则由Turing支撑。数据领域在过去几年发生了重大转变。几年前,模型还不够智能。随着模型越来越强大,用于改进它们的数据也变得更难生成——因为需要更复杂的数据来提升模型。不再是像猫图片那样简单明了的内容,而是需要特定垂直领域的专业人员参与任务和工作流。没错,数据正从简单转向复杂。以编程为例,几年前,外包人员能生成的数据集可能是“写个Python程序给数字排序”;而现在,可能需要“开发一个连接医生和患者的B2B marketplace应用,分别用Kotlin/Java开发Android版、Swift开发iOS版,并用Next.js等技术开发网页版”。这就是复杂性的提升。所以数据从简单转向复杂,不再是低技能或中等技能外包人员能生成的了,每个领域都需要专家级人才。第二个转变是:我们从教AI“考试”转向教AI“干活”。不再是让AI通过律师资格考试,而是让它能真正胜任律师的工作——能当隐私律师、合规律师,还是律师助理?让AI擅长做有经济价值的工作,这才是转变。第三个转变是:从聊天机器人到智能体(agents)。我们从ChatGPT开始,提问、得到答案,这很棒。但现在,模型正变得具备“智能体能力”——能在真实商业场景中执行复杂的多步骤工作流。而训练这种智能体所需的数据,完全不一样。","question":"我想先从定义说起,因为大家都觉得这些公司是人才市场,但从业者又都否认这一点。你如何定义Turing?为什么我们现在讨论的不再是人才市场了?"},{"answer":"这会是门好生意。我们还在早期,但增长很快。我们有个独特优势:因为给所有前沿实验室生成数据,所以能提前窥见未来。我看到的未来是:所有知识工作都将自动化。只要人类的工作是对着电脑分析屏幕、用各种工具、敲键盘鼠标,那迟早会被自动化。未来十年,这些“电脑操作智能体”会不断进化,背后是30万亿美元的数字知识工作市场。","question":"我好友Scale的罗里·奥德里斯科尔(你可能认识,很棒的投资人)总说:AI的价值创造根本上取决于一个问题——预算会不会从人力转向AI技术?如果会,你说的30万亿美元就是我们的;如果不会,那AI只是稍微扩大软件市场,撑不起现在的估值和投资热度。从你的观察,现在有没有哪个领域已经完全实现了从人力预算到AI技术预算的转移?"},{"answer":"护城河会是数据驱动的反馈循环。比如谷歌搜索曾经的领先优势,就来自用户使用产生的反馈循环——更多人用谷歌,就有更具代表性的查询数据、点击流数据,算法就能更快改进。PageRank的原理大家都知道,人才也在公司间流动,但谷歌的优势在于数据反馈循环。企业应用也是如此:谁先为特定工作流/角色/职能部署定制微调模型和智能体,谁就能启动飞轮——先发现模型失效的地方,用这些数据找Turing生成补充数据,不断改进。这就是“模型要接触现实”的重要性——消费端模型已经接触现实,但企业端还没有,而改进的唯一途径就是部署。","question":"我也觉得“全民写诗”有点不现实。既然技术不再是护城河,那什么是?我之前采访Base44的创始人,他说明年99%的代码会由AI编写。技术不再是护城河的世界里,护城河是什么?"}, {"answer":"我不认为存在AI泡沫。如今的模型已经非常强大了。GPT-5简直太棒了。我不知道人们在谈论什么——我知道有一些传言,但我觉得我们已经对这种“魔力”习以为常了。首先,这些模型现在已经极其强大,而且它们只会不断进步。无论是Gemini Pro、Grok还是Claude模型,都是如此出色。目前存在一种“模型能力悬置”现象——模型的全部潜力尚未被人类完全释放。所以,我不认为有AI泡沫,只是存在一些成长阵痛。什么是成长阵痛?我知道很多人引用麻省理工学院的报告说95%的试点项目失败了。但由于我们从事的是在企业中部署通用人工智能(AGI)的业务,我可以告诉你我认为失败的原因——这正是成长阵痛之一。第一步,大多数企业需要整理数据结构,完成“最初一公里”的准备工作。其次,需要为模型构建合适的智能主体架构——也就是恰当的提示工程、上下文设计,以及教会模型调用内部工具等。所有这些都必须融入模型中。你还需要完善的评估体系,以及为部分自主性设计的工作流程。安德烈·卡帕西(Andre Karpathy)曾阐述过为什么Cursor代码编辑器如此成功——因为它并非为完全自主设计,而是为部分自主性设计,让人类能与AI协作完成特定任务。因此,每个角色、每个工作流程都需要构建专属的“特定领域光标工具(cursor for X)”,帮助人类更轻松地与模型协作。","question":"你认为AI泡沫会在多大程度上出现——即AI无法立即带来收入并经历冷却期?"},{"answer":"市场会奖励那些具备研究深度的参与者,因为AI研究的步伐非常快。比如,自从去年12月O1模型和今年1月深度求索(DeepSeek)模型推出后,强化学习环境在过去12个月里迅猛发展。所以现在除了模仿学习,我们还进入了强化学习阶段。一年后,情况可能又会完全不同。因此,我认为市场会奖励拥有研究基因的公司,以及那些行动迅速、适应能力强的公司——因为当你服务于……你认为这是垄断市场还是会有很多赢家?我认为会有少数赢家。对于实验室来说,拥有几个合作伙伴有助于增强弹性,我想这也是为了保持价格竞争力。在 robotics(机器人技术)和具身智能(embodied AI)领域,我们仍处于非常早期的阶段。在Turing,我们也在扩大机器人领域的数据生成规模。但模型还需要大量尚未见过的数据,目前存在很大缺口。我完全可以想象一些如今不存在的新公司会崛起。","question":"在我们进入快速问答环节之前,我必须问一下,十年后你的市场和数据供应市场会是什么样子?我总是试着思考市场构成和动态。是赢者通吃?高度碎片化?还是三四家公司主导?会是什么格局?"},{"answer":"可能会投资机器人技术或具身智能领域。垂直领域的业务——比如我们正在大规模扩展为不同垂直领域生成数据,但我不认为这是巨大的空白市场。不过我认为在机器人技术方面,大家都还处于相对早期的阶段。机器人技术领域非常广阔,可能会有很多有趣的机会。我看待这个领域的方式是从三个维度出发:第一个维度是模型中融入的智能类型,可能涉及编码、STEM(科学、技术、工程、数学)、销售/营销/软件工程等功能性专业知识,或医疗/法律/金融等垂直领域专业知识。第二个维度是模态,包括音频、视频、图像、计算机应用等多模态。第三个维度是多语言能力。第四个维度是不同的学习范式,比如模仿学习、强化学习、预训练(无监督学习)。所有这些都可能需要构建不同的平台——我们已经调整了平台以适应模仿学习、强化学习和多模态需求。因此,在这个矩阵中,会涌现各种新机会。而且我只提到了数字智能,还没涉及物理智能。所以我认为机器人技术领域潜力巨大——家用机器人所需的数据与工厂机器人完全不同,人形机器人和非人形机器人也有差异。","question":"如果你要投资你所在领域的公司,你会投资哪里?"} ]}
原文:

评论

登录后发表评论
×