ReflectionAI CEO：打造全知型强化学习预言机Asimov |‌ 2025年10月完成了英伟达领投8亿美元的共20亿美元‌融资，估值达80亿美元‌，24年3月刚刚成立 | 构建通用超人类智能体，评估体系的研发与智能体的记忆范围设定 | 强化学习规模化应用难题时面临的挑战

至少在学术层面，超级智能早已成为现实。但米沙・拉斯金认为，迈向人工超级智能（简称 ASI）的下一步，应当更聚焦用户与实际问题。 ReflectionAI CEO米沙・拉斯金受邀介绍了其团队基于强化学习（RL）技术打造的全新代码理解智能体 ——Asimov。米沙围绕基于客户需求开发工具、设计人工智能体这一核心展开分享，阐释了该理念如何影响评估体系的研发与智能体的记忆范围设定。还探讨了攻克强化学习规模化应用难题时面临的挑战、人工超级智能的未来发展图景，以及谷歌 “未收购” Windsurf 公司背后的深层含义。《No Priors》

{"highlight":[{"answer":"从宏观层面来看，这两个概念相当接近。但在如何构建超级智能以及其可能呈现的形态上，或许存在不同的思路。我认为，从一个角度而言，有一种学术化的视角——在某种意义上、在一定程度上，超级智能其实已经实现了。比如AlphaGo就是一个超级智能系统，当时还有其他一些在特定狭窄领域达到超级智能水平的系统。你可以设定这样一个目标：将自己关在学术实验室（或者更准确地说，是与产品和客户脱节的工业实验室）里，全力以赴攻克所有现有基准，进而构建超级智能，这是一种方法。而另一种方法是更具体地思考：超级智能究竟是什么？它将如何部署？在人们手中实际会是什么样子？然后从这些问题出发反向推导。我认为这种方法更侧重于产品与研究的协同设计。这种方法的好处在于，你是在针对实际问题进行优化。但相应地，你必须更加专注，因为产品在某种程度上定义了你希望从系统中挖掘出的能力。在扩展到其他产品类别和能力之前，你必须从高度聚焦开始。所以我想说，有些公司是先构建超级智能，纯粹做研究实验室，等建成后再考虑产品是什么；而另一些公司则是将产品与研究协同设计，在我所谓的“ASI完备”（人工超级智能完备）类别中构建强大系统，这两种方式处于一个光谱的两端。你可能会选择一个过小的类别，以至于无法孕育出超级智能。但只要你选择的类别足够大，达到“ASI完备”级别——这也是我们Reflection采取的方法——那么专注于协同设计产品与研究就会更有意义。","question":"好的，能否先介绍一下，您曾说公司的使命是构建超智能自主系统。我们之前也讨论过为何当下这个时代具备实现的可能。那么，这与单纯构建超级智能——如今一个更为流行的宏伟目标——有何不同之处呢？"},{"answer":"Asimov是目前全球最优秀的代码研究智能体。它是一款理解型智能体，旨在为大型代码库提供深度研究体验。开发者使用它时，应该会感觉仿佛有一位资深首席工程师随时待命，这位“工程师”对所在组织有着深刻的理解。这与现有的主要聚焦于代码生成的工具截然不同。诚然，几乎所有编码工具都兼具代码生成和理解功能，但我们花了大量时间与客户沟通，想弄清楚为什么企业级编码工具对实际生产力的影响——正如Meter报告所显示的，与工程领导者交流时听到的情况非常接近——往往低于预期，有时甚至是负面或微不足道的。这不仅限于企业，成长阶段的初创公司或任何拥有足够复杂代码库和大型团队的 engineering 组织（以至于没有哪个工程师能完全掌握整个代码库）都会面临这个问题。Reflection自身也是如此，我们一直在使用自己的产品，因为训练大型语言模型非常复杂，既有语言模型代码库，也有产品代码库，知识分散在工程师之间，不仅存在于代码库中，还存在于聊天记录、项目管理工具和其他知识载体中。因此，我们实际上正在构建的是组织的“全知神谕”——你可以随时提出任何复杂问题，它都能给出相当于首席工程师水平的答案；未来随着产品扩展到其他领域，它还能给出组织中最资深人员的理解。当然，一旦解决了理解问题，就能催生出更可靠的智能体来代为执行任务。但我认为当今世界的焦点是80%的“行动”（代码生成）和20%的“理解”，而实际问题恰恰相反——观察组织中工程师的工作，80%的时间都花在理解复杂系统和与同事协作上。而协作通常就是有人向他人请教自己不了解的系统问题。我认为这正是阻碍超级智能在组织中发挥作用的核心问题——即理解能力，以及从多种信息来源和团队中汲取知识的能力。一旦具备了这种能力，行动部分——我不想说变得微不足道，但确实会容易得多。对我而言，似乎只有20%的问题在于教智能体如何行动，而这部分已基本解决。","question":"过去18个月，整个领域显然更聚焦于深度强化学习。本周你们推出了重要产品Asimov，能否介绍一下它是什么？"},{"answer":"这正是创业公司的意义所在。作为初创公司，要想在拥有顶尖团队的大型 incumbent 面前立足，唯一的优势就是聚焦和针对目标的执行速度。我认为，如果你想进入编码这个可以说是AI领域最大的赛道，你也需要具备相应的人才。但如果你没有数十亿美元用于预训练模型，唯一的取胜之道就是高度聚焦。在 incumbent 实验室里，开发大型模型时，你只是成百上千个评估项目中的一个。比如去年发布的01论文，如果你看看论文中大多数人的工作分布，主要就是评估。你要和很多人一起做各种评估，精力会比较分散。这样能得到通用的结果，但深度不够。而作为一家产品聚焦、目标明确的初创公司，评估基本上就相当于创业圈常说的——保罗·格雷厄姆（Paul Graham）会告诉你要花一半时间开发产品，一半时间与客户交流。在AI时代，我认为就是根据客户的反馈来制定评估标准。你必须与客户合作，了解他们试图解决的问题、想要解答的通用疑问。我们已经发现了一些具体痛点，比如新员工入职——大公司里，工程师入职通常需要数月时间。那么如何设计评估标准，将入职时间从数月缩短到几周？只需让他们所有问题都能问Asimov，就能加速入职。除了结合客户反馈，关键还在于针对这些反馈进行科学的评估设计。比如，客户有入职等需求，为了提供良好的体验，系统需要具备哪些能力？如果客户要入职一个有1亿token的庞大代码库，那就需要解决如何对其进行推理的问题，也就是长上下文推理能力。你需要观察智能体为何无法满足用户需求，然后从用户需求反向推导系统需要具备的能力。重要的是，你要能够调整系统的各个部分——从产品功能到智能体设计再到模型训练，以构建最佳整体系统。如果你只能调整产品和智能体设计，而无法触及模型训练，那你的能力就会非常有限，因为你受制于第三方通用模型的能力。","question":"关于如何从技术或哲学层面进行评估以确保SaaS性能卓越，您能分享些什么吗？"}]}

原文引用：

市场空白：

原文总结：

原文：

评论

分类列表

标签云