原文总结:
{"highlight":[{"answer":"从宏观层面来看,这两个概念相当接近。但在如何构建超级智能以及其可能呈现的形态上,或许存在不同的思路。我认为,从一个角度而言,有一种学术化的视角——在某种意义上、在一定程度上,超级智能其实已经实现了。比如AlphaGo就是一个超级智能系统,当时还有其他一些在特定狭窄领域达到超级智能水平的系统。你可以设定这样一个目标:将自己关在学术实验室(或者更准确地说,是与产品和客户脱节的工业实验室)里,全力以赴攻克所有现有基准,进而构建超级智能,这是一种方法。而另一种方法是更具体地思考:超级智能究竟是什么?它将如何部署?在人们手中实际会是什么样子?然后从这些问题出发反向推导。我认为这种方法更侧重于产品与研究的协同设计。这种方法的好处在于,你是在针对实际问题进行优化。但相应地,你必须更加专注,因为产品在某种程度上定义了你希望从系统中挖掘出的能力。在扩展到其他产品类别和能力之前,你必须从高度聚焦开始。所以我想说,有些公司是先构建超级智能,纯粹做研究实验室,等建成后再考虑产品是什么;而另一些公司则是将产品与研究协同设计,在我所谓的“ASI完备”(人工超级智能完备)类别中构建强大系统,这两种方式处于一个光谱的两端。你可能会选择一个过小的类别,以至于无法孕育出超级智能。但只要你选择的类别足够大,达到“ASI完备”级别——这也是我们Reflection采取的方法——那么专注于协同设计产品与研究就会更有意义。","question":"好的,能否先介绍一下,您曾说公司的使命是构建超智能自主系统。我们之前也讨论过为何当下这个时代具备实现的可能。那么,这与单纯构建超级智能——如今一个更为流行的宏伟目标——有何不同之处呢?"},{"answer":"Asimov是目前全球最优秀的代码研究智能体。它是一款理解型智能体,旨在为大型代码库提供深度研究体验。开发者使用它时,应该会感觉仿佛有一位资深首席工程师随时待命,这位“工程师”对所在组织有着深刻的理解。这与现有的主要聚焦于代码生成的工具截然不同。诚然,几乎所有编码工具都兼具代码生成和理解功能,但我们花了大量时间与客户沟通,想弄清楚为什么企业级编码工具对实际生产力的影响——正如Meter报告所显示的,与工程领导者交流时听到的情况非常接近——往往低于预期,有时甚至是负面或微不足道的。这不仅限于企业,成长阶段的初创公司或任何拥有足够复杂代码库和大型团队的 engineering 组织(以至于没有哪个工程师能完全掌握整个代码库)都会面临这个问题。Reflection自身也是如此,我们一直在使用自己的产品,因为训练大型语言模型非常复杂,既有语言模型代码库,也有产品代码库,知识分散在工程师之间,不仅存在于代码库中,还存在于聊天记录、项目管理工具和其他知识载体中。因此,我们实际上正在构建的是组织的“全知神谕”——你可以随时提出任何复杂问题,它都能给出相当于首席工程师水平的答案;未来随着产品扩展到其他领域,它还能给出组织中最资深人员的理解。当然,一旦解决了理解问题,就能催生出更可靠的智能体来代为执行任务。但我认为当今世界的焦点是80%的“行动”(代码生成)和20%的“理解”,而实际问题恰恰相反——观察组织中工程师的工作,80%的时间都花在理解复杂系统和与同事协作上。而协作通常就是有人向他人请教自己不了解的系统问题。我认为这正是阻碍超级智能在组织中发挥作用的核心问题——即理解能力,以及从多种信息来源和团队中汲取知识的能力。一旦具备了这种能力,行动部分——我不想说变得微不足道,但确实会容易得多。对我而言,似乎只有20%的问题在于教智能体如何行动,而这部分已基本解决。","question":"过去18个月,整个领域显然更聚焦于深度强化学习。本周你们推出了重要产品Asimov,能否介绍一下它是什么?"},{"answer":"这正是创业公司的意义所在。作为初创公司,要想在拥有顶尖团队的大型 incumbent 面前立足,唯一的优势就是聚焦和针对目标的执行速度。我认为,如果你想进入编码这个可以说是AI领域最大的赛道,你也需要具备相应的人才。但如果你没有数十亿美元用于预训练模型,唯一的取胜之道就是高度聚焦。在 incumbent 实验室里,开发大型模型时,你只是成百上千个评估项目中的一个。比如去年发布的01论文,如果你看看论文中大多数人的工作分布,主要就是评估。你要和很多人一起做各种评估,精力会比较分散。这样能得到通用的结果,但深度不够。而作为一家产品聚焦、目标明确的初创公司,评估基本上就相当于创业圈常说的——保罗·格雷厄姆(Paul Graham)会告诉你要花一半时间开发产品,一半时间与客户交流。在AI时代,我认为就是根据客户的反馈来制定评估标准。你必须与客户合作,了解他们试图解决的问题、想要解答的通用疑问。我们已经发现了一些具体痛点,比如新员工入职——大公司里,工程师入职通常需要数月时间。那么如何设计评估标准,将入职时间从数月缩短到几周?只需让他们所有问题都能问Asimov,就能加速入职。除了结合客户反馈,关键还在于针对这些反馈进行科学的评估设计。比如,客户有入职等需求,为了提供良好的体验,系统需要具备哪些能力?如果客户要入职一个有1亿token的庞大代码库,那就需要解决如何对其进行推理的问题,也就是长上下文推理能力。你需要观察智能体为何无法满足用户需求,然后从用户需求反向推导系统需要具备的能力。重要的是,你要能够调整系统的各个部分——从产品功能到智能体设计再到模型训练,以构建最佳整体系统。如果你只能调整产品和智能体设计,而无法触及模型训练,那你的能力就会非常有限,因为你受制于第三方通用模型的能力。","question":"关于如何从技术或哲学层面进行评估以确保SaaS性能卓越,您能分享些什么吗?"}]}