原文总结:
{"highlight":[{"answer":"我不是乌托邦主义者,所以我并不认为AI不会对就业或人类产生影响。事实上,我是一名人文主义者。我相信,无论是现在还是未来,AI所做的一切都取决于我们,取决于人类。因此,我坚信技术对人类而言是一种净积极因素。纵观漫长的文明进程,我认为从根本上来说,我们人类是一个善于创新的物种……从数千年前有文字记载到现在,人类一直在不断自我革新、革新工具,通过这些,我们让生活更美好,让工作更高效,构建了文明,而我坚信AI也是这其中的一部分。这就是我的乐观之源。但我认为每项技术都是一把双刃剑,如果我们作为一个物种、一个社会、一个社区以及个体不采取正确的行动,我们也可能搞砸这一切。","question":"你如何看待AI对人类的长期影响?"},{"answer":"对我来说,很难想象AI对所有人来说都是如此新鲜事物,因为我的整个职业生涯都在AI领域。有那么一部分的我,看到自己刚过少年时期就萌生的个人好奇心,如今已成为我们文明的变革力量,这让我感到非常满足。AI本质上是一种文明层面的技术。这段历程大约有30年,或者说20多年,这真的非常令人满足。那么,这一切是从何开始的呢?嗯,我甚至都不是第一代AI研究者。第一代AI研究者实际上可以追溯到20世纪五六十年代,而艾伦·图灵在20世纪40年代就超前地向人类提出了这个大胆的问题:‘会思考的机器存在吗?’当然,他对‘会思考的机器’这一概念有特定的测试方法,也就是对话式聊天机器人,按照他的标准,我们现在已经有了会思考的机器。但这只是一种轶事性的启发。AI领域真正起步于20世纪50年代,当时计算机科学家们聚集在一起,研究如何利用计算机程序和算法构建能够完成只有人类认知才能完成的任务的程序。那就是AI的开端。1956年的达特茅斯研讨会上,我们有了该领域的先驱,后来来到斯坦福的约翰·麦卡锡教授创造了‘人工智能’这个术语。在20世纪五六十年代、70年代和80年代,是AI探索的早期阶段,我们有了逻辑系统、专家系统,也开始了神经网络的早期探索。然后到了20世纪80年代末、90年代以及21世纪初,这大约20年的时间实际上是机器学习的开端,是计算机编程与统计学习的结合。这种结合为AI带来了一个极其关键的概念:纯基于规则的程序无法解释我们想象中计算机能够具备的大量认知能力。因此,我们必须让机器学习模式。一旦机器能够学习模式,它就有希望做更多事情。例如,如果你给它看三只猫,我们希望机器不仅仅能识别这三只猫,还能识别第四只、第五只、第六只以及所有其他的猫。这种学习能力是人类和其他动物的基本能力。我们这个领域意识到:‘我们需要机器学习。’这一直持续到21世纪初。我是在2000年正式进入AI领域的,那是我在加州理工学院开始攻读博士学位的时候。因此,我是第一代机器学习研究者之一,我们当时已经在研究机器学习的概念,尤其是神经网络。我记得我在加州理工学院的第一门课之一就是神经网络,但那门课学起来很痛苦。当时正值所谓的‘AI寒冬’中期,公众对此关注不多,资金也不充裕,但也有很多想法在流传。我认为,有两件事让我的职业生涯与现代AI的诞生紧密相连:一是我选择从视觉智能的视角看待人工智能,因为人类是高度视觉化的动物。我们稍后可以详细谈谈,但我们的很多智能都建立在视觉、感知、空间理解能力之上,而不仅仅是语言本身。我认为它们是互补的。因此,我选择研究视觉智能,在我的博士阶段和早期教学生涯中,我和我的学生们致力于一个核心目标问题——解决物体识别问题,因为它是感知世界的基石,对吧?我们在世界中进行解读、推理和互动时,或多或少都是在物体层面进行的。我们不会在分子层面与世界互动……有时会,但很少——例如,如果你想拿起一个茶壶,你不会说‘好吧,这个茶壶由一百片瓷器组成,让我来处理这一百片’。你会把它看作一个物体来互动。因此,物体识别非常重要。我是最早将其确定为核心目标问题的研究者之一,但我认为,作为AI的学生和研究者,我当时研究了包括神经网络、贝叶斯网络在内的各种数学模型,而一个突出的痛点是:这些模型没有数据进行训练。当时整个领域都在专注于这些模型,但我逐渐意识到,人类学习以及进化实际上是一个大数据学习过程。人类通过不断的大量经验来学习。从进化的角度看,动物通过体验世界而进化。因此,我和我的学生们推测,让AI焕发生机的一个被严重忽视的要素是大数据。于是,我们在2006年、2007年启动了ImageNet项目。我们当时非常有野心,想获取互联网上所有关于物体的图像数据。当然,当时的互联网比现在小得多,所以我觉得这个野心至少不算太疯狂。现在看来,认为几个研究生和一位教授就能做到这一点简直是痴人说梦,但我们确实做到了。我们精心整理了互联网上的1500万张图像,借鉴了其他研究者(如语言学家在WordNet上的研究——这是一种特定的词语词典编排方式)的成果,创建了包含22000个概念的分类体系,并将其整合到ImageNet中,开源给了研究社区。我们还举办了一年一度的ImageNet挑战赛,鼓励大家参与。我们继续进行自己的研究,但2012年是许多人认为的深度学习开端或现代AI诞生的时刻,因为由杰弗里·辛顿教授领导的多伦多研究团队参加了ImageNet挑战赛,他们使用ImageNet的大数据和两块NVIDIA GPU,成功创建了第一个神经网络算法——它虽然没有完全解决物体识别问题,但在解决该问题上取得了巨大进展。这种大数据、神经网络和GPU三大技术的结合,可以说是现代AI的黄金配方。快进到AI的大众时刻,也就是ChatGPT问世的时候,从技术层面看,推动ChatGPT诞生的要素仍然是这三个:现在用的是互联网规模的数据(主要是文本),神经网络架构比2012年复杂得多,但仍然是神经网络,GPU也更多了,但本质上还是GPU。所以这三个要素仍然是现代AI的核心。","question":"你所做的工作实际上是带领我们走出AI寒冬的火花,也直接造就了我们如今这个满是AI讨论的世界。正如你刚才所说,AI将影响我们所做的一切。所以我很想听听你讲讲ImageNet出现之前的世界是什么样的,你创建ImageNet的过程,它为何如此重要,以及之后发生了什么。"},{"answer":"哦不,我绝对认为我们需要更多创新。我认为通过更多数据、更多GPU以及更大的现有模型架构进行扩展,这方面仍有很多工作要做,但我们绝对需要更多创新。人类历史上没有任何一个深入的科学学科达到过‘我们完成了,不需要再创新了’的地步,而AI即使不是人类文明中最年轻的科技学科,也是其中之一,我们仍只是刚刚触及表面。例如,就像我说的,我们会转到世界模型的话题。今天,你给AI看几个办公室房间的视频,让它数椅子的数量——这是学步儿童或小学生都能做到的事,AI却做不到,对吧?所以AI现在做不到的事情还有很多,更不用说像艾萨克·牛顿那样观察天体运动并推导出支配所有物体运动的方程(组)了,那种创造力、推断能力和抽象能力,我们今天还无法让AI具备。再看看情商。如果一个学生来到老师办公室,和老师谈论学习动力、热情、想学什么、真正困扰自己的问题是什么——尽管如今的对话机器人很强大,但你无法从它们身上获得那种情感认知智能。所以我们还有很多可以做得更好的地方,我不认为我们的创新已经结束。","question":"你提到,从ImageNet和AlexNet到我们今天所处的阶段,有一些关键要素,本质上是GPU、数据(标注数据)以及模型算法。Transformer模型似乎也是这一发展轨迹中的重要一步。你觉得这些要素能让我们实现智能提升10倍的模型,或者说那种能改变全球生活的模型吗?还是说我们需要更多突破?我知道我们会谈到世界模型,我认为这也是其中一个要素,但你觉得还有其他什么吗?比如,你认为现有要素会陷入停滞,还是说只需更多数据、更多计算能力、更多GPU就能继续前进?"},{"answer":"Lenny,看到越来越多的人开始谈论世界模型,比如埃隆和黄仁勋,我感到非常兴奋。我一生都在思考如何推动人工智能的发展,而过去几年,学术界以及OpenAI等机构推出的大型语言模型,即使对我这样的研究者来说也极具启发。我记得GPT-2发布时,大概是在2020年底。当时我是斯坦福大学以人为本人工智能研究所(HAI)的联合主任(现在依然是),而且当时是全职任职。那时公众还没有意识到大型语言模型的力量,但作为研究者,我们已经看到了它的潜力和未来。我和自然语言处理领域的同事Percy Liang、Chris Manning进行了长时间的交流,我们都认为这项技术将至关重要。斯坦福大学以人为本人工智能研究所是首个建立完整基础模型研究中心的机构,Percy Liang和许多研究者共同撰写了第一篇关于基础模型的学术论文。这对我来说真的非常鼓舞。当然,我来自视觉智能领域,我一直在思考除了语言之外,我们还有很多可以推进的方向。因为人类运用空间智能和对世界的理解来完成许多语言无法描述的任务。想想一个混乱的急救现场,无论是火灾、交通事故还是自然灾害。当你置身其中,观察人们如何组织救援、阻止灾情扩大、扑灭大火时,你会发现很多行动都源于对物体、世界和人类情境的自发理解。语言只是其中一部分,但在很多情况下,光靠语言无法灭火。这背后的能力是什么?我一直在思考这个问题。同时,我从事了大量机器人研究,逐渐意识到连接语言之外的智能(如具身智能,即机器人技术)和视觉智能的关键,在于对世界的空间智能理解。我记得在2024年,我在TED演讲中谈到了空间智能与世界模型。而这个想法早在2022年就基于我的机器人和计算机视觉研究开始形成了。我清楚地意识到,我真的很想与最优秀的技术专家合作,以最快的速度将这项技术变为现实。于是我们创立了World Labs公司。公司名称中包含“world”,正是因为我们坚信世界建模和空间智能的重要性。","question":"谈谈什么是世界模型?为什么它如此重要?"},{"answer":"是的,我非常兴奋。首先,Marble是World Labs推出的首批产品之一。World Labs是一家基础前沿模型公司。我们由四位联合创始人创立,都拥有深厚的技术背景。我的联合创始人Justin Johnson、Christoph Lassner和Ben Mildenhall,我们都来自人工智能、计算机图形学和计算机视觉研究领域。我们相信空间智能和世界建模与语言模型同等重要(甚至更重要),并且是语言模型的补充。所以我们想抓住这个机会,创建一个深度技术研究实验室,将前沿模型与产品联系起来。Marble是基于我们的前沿模型构建的应用程序。我们花了一年多的时间,构建了世界上第一个能够生成真正三维世界的生成模型。这是一个非常非常困难的问题,过程也非常艰难,我们有一支由来自顶尖团队的杰出技术专家组成的创始团队。大约一两个月前,我们第一次实现了通过文字提示、单张图像或多张图像创建可导航的世界。如果你选择将其放到Google上,甚至可以在里面四处行走。尽管我们已经开发了很长时间,但看到这一幕时仍然感到敬畏,我们希望将它交到有需要的人手中。","question":"World Labs是如何创立的?为什么选择这个方向?"},{"answer":"是的,我们相信世界建模具有很强的横向应用潜力,但我们已经看到了一些非常令人兴奋的用例,比如电影虚拟制作,因为他们需要能够与相机对齐的三维世界。这样当演员在其中表演时,他们可以调整相机位置,很好地拍摄场景。我们已经看到了令人难以置信的应用。事实上,不知道你是否看过我们展示Marble的发布视频,它是由一家虚拟制作公司制作的。我们与索尼合作,他们使用Marble场景拍摄了那些视频。我们与这些技术艺术家和导演合作,他们说这将制作时间缩短了40倍。事实上,这是必然的,因为我们只有一个月的时间来完成这个项目,而他们有很多场景要拍摄。所以使用Marble极大地加速了视觉特效和电影的虚拟制作。这是一个用例。我们已经看到用户将Marble场景导出网格并用于游戏,无论是VR游戏还是他们开发的趣味游戏。我们还展示了机器人仿真的例子,因为我(现在仍然)是从事机器人训练的研究者,最大的痛点之一是为训练机器人创建合成数据。这些合成数据需要非常多样化,来自不同环境,有不同的操作对象。一种方法是让计算机进行模拟,否则人类必须为机器人构建每个资产,这将花费更长时间。所以已经有研究者联系我们,希望使用Marble创建这些合成环境。我们还收到了一些意想不到的用户反馈,比如一个心理学团队联系我们,想使用Marble进行心理学研究。事实证明,他们研究的一些精神病患者需要通过不同沉浸式场景(如混乱场景或整洁场景等)来理解大脑的反应。研究人员很难获得这类沉浸式场景,创建它们需要太多时间和预算,而Marble几乎可以即时提供大量实验环境。所以目前我们看到了多种用例,视觉特效、游戏开发者、仿真开发者以及设计师都非常兴奋。","question":"对于那些想试用Marble的人,目前有哪些应用场景可以开始使用?这次发布的目标是什么?"}]}