Glean CEO: AI 如何重塑企业级搜索的实用价值 | 25年7月获1.5亿美元融资,估值72亿美元 | 内部知识库开发应用的巨大机遇 84

原文引用:
Glean CEO 阿温德曾联合创立Rubrik公司,并在谷歌担任了十余年的工程技术负责人。 在本期节目中,阿温德分享了大语言模型(LLMs)如何重塑企业级搜索领域,剖析了为何该赛道内的多数工具最终以失败告终,同时指出了基于内部知识库开发应用的巨大机遇。他还探讨了在基础模型之上仍需进行的定制化开发程度,对比自己过往的创业项目,阐释了打造Glean过程中面临的独特挑战,以及公司未来的发展方向。《No Priors》
市场空白:
原文总结:
{"highlight":[{"answer":"我从事搜索工作已经快30年了,非常漫长的一段时间。搜索的范式已经彻底转变。我觉得可以说,搜索在很长一段时间里都是静态的。它是基于关键词的范式,你知道,人们提出问题,你找到关键词,试着在文档中找到它们,然后呈现给用户。但大型语言模型彻底改变了这一点。你知道,它为搜索带来的主要变化是,它让我们能够真正深入理解用户提出的问题。同样,它也让我们能够真正深入理解文档的内容。实际上,你可以将人们的问题与正确的信息在概念上进行匹配。这给了我们更大的能力。搜索不再那么脆弱了。我认为,这是一项基础性技术,真正将搜索发展成了你如今看到的这些新体验,你知道,不再仅仅是向用户展示几个链接,而是真正深入理解他们的问题,直接利用已有知识来回答他们。","question":"我想先从搜索这个话题开始。你一直是研究搜索的专家,在它还没那么热门的时候就已经深耕多年,当时感觉这个领域虽然没被完全解决,但也没那么动态。你认为大型语言模型(LLMs)在多大程度上改变了搜索?"},{"answer":"要我说,我们的时机把握得很好。我们在2018年底开始考虑创立Glean,2019年初正式成立公司。有趣的是,当时Transformer技术已经出现了。虽然全世界还没开始广泛讨论它,但在谷歌这样的搜索团队里,我们已经看到了嵌入技术的力量,以及它如何从根本上改变搜索。所以我们有幸亲眼见证了这一点。因此,我们产品的第一个版本实际上已经使用Transformer进行语义匹配了。你知道,当时还没有“向量搜索”这样的术语,这些词汇还没被发明出来,生成式人工智能也是如此。所以在内部,我们称之为“嵌入搜索”,这是我们起步时的核心技术。所以实际上你们很早就涉足了这个领域。是的。而且,你知道,当时的模型不如今天这么强大。我们从谷歌在开放领域发布的BERT模型开始,这个模型是在互联网上所有数据和知识的基础上训练的。然后,对于我们的每个客户,我们都会在他们的业务内容上构建自定义嵌入,以此驱动搜索的语义部分。但要记住,搜索作为一种技术,过去几年人们非常关注嵌入和向量搜索,但这实际上只是构建良好搜索系统的一部分。因为如果你想想一个企业,假设有一家存在了几十年的公司,那么海量信息分散在众多不同的系统中。很多信息现在已经过时了,因为是很多年前写的。所以当你构建一个搜索产品时,仅仅说“我想理解用户的问题,并从语义或概念上匹配用户所问的正确信息”是不够的。你还必须解决其他问题。你必须挑选出当下正确、最新的信息,具有权威性的信息,比如这个领域的专家撰写的文档。所以你也必须做所有这些其他事情,才能真正挑选出正确的知识并反馈给用户。所以我们一开始就以这种形式构建产品。实际上,它是一个非常不同的产品。以前没人真正把企业搜索当成一个问题来解决。事实上,我记得有趣的是,尽管我刚从Rubrik这样一家成功的公司出来,我们取得了不错的成绩,但我觉得人们并不想投资企业搜索,或者说投资我,因为这个问题不够令人兴奋。传统上,这是一个很棘手的问题,对吧?有很多搜索引擎。我记得谷歌早期有一种企业搜索引擎,好像是在挪威。有很多人尝试过,但都没成功。为什么你认为之前没成功呢?因为这感觉像是一个糟糕的市场,就像一个所有试图解决这个问题的公司的坟墓。部分原因是搜索本身就是个难题。在企业中,即使是获取所有你想搜索的数据,都是个大问题。在SaaS出现之前的时代,你无法进入那些数据中心,弄清楚服务器在哪里,存储系统在哪里,试图连接其中的信息。这是个巨大的挑战。而SaaS实际上解决了这个问题。所以,大多数搜索公司都起步于SaaS时代之前,它们失败是因为无法构建一个即插即用的产品。但SaaS让你能够构建这样的产品,我的看法是,企业世界已经改变了。我们现在有了这些SaaS系统,而且SaaS系统没有版本之分——所有客户使用的都是同一个版本。它们是开放的、可互操作的,你可以通过API访问它们获取所有内容。我觉得最大的问题解决了,即我可以轻松地将所有企业信息和数据汇集到一个地方,并在此基础上构建统一的搜索系统。这确实是一个重大突破。也就是内部连接器和API的兴起。所以你们现在用的是Google Docs,而不是老式系统,或者用Slack这类新工具,它们现在提供了对数据或底层内容的访问权限。你们肯定记得谷歌搜索设备吧?那种需要把你的数据不断吸入硬件设备才能进行搜索的想法简直太荒谬了。这是个挑战。顺便说一下,Glean的起源是这样的:在Rubrik,我们遇到了这个问题。公司发展很快,信息分散在300多个不同的SaaS系统中,公司里没人能找到任何东西。人们在我们的脉搏调查中抱怨这个问题。而且在我的创业公司里,我通常负责IT工作。所以这个投诉到了我这里,我必须解决它。我试着想买一个搜索产品,却发现根本没什么可买的。这就是Glean公司创立的真正起源。所以这是一个大问题。SaaS让企业数据和知识能轻松连接到搜索系统,这让我们第一次能够构建一个即插即用的产品。但还有很多其他方面的进步。其一,企业有太多信息和数据了。有一个有趣的事实:我们最大的客户之一,他们公司内部有超过10亿份文档。要知道,2004年我在谷歌做搜索时,整个互联网的文档总量才10亿份。企业内部的内容呈爆炸式增长。所以你必须构建可扩展的系统。在云计算时代之前,你无法构建这样的系统。我会把所有时间都花在构建可扩展的分布式系统上,但现在多亏了强大的云技术,我们不用再这么做了。当然,Transformer模型——这才是我们真正的重大突破,让我们能够更深入地理解企业信息。这在企业环境中比在网络上更有必要。在网络上,即使没有很好的语义理解,你也能从用户行为中学到很多,因为有10亿人在使用你的产品。在企业中,你没有这种优势。所以你必须用其他技术,比如Transformer模型,来弥补用户信号的缺失。","question":"如果我没记错的话,Glean最初是在更传统的搜索领域起步的。随着这些基础模型和大型语言模型的兴起,你们对所提供的功能集以及处理方式的思考都发生了很大转变。你能多谈谈你们最初是如何构建系统的,这种构建方式又是如何转变的,以及你们是如何针对新用例进行开发的吗?因为你们现在实际上已经成为了一个非常有趣的平台,可以在组织内部围绕其信息库以各种方式使用。我甚至很想听听技术转型的过程。你当时是怎么想的?这是什么时候发生的?"},{"answer":"在某种意义上,企业信息是受管理和保护的。我是说,公司内部90%的知识在某种程度上都是私密的。你可能有一份文档只对你自己可见,或者只与少数几个人共享。这是企业知识的基本特性。你不能在企业内部构建一个模型,然后把所有内部数据和知识都灌进去,再让公司里的每个人都使用这个模型。因为这样做会导致公司内部信息泄露。比如,可能会让工程团队的人看到本应只有人力资源团队才能查看的敏感信息。所以,在企业内部构建的任何人工智能体验,都必须从根本上考虑安全性、治理和权限问题。这就是我们在Glean所做的。当我们连接企业内部的所有这些系统时,无论是从Google Drive索引文档,还是从Slack获取对话,我们都会记录哪些用户可以访问这些信息。这是基础——通过我们平台访问数据时,用户必须登录,我们只会让他们使用自己有权访问的信息。解决这个问题至关重要。除非你有这样的基础设施,否则你无法在企业内部安全地部署人工智能。","question":"阿尔温德,当你谈到以正确的权限访问正确的数据时,这就引出了一个问题:在Glean这样的平台中,访问控制是怎样的?当你处理所有这些非结构化数据时,情况似乎复杂得多。你对此的总体立场是什么?你认为未来这将如何发展?"}]}
原文:

评论

登录后发表评论
×