Cohere创始人独家分享:如何与估值千亿的 OpenAI 和 Anthropic 同台竞技 | 为何国家应资助本国模型?模型主权的战略意义 | 揭秘:萨姆・奥尔特曼(Sam Altman)为何对 AI 发展造成负面影响 90

原文引用:
今天我们邀请到的嘉宾是尼克·弗罗斯特,他是加拿大人工智能研究员、企业家,最为人熟知的身份是Cohere的联合创始人——这家专注于企业级的大型语言模型公司已融资超过9亿美元,最近一轮融资5亿美元,估值达到68亿美元。Cohere的企业年度经常性收入(ARR)已突破1亿美元。在创立Cohere之前,尼克曾是谷歌大脑(Google Brain)的研究员,与业界传奇人物杰夫·辛顿共事。《20VC》播客
市场空白:
https://www.thetwentyminutevc.com/nick-frosst
原文总结:
{"highlight": [ { "question": "很多人可能还不了解Cohere,它与OpenAI、Anthropic等更知名的通用模型相比,有什么区别?", "answer": "好的。我们和那两家一样,都是基础模型公司——我们构建基础模型,也就是语言模型。全球真正在做大语言模型的公司其实不多,西方可能也就10家左右,最近冒出来几家新的,但全世界加起来不到20家。大部分在美国,中国有几家,我们在加拿大,还有一家在法国。我们的独特之处在于,我们完全专注于将这项技术推向企业级应用。我们训练的模型擅长企业工具的使用——你可以给它一堆公司内部的工具和API,让它访问企业数据,然后让它帮忙处理工作事务,它在这方面表现很好。这就是我们的训练目标。" }, { "question": "既然合成数据能无限生成,你认为数据仍是瓶颈吗?", "answer": "数据仍然是瓶颈。要启动合成数据流程,你首先需要真实世界的数据。合成数据确实帮了大忙,让模型比没有合成数据时表现更好,但获取高质量数据仍然是大家关注的问题。我们内部还是有很多标注员在制作真实数据,而不是只依赖合成数据。" }, { "question": "人们担心技术发展可能会遇到瓶颈,现在大家似乎都觉得‘投入更多计算资源就行,缩放定律依然有效,指数级进步会持续’。你认为未来12到24个月,缩放定律的红利还会持续吗?还是说更多计算资源未必能带来更多进步?", "answer": "你觉得GPT-5会比GPT-4好多少?其实我觉得它更差了。这说明‘一味堆计算资源’的思路可能有问题,不是吗?为什么我觉得它更差?因为现在的模型选择机制更慢、更繁琐,简直是个麻烦,有时候还会出错。我就想要个快速答案,它却突然开始‘深度研究’,我心里就想‘拜托,我就想要个简单回答, PhD(这里指模型),冷静点’,你懂我意思吧?在这方面,它的产品体验其实倒退了。我们等了一年或一年半的‘模型自动选择’功能,结果就这样。回到你的问题,有人觉得已经遇到瓶颈了,我觉得我们得先明确技术的发展方向,才能判断是否有瓶颈。语言模型确实很棒,我在工作中尽可能经常用它们。我们专注企业级市场,正是因为我认为大语言模型在这方面最有用。至于我的个人生活,其实没那么多想自动化的事——我不想更快回复我妈的短信,我想多回复,但想自己写,想亲自参与。而在工作中,我不想做的事可太多了。我们需要达到这样的阶段:我打开电脑说‘帮我报销’,它就能自动查看我的所有邮件、收据照片,对照公司内部的报销规定,找到报销系统的API,完成所有步骤并申请审批。这是个多步骤流程,但这才是技术该去的方向。让模型做到这些的工作远没到瓶颈,这需要更多建模、产品开发、更好的连接器,以及更安全的数据集成,这样你才敢让模型访问刚才说的那些敏感信息。这些工作还在进行中,也是我们正在做的。至于有人说要朝着AGI(通用人工智能)发展,我觉得这项技术到不了那一步。" }, { "question": "你认为五年后,提示词仍会是用户输入引导的核心机制吗?", "answer": "提示词,就是你给模型输入一些内容,然后它给你回复,对吧?对,没错。不然还能是什么呢?但提示词的形式会变,你使用它的方式也会变。你不会再说“嘿,用有趣的语气来写”或者“嘿,加入一种既真诚又带有轻度个性化的风格”。我觉得“提示词作为一种技能”的概念会变得不那么重要。如果你观察发展轨迹就会发现,比如我刚开始做这行的时候,如果你想让模型总结某样东西,你得先写一段话,然后写上“总结:”,换行,再让它生成。当时所谓的提示词技巧,就是想办法诱导模型按你的想法做事。这是因为当时的模型没有经过人类反馈的训练,它们只在网络文本上训练过。所以它们本质上就是基于网络文本的序列模型。而网络上没人会写“请帮我总结这个”然后跟着一个总结,人们通常会写一段话,然后用“总结:”开头。所以如果你想让模型做总结,就得那么做。但现在的语言模型,我们训练它们更贴合人类对其工作方式的预期。这意味着擅长提示词变得没那么重要了。所以我觉得那种“你必须学习提示词技巧”的说法会逐渐消失。但我认为,你需要了解语言模型的工作原理,知道它们能做什么、不能做什么——就像你必须了解计算机和电话的工作原理及其能力范围一样,这种需求会一直存在。这意味着提示词本身会继续存在,毕竟它的本质就是你给模型输入内容,然后得到回复。如果结果不满意,你可能会稍微调整一下,这种交互方式会一直存在,因为这是技术的基本运作方式。但把提示词当作一门需要专门训练的学科,这种想法的重要性已经在下降了,而且我们已经看到了这种趋势。没错,提示词确实变得越来越简单了。我招人时,会看重对方是否了解语言模型的原理。要知道,在Cohere,能让一切顺利运转的一个关键因素是:你不能把这项技术当成魔法,不能觉得这是在施咒语。你必须了解语言模型的工作原理、训练方式以及这意味着什么——哪些能力是模型涌现出来的,哪些不是。你不能想“我只需让这个数字上帝帮我干活,它就会照做”,这根本不是这项技术的本质。抱着这种想法,既不利于你开发它,也不利于你使用它。" }, { "question": "那6亿美元融资中,有多少会花在算力上?", "answer": "打造语言模型有三个核心要素,对吧?人才——聪明的工程师和研究人员;算力;还有数据。这些要素的重要性和投入比例一直在变化。我们训练模型的效率很高,我们专注于高效模型。比如我们的Command模型,还有刚发布的Command Reasoning模型,都只需要两块GPU就能运行。这是我们商业战略的关键部分。事实证明,很多想把模型部署到生产环境的公司,都因为GPU不足而受阻。两块GPU恰好是性能、成本和企业实际可获取GPU数量之间的平衡点。所以我们训练效率很高,在基础模型研发上的投入比其他一些基础模型公司少了好几个数量级,真的是数量级上的差距。我为团队的效率和他们用现有资源所取得的成果感到骄傲。我们非常注重自身和客户的效率,这两者是相关的。" }, { "question": "你觉得OpenAI和Anthropic会放弃企业市场吗?", "answer": "嗯,我其实觉得,不,我觉得OpenAI和Anthropic不会放弃企业市场。他们都推出了很棒的消费级产品。但这项技术最大的价值其实在工作场景中,这是我认为它最有用的地方。我不知道他们会不会涉足企业市场。我知道,为企业环境构建模型和为消费环境构建模型有很大不同。在消费环境中,你可以做最大的模型,可以用复杂的切换机制调用不同模型,因为你有大量GPU支持。你甚至可以每次推理都亏钱,但只要能获取用户就行,这种模式是可行的。但要在企业市场成功,你需要构建的模型类型完全不同。我们推出了North,这是我们的智能体框架,可在企业内部私有部署,为知识工作者定制。它和一些消费级应用看起来很不一样。一个明显的区别是:我们的模型不生成图像。职场中没人需要在工作中生成图像,但作为消费者,这很有趣——“给我画个这个”之类的,很酷。我们训练的模型类型和打造的界面都不同。我不知道他们(OpenAI和Anthropic)会不会在某个时候对企业市场感兴趣。我觉得我们会继续专注于与客户沟通,为他们创造价值。定价方面,完全取决于客户想用我们的技术做什么。有些客户我们会为其定制模型并交付给他们。" } ] }
原文:

评论

登录后发表评论
×