原文总结:
{"highlight":[{"answer":"我不认为这算是转型。我们一直知道音频技术远远落后于文本领域。毕竟我们的背景都是自然语言处理(NLP)。我们原以为开发优质的生成式音频工具会困难得多,所以最初计划做更偏向“理解型”的产品——可以回想一下GPT-2时代,当时没人用GPT-2创作有趣文本,它主要被用作文本理解工具。我们曾以为会在这个阶段停留好几年,直到掌握模型规模化的方法。但事实证明我们错了,强大的生成能力比预期来得早得多。于是我们迅速抛弃了原来的理解型工具,转向生成功能。","question":"不过我在节目开始前和米尼亚诺聊过,他说:“兄弟,你一定要问问他Suno的起源——它最初是个企业级AI音频工具,和现在完全不同。” 能聊聊那次转型吗?"},{"answer":"音乐与文本截然不同。人们常简单类比OpenAI、Anthropic等公司的发展,认为音频技术只是落后几年,确实如此,但他们误以为规模能解决所有问题。不同于那些追求客观问题最优解(比如提高SAT分数、优化基准测试)的领域,音乐完全是主观的。因此规模不是万能药,模型需要保持相对小巧,并通过其他技术赋予其“好品味”。音乐领域会存在许多小型模型,规模的作用远不如在文本领域那么关键。","question":"你认为规模法则会持续适用吗?你之前提到了生成能力的提升。"},{"answer":"我们确实采用了订阅制。这并非刻意决策,但我们从第一天就决定开始收费,这有点违背硅谷“免费提供产品、快速扩张”的传统 wisdom。我们不想成为昙花一现的新奇产品,而是希望提供人们愿意付费的真正价值。记得产品最初是个Discord机器人时,我们就设置了免费额度(和现在一样),超出则需付费。没想到第一个月就有很多人订阅,这证明产品确实有价值。即使不考虑收入(这笔收入确实帮我们抵消了大量GPU成本),用户付费行为本身就是极有价值的数据——没有这些数据,我们无法优化产品。","question":"不过我确实觉得年费定价有点“劝退”。看到300美元会觉得“哇,好贵”,但如果是29.99美元每月,我会觉得“挺合理”。你们为什么选择年费制?"},{"answer":"对我来说,一个非常明显的例子就是从Discord迁移出来。我们去年8月发布了第一个产品,11月推出了一个功能简陋的网页应用。我当时完全搞错了,我说我们会永远留在Discord。我看到MidJourney靠Discord机器人赚得盆满钵满(当时确实如此)。但我没意识到一个好的用户界面会彻底改变用户体验。Discord并不是我们产品的最佳界面——对MidJourney来说可能比我们更合适,但音乐创作还有更多可能性。11月推出的网页应用甚至没有Discord机器人的全部功能,但仅用五天时间,90%的流量就转移到了网页端。五天啊。显然我当时的判断大错特错。","question":"在Suno的发展过程中,有什么事是你希望当初做了但没做的?"},{"answer":"有两个特别糟糕的场景。一个是其他国家的某个组织不遵守法律,让你可以未经允许模仿你喜欢的艺术家,比如创作无数Ariana Grande的歌曲却不给她一分钱。这可不妙,而且现在技术上完全可行。没错,就像之前Drake和The Weeknd的Ghostwriter事件——而且只会越来越好、越来越容易。这不是好的未来。另一个糟糕的未来是:音乐本应是社交的,但存在一个局部最优解,让音乐变得不那么社交,而过于个性化。我不希望音乐的未来是这样的:你打开手机,点击播放,应用知道你的一切——今天早上做了什么,昨天发了什么短信,心情如何,Apple Watch的心率数据——然后为你播放只有你会喜欢的音乐,精准刺激你的大脑,就像毒品一样。这非常反社交,也可能有人会这么做。这也很可惜,因为它错过了很多乐趣。社交和个性化之间存在内在张力,我不想只为你创作极端小众的音乐。","question":"AI可能带来的最糟糕的音乐未来是什么?"},{"answer":"先从OpenAI说起吧。ChatGPT很厉害,但它给所有AI公司带来了一个巨大误区——所有人都觉得空文本框就是正确的交互方式。这对ChatGPT适用,但对几乎所有其他产品都不适用。抱歉这么直接,但我要反驳这个前提。我希望六个月或一年后,我们不再使用“提示词”这个词。与音乐互动有更多直观的方式,我们不应该引导用户,而应该倾听用户。","question":"你提到了优秀用户界面的重要性,对你来说什么是真正优秀的用户界面?"}]}