什么是金融杠杆炒股 AI训练推理未来：开源与LPU驱动AI算力平权，推理成本实现5倍下降

发布日期：2025-02-28 22:25 点击次数：156

（原标题：AI训练推理未来：开源与LPU驱动AI算力平权什么是金融杠杆炒股，推理成本实现5倍下降）

近日，知名播客20VC主播Harry Stebbings对Groq的创始人、CEO Jonathan Ross进行了一次访谈。Jonathan讨论了当推理规模远超训练后，Groq如何通过LPU架构实现“算力民主化”的目标，Groq在近期宣布的与沙特阿美的合作细节以及他创业中的经历。

Groq研发了全球首款AI推理芯片LPU（语言处理单元），并且其最新一代LPU于今年2月发布。在创立Groq之前，Jonathan Ross曾以"20%自由项目"形式启动了后来成为谷歌TPU（张量处理单元）的研发工作，期间他设计并实现了第一代TPU芯片的核心架构。7年多前，Jonathan离开谷歌后开始了LPU的研发，以推动AI推理的规模化。

Jonathan认为，AI推理的效率瓶颈并非单纯依赖算力规模，而是需要平衡训练与推理的投入：一方面，LPU芯片的耗（仅为GPU的1/3）和低成本（比GPU低5倍以上）使得推理服务更易规模化；但另一方面，算力基础设施的部署需直面电力供应，即全球数据中心产能过剩与短期需求错配，和长期资本投入的双重挑战。

而就在2月24日，美国知名TMT投资人Gavin Baker在发布于社交媒体X的「未来AI竞争趋势」推文中指出，从预训练向推理为中心的计算范式转移，本质上是AI投资回报率的再平衡。尽管这一转变速度远超预期，但其核心逻辑清晰：推理需求的爆发推动了对高效算力基础设施的需求。他强调，未来需要更多“本田级”（50-100兆瓦）推理数据中心——即地理分布广泛、针对低功耗和成本优化的中小型设施，而非依赖少数“法拉利级”（超1吉瓦）预训练超算。这一趋势将直接影响行业格局：传统GPU巨头可能因其在训练领域的垄断地位受到冲击，而能够提供灵活推理服务的厂商和边缘计算玩家将获得更大话语权。

以下文章为访谈内容节选，由「明亮公司」编译：

Harry：我想把节目分成两部分。第一部分谈谈当前的行业格局，第二部分深入探讨Groq，尤其是你们刚达成的巨额交易——我认为很多人对此存在误解。先从Scaling Law开始吧，大家都说Scaling Law快要失效了，但同时又看到以DeepSeek为代表的公司正实现指数级创新。究竟Scaling Law的极限在哪里？

Jonathan：Scaling Law在OpenAI发布的一篇论文中得到了极大的推动，核心观点是模型参数越多，吸收信息的能力越强。他们的图表显示，随着参数量增加，模型性能提升趋近于对数增长，而非线性。这也是为何有人追求万亿级参数训练的原因。但有个关键问题：Scaling Law是假设所有训练数据质量相同的情况下产生的性能大幅增长。但如果我们像教孩子一样训练模型：“1+1等于几？”“2×3是多少？”“双曲正切函数的二阶导数是什么？”这些简单和复杂问题的堆砌式训练并不聪明。我们并未真正教会模型如何推理。真正让模型进一步高效提升的是用合成数据进行训练，而不是质量混杂的海量数据。

合成数据如何解决模型效率困局

Harry：为什么合成数据比原始数据更好？

Jonathan：它使模型更智能。虽然Reddit很好，但在特定领域，它包含的知识能力一定不如与一个有PhD的专家对话得出的收获。如果你有更好的模型，模型能生成更优质的数据，就越可能产生与专家交流获得的效果。通过反复迭代训练——用模型生成的合成数据再训练模型，逐步筛选出正确部分并优化，去掉有误的部分，可突破传统训练的低效。

Harry：但计算效率还是会有个上限？

Jonathan：有吗？理论上可能存在数学极限。例如计算机科学中的“大O复杂度”表明，不同算法解决同一问题的步骤数差异巨大。比如排序1000个数时，快速排序需要约1万步（n log n），而冒泡排序需要100万步（n）。乘法运算虽看似线性，但在底层实现中语言模型仍需大量中间步骤。

无论多复杂的运算，理论上都可以通过训练让模型直接记住任意大的数值组合，从而减少推理步骤。随着训练数据量的增加，模型对特定场景的适应性增强，但仍需保留部分通用推理能力。

Harry：如果效率没有天花板，模型性能的瓶颈在哪里？下一步我们会往哪里发展？

Jonathan：模型需要训练、推理两者平衡。训练使其更具“直觉性”，意味着它的思维流可以直接得出答案。推理部分不同，推理则依赖系统性算法，是大O复杂度的部分。所以它们是两个思考体系：快思考、慢思考，就像丹尼尔·卡尼曼的书里说的那样。两种系统的增长结合时，模型的性能才能获得几何式增长。

Harry：我再理解一下，如果我们有合成数据来支持模型训练......

Jonathan：模型会更具直觉性，也就是能更快地得出答案，就像国际象棋大师一样，一眼就能看出下一步怎么走。

Harry：合成数据的供应不是问题，瓶颈是什么？硬件质量？算力？还是算法？

Jonathan：硬件、算力、算法都是，三者缺一不可。当然，人们对瓶颈可能有所误解。现在算力更像是“软瓶颈”——当算力充足时，数据与算法的不足才会显现。理想情况下应同步提升这三者。

Harry：除了对合成数据、算力、算法的误解，你认为目前最普遍的误解是哪些，尤其在AI推理方面？

Jonathan：刚开始的误解是训练的成本比推理更高，不过这个观点现在已经消除了，每个人都明白推理是未来很重要的基础设施。

Harry：人们完全理解了吗？当你看到英伟达股价在DeepSeek之后下跌了15%，如果他们真正理解了推理的重要性，英伟达就不应该下跌15%。

Jonathan：我认为下跌更多是因为所有人都再说英伟达股票不可能再涨了，他们正在寻找一个契机，表明“我们错了，我们要抛售”，但这只是市场的某种人气博弈，与市场的称重机属性无关。

Harry：那么现在的创业者应该怎么构建业务？应该假设Scaling Law会延续吗？你如何建议？

Jonathan：我会建议以模型瓶颈会不断突破的预期来开展事业。例如现在的模型有幻觉问题，因此，一个专门的AI医疗诊断公司或是AI法律公司会很困难，但是你如果一直做这件事，算法改进会降低幻觉率。

就像我们一样。我们在PMF出现之前已经创业了7年，我们的赌注是推理的规模化。因为在运行大而重的模型后，推理将成为瓶颈。我们提前做出了正确的押注，所以现在的节奏刚好。我们的工作是为“风口”做好准备。这是最难的事情，因为曾经几乎每个人都在告诉我们，不要做大语言模型。

Harry：你有没有怀疑过自己？7年的等待非常漫长。

Jonathan：有过怀疑，但从没有停下来。原因是我们甚至在开始做TPU之前就担心，AI将是一种允许某些人拥有过度控制权和影响力的技术。如果任由这种技术落入可能不是最合适的人的手中，那么其他人无论你有多富有，也没有意义。这是最重要的技术。所以无论有多困难，我们都别无选择，只能成功。我们的目标是在人工智能时代保护人类的自主性。如果我们做不到这一点，不管有没有怀疑，我们都会失败。

曾经有过一段时期，我们的资金将要耗尽，当时我们做了一件我们称之为“Grok债券”的事情，就像二战时期的“战争债券”。

Harry：可能有人不清楚战争债券。

Jonathan：战争债券是美国二战的一种资金来源。美国政府制作了一些海报，上面写着“资助你的部队”之类的内容。你可以购买这些债券，他们会支付你一定的回报。

当时我们的资金快要用完了，与其假装坚强，我们选择向员工坦诚，告诉他们我们快没钱了。我们希望他们能用股权来换取薪水。我们甚至把战争债券的照片拍下来，把上面的文字换成了“Grok债券”。

我们担心每个人都会离开，然而，大约80%的员工参与了进来，其中50%的人甚至将薪水降低到了法律规定的最低标准。后来，当我们筹集到第一笔3亿美元的融资时，我们的银行账户里的钱甚至比通过“Grok债券”节省下来的钱还要少。如果不是因为这些，我们真的会耗尽资金。那一段确实非常艰难，我知道每个创始人都经历过。

AI推理的未来：能源效率与成本重构

Harry：当推理的重要性远远超过训练，那会是一个怎样的世界？

Jonathan：我认为最简单的方法是把LPU或GPU比作员工。如果你有足够的LPU或GPU，你可以像拥有员工一样完成工作。不过有一点不同，它们不会辞职去别的地方，你也不需要重新培训它们。一旦你的模型达到了一定的能力，它就会始终保持至少那样的能力，对吧？你可以从中获得一致性。但现在想象一下，你是一家初创公司，与其出去招聘100个人，你只招聘10个，然后部署相当于90个员工的算力。这是一种完全不同的思考方式，因为你的Capex或一些情况下的Opex支出已经可以替代部分员工的工作了。

就推理而言，为了让你了解一下我们的扩产情况，我们从2024年初的大约640个芯片提升到年底的超过4万个，今年我们预计超过200万个，明年就是另一个数量级了。

Harry：产能方面有担忧吗？这个扩产速度很惊人。

Jonathan：我们会将我们合作的Fab产能打满，但我不会透露具体数字。

明年的GPU产能扩张将极度依赖三星、海力士和镁光的高带宽内存（HBM），世界上只有这3家公司生产HBM。这类特种内存产量有限且成本高昂，是主要制约因素。

但我们在创立Grok时在架构上有了新的启发，绕过了HBM瓶颈下的产能困扰。众所周知，摩尔定律每18到24个月像时钟一样准时地将晶体管数量翻倍，意味着算力翻倍；而我们观察到芯片的数量也在每18到24个月翻倍，不是2倍，而是4倍。因此我们问自己：如果拥有无限数量的芯片，我们能在架构上做出什么不同的选择？答案很明显：与其用GPU依赖外部内存，让单个GPU需反复拆解和重建计算流程，不如使用大量的LPU，将模型的所有参数保留在芯片中，同时我们让计算流通过数百甚至数千个LPU芯片并持续流动，例如用600或3000个芯片运行一个模型。

Harry：这如何改变能源利用效率？

Jonathan：LPU通过架构优化将能耗降低至GPU的三分之一。因为单位token能耗降低了。这好比你试图将一吨煤从城市的一边运到另一边，你是用摩托车还是用货运火车更高效？摩托车每次使用的能量更少，但它需要更多的往返次数，因而会消耗更多的总能量。这也是大多数人的一种误解：认为边缘计算的能耗更低，但实际上边缘计算能源效率低于数据中心计算。在数据中心计算就像用货运火车运输，能同时完成很多任务。而且不需要从外部内存读取数据，也就不用为此耗能。

再讲讲为何LPU如此节能：芯片里物理导线有宽度，给导线充电设为 “1”，放电设为 “0”，类似给电容器充放电，这一过程会耗能。导线越长，需电荷越多。当HBM在这，数据在另一个芯片上，芯片间传输比特时，导线要反复充放电，距离长且导线更宽。而把内存置于芯片内，传输距离短，导线更细，耗能就少很多。

Harry：未来我们将同时使用LPU和GPU？如何分配它们的使用场景？

Jonathan：首先，未来训练应该在GPU上进行，但推理其实可以不使用GPU了。英伟达应卖出他们生产的每一个GPU用于训练，但目前他们大约40%的市场是推理。如果我们部署大量低成本的推理芯片，你会发现GPU的销售数量保持不变——推理越多，你需要的训练就越多，反之亦然。

另一种用例是，由于我们的LPU实际上比GPU快得多，我们甚至尝试过将模型的一部分在我们的LPU上运行，让其余部分在GPU上运行，这会加速整个过程，并使GPU更具经济性。但实际上人们已经部署了许多GPU，我们考虑过的一个用例是向他们出售一些我们的LPU......

Harry：这正好也是我的问题：如果我提前很久就买了GPU，但等到我拿到它们并安装好时，它们几乎已经过时了。

Jonathan：对。我们与一些客户交谈过，他们提前一年多就下了GPU订单，也支付了费用，但仍然没有拿到产品。

但我们最近在帮沙特阿拉伯的部署中，从合同签订到在他们内部系统中提供第一个token，只用了51天。

Harry：你们怎么做到的？51天简直令人惊叹。

Jonathan：部分原因是我们的架构更简单。我们没有很多其他硬件组件。我们也不使用交换机在芯片之间连接，只是将芯片直接接入另一个芯片，芯片就是交换机。我们也不需要做网络调校。

「与英伟达并非竞争关系」

Harry：为什么英伟达在LPU上没有更积极主动？

Jonathan：你为什么认为他们不想更积极主动呢？

Harry：他们没提这件事。

Jonathan：他们为什么要提这件事？为什么要在该展示实力而不是脆弱性时谈论他没有的东西？

Harry：如果想要保护股东价值，保护在华尔街心目中的领先形象，他们至少会说“我们也在研究LPU”，对吧？

Jonathan：在英伟达拥有LPU前，谈论它实则会暴露自身短板。上一次GTC，他们宣称最新GPU比上一代快30 倍。从实现方式看，有两条曲线，30倍的提升是从一条曲线末端到另一条曲线末端。但如果把对比的起始数值点变一下，提升的倍数值就会改变。说芯片比上一代快无限倍，显然不合理。

这反映出企业销售的一些问题。当前大家获取芯片有一定困难，厂商销售往往依赖“规格主义”：以芯片速度、每秒TFlops等他们更擅长的规格为卖点进行销售，但最关键的指标应该是每token的成本、每token的能耗是多少，其他指标没那么重要。就像卖车时厂商喜欢强调高转速，而真正重要的是每加仑里程和实际车速。

Harry：所以你们并不把英伟达视为竞争对手？

Jonathan：我们之间并没有真正的竞争。英伟达不提供快速的token，也不提供低成本的token。但他们非常好地完成了训练。他们在这方面跟任何人都拉开了差距。

如果你去竞争，那意味着你没有找到一个未解决的客户问题。如果别人已经解决了这个问题。那你为什么还要花时间去解决呢？

......

Harry：LPU比GPU便宜多少？

Jonathan：便宜5倍多。仅最新GPU中的内存成本就比我们部署的每个芯片的完全负载成本更高。此外，能源效率上，LPU每个token使用的能源大约是GPU的三分之一。如果以三年为周期看，我们的成本中三分之一是Opex，主要包括能源和数据中心租金，另外三分之二是Capex。总体上看，要产生相同数量的推理token，GPU需要的Opex就与我们的Capex+Opex相当。

Harry：为什么英伟达的收入中有40%来自推理？为什么你们没有占据更多的市场份额呢？

Jonathan：在2024年年初，我们只有640个芯片。到2024年底，我们有4万个。你得保证质量，还得成本低、速度快，而且要有足够的产能。这就是我们不使用HBM的最重要原因：摆脱规模瓶颈。GPU使用的是与你的手机相同的制造工艺生产的，你手机中的硅片与GPU中的硅片是相同的。唯一区别在于内存，但内存是制造中最困难的部分，所以它在规模上是有限的。由于我们避免使用它们，所以我们的扩产可以没有限制。这对于推理来说很重要。

Harry：英伟达的毛利润率有多少？

Jonathan：70%到80%。

Harry：所以他们可以拿走70%到80%的利润，并且与你相比，他们可以极大地降低成本，就像你们也可以摧毁他们的利润率一样。

Jonathan：但你也可以说我们是对英伟达最大的利好之一，因为他们能以高利润率出售GPU用于训练，成本分摊到部署中。我们将接手相对“薄利多销”的推理业务。他们的利润率不一定会因此受影响。

Harry：你说的低利润率是多少？

Jonathan：根据交易会有不同，我们在交易的前期大约是20%，交易后期会得到更多。所以我们后期会承担一些风险。

Harry：在后期得到更多的意思是？

Jonathan：我们的交易中，我们不为自己的Capex出资，而由合作伙伴来承担部署的资金，但我们用合理的IRR来偿还这部分资金，收益的大部分还是归合作伙伴。也就是说，一旦我们达到了一定的IRR，其他人能为我们分摊成本。

所以，我们不仅在芯片上有创新，还在商业模式上进行了创新。我们的收入上限取决于我们能部署多少，而不是我们有多少钱。当我考虑我们能做什么时，这完全取决于我们能把规模扩到多大。

数据中心投建陷阱与电力供需错配

Harry：你们部署的限制是什么？仅仅取决于有多少芯片吗？

Jonathan：基本上是了。这里你问到对AI的误解，我认为其中一个就是关于电力的。确实存在芯片和电力之间的不匹配，但这部分是因为它们中间需要数据中心。数据中心并不难建，而建造电力设施其实更难。

正由于这中间需要匹配机制，你会看到超大规模云服务商四处奔走，说：“我需要1吉瓦（GW）的电力”，然后他们会向60个潜在的数据中心建设者询问。你就会听到很多回音：这里要1GW，那里要1GW，还有那里也要1GW。突然之间，似乎有60GW的需求，而这只是从最初的1GW那儿传出来的。

现在，全球大约有15GW的数据中心产能，比当前的需求量多了一倍多。我真正担心的是，人们现在正在建造更多的电力设施。未来3到4年，人们会说：“我建造了这么多电力，但没有人使用它。这完全是浪费，我们再也不会这么做了。”

然后，之前说过每18到24个月芯片数量会翻倍，3到4年后，你将把15GW翻倍2次，有那么多电力可用吗？将会发生的是，由于目前的不匹配和沟通不畅，我们现在会稍微过度建设，此后又会减少建设，最后再回到实际需求。这就是我最大的担忧，3到4年后，电力将成为一个硬瓶颈。

Harry：那为什么我们进入一个推理比训练大20倍的世界，还会出现数据中心供不应求？

Jonathan：很常见的一个问题是很多在建的数据中心都是假的。每个人都认为建数据中心就是房地产。但数据中心不是房地产。

现在行业里的一个常见笑话是，有人对你说：“我将为你提供100兆瓦（MW）的容量，我将在3个月内完成。你愿意签约吗？”然后你问：“你的正常运行时间是多少？”他们会说：“我不知道，取决于电网。”

“等等，你的发电机在哪里？”

“我还没有订购它们。”

“你知道发电机的交付期是90天吗？”

“啊，真的吗？”

然后下一个问题是：“你的水从哪里来？”

“等等，数据中心需要水。我以为它只是一堆芯片。”

诸如此类，有很多人不知道自己在做的实际上是什么。

Harry：（笑）既然建造数据中心需要时间，那我们有办法提前建造它们吗？

Jonathan：是的，如果你训练一个模型，你会预期在大约6个月内分摊成本。如果你要部署芯片，一般预期在3到5年内分摊成本。有些更倾向于3年，有些更倾向于5年。如果你要建造一个数据中心，你可能在谈论10到15年的事，因为考虑一座电力设施的时间维度是10到15年。这里存在一种不匹配，即融资需求和实际需求之间的不匹配。

训练模型、芯片部署还有数据中心这三类订单没法在承诺周期上达到统一。因为一项设施越通用，其回报时间也越长，但各方都希望承担最小的风险。现在数据中心的建设需要7年的合作承诺，在整个生态系统中就完全不匹配了。

这也是我们与沙特阿美合作在沙特成立一个新实体的原因，他们有能力长期资助这些项目。他们有长期视角，有高信用评级。

Harry：当你说到沙特阿美的资金能力，这也是误解所在。人们认为这是一轮15亿美元的融资。这并不是一个融资轮次对吧？

Jonathan：对，我们不是筹资15亿美元。15亿美元其实是我们通过交易获得的收入。

Harry：交易结构是怎样的？

Jonathan：合作从去年开始，我们部署了19000个芯片，用时大约51天。那么我们今年能做什么？所以他们开始在沙特建一些数据中心和电力设施。交易的结构就像我之前说的，他们为我们承担在数据中心部署芯片的支出，我们根据部署后赚到的钱来偿还这部分支出。这个交易有点像债务，但沙特阿美参与了上行收益；而我们在项目前期就可以获得利润。

开源架构将推动AI推理规模化

Harry：这如何影响你们所能做的事情？

Jonathan：我们不再受制于资本。有一个关于Groq的一个误解：有篇论文说我们不能在收取最低价格的情况下盈利。首先，我们可以收取更高的费用。第二，我们产品的利润贡献度（contribution margin）现在很可观。据我所知，我们是唯一一家真正靠运行这些开源模型赚钱的公司。因为基于开源模型，每个人在风险投资资金的支持下都有能力参与市场份额的竞争，就像Uber那样。我们自己赚钱，同时也可以通过可观的IRR让我们的合作方赚钱。

另外，我们也在与一些闭源模型提供商合作。例如我们与Play AI合作了闭源语音模型，我们可以从中获得收入分成；但问题是，由于模型快速商品化，很多其他的闭源合作商失去了收入。

Harry：你们的价格会随着垄断能力的降低/增加而变得更便宜/更贵吗？

Jonathan：我们希望保持利润率大致不变，同时价格下降，就像杰文斯悖论的力量一样，我们还是希望通过扩大我们的规模实现相对薄利多销，在人工智能时代保护人的自主性。

我们的目标是到2027年底，至少提供全球一半的AI推理算力。为了实现这一目标，我们需要让人们没有任何理由不将他们的模型运行在我们的平台上，也不会让人们因为额外收费而不使用我们平台上的模型。我不断告诉团队，当我们以指数级速度增长时，你赚取多少利润已经不重要了，重要的是在市场中占据一席之地并有价值。

作者：罗宾

出品：明亮公司什么是金融杠杆炒股

上一篇：湖北股票配资 2月20日基金净值：华安锦溶0-5年金融债定开债最新净值1.0786

下一篇：融资标的股票长城汽车(601633.SH)2月汽车销量同比增长9.65%

炒股配资论坛

什么是金融杠杆炒股 AI训练推理未来：开源与LPU驱动AI算力平权，推理成本实现5倍下降