什么是金融杠杆炒股 AI训练推理未来:开源与LPU驱动AI算力平权,推理成本实现5倍下降
(原标题:AI训练推理未来:开源与LPU驱动AI算力平权什么是金融杠杆炒股,推理成本实现5倍下降)
近日,知名播客20VC主播Harry Stebbings对Groq的创始人、CEO Jonathan Ross进行了一次访谈。Jonathan讨论了当推理规模远超训练后,Groq如何通过LPU架构实现“算力民主化”的目标,Groq在近期宣布的与沙特阿美的合作细节以及他创业中的经历。
Groq研发了全球首款AI推理芯片LPU(语言处理单元),并且其最新一代LPU于今年2月发布。在创立Groq之前,Jonathan Ross曾以"20%自由项目"形式启动了后来成为谷歌TPU(张量处理单元)的研发工作,期间他设计并实现了第一代TPU芯片的核心架构。7年多前,Jonathan离开谷歌后开始了LPU的研发,以推动AI推理的规模化。
Jonathan认为,AI推理的效率瓶颈并非单纯依赖算力规模,而是需要平衡训练与推理的投入:一方面,LPU芯片的耗(仅为GPU的1/3)和低成本(比GPU低5倍以上)使得推理服务更易规模化;但另一方面,算力基础设施的部署需直面电力供应,即全球数据中心产能过剩与短期需求错配,和长期资本投入的双重挑战。
而就在2月24日,美国知名TMT投资人Gavin Baker在发布于社交媒体X的「未来AI竞争趋势」推文中指出,从预训练向推理为中心的计算范式转移,本质上是AI投资回报率的再平衡。尽管这一转变速度远超预期,但其核心逻辑清晰:推理需求的爆发推动了对高效算力基础设施的需求。他强调,未来需要更多“本田级”(50-100兆瓦)推理数据中心——即地理分布广泛、针对低功耗和成本优化的中小型设施,而非依赖少数“法拉利级”(超1吉瓦)预训练超算。这一趋势将直接影响行业格局:传统GPU巨头可能因其在训练领域的垄断地位受到冲击,而能够提供灵活推理服务的厂商和边缘计算玩家将获得更大话语权。
以下文章为访谈内容节选,由「明亮公司」编译:
Harry:我想把节目分成两部分。第一部分谈谈当前的行业格局,第二部分深入探讨Groq,尤其是你们刚达成的巨额交易——我认为很多人对此存在误解。先从Scaling Law开始吧,大家都说Scaling Law快要失效了,但同时又看到以DeepSeek为代表的公司正实现指数级创新。究竟Scaling Law的极限在哪里?
Jonathan:Scaling Law在OpenAI发布的一篇论文中得到了极大的推动,核心观点是模型参数越多,吸收信息的能力越强。他们的图表显示,随着参数量增加,模型性能提升趋近于对数增长,而非线性。这也是为何有人追求万亿级参数训练的原因。但有个关键问题:Scaling Law是假设所有训练数据质量相同的情况下产生的性能大幅增长。但如果我们像教孩子一样训练模型:“1+1等于几?”“2×3是多少?”“双曲正切函数的二阶导数是什么?”这些简单和复杂问题的堆砌式训练并不聪明。我们并未真正教会模型如何推理。真正让模型进一步高效提升的是用合成数据进行训练,而不是质量混杂的海量数据。
合成数据如何解决模型效率困局
Harry:为什么合成数据比原始数据更好?
Jonathan:它使模型更智能。虽然Reddit很好,但在特定领域,它包含的知识能力一定不如与一个有PhD的专家对话得出的收获。如果你有更好的模型,模型能生成更优质的数据,就越可能产生与专家交流获得的效果。通过反复迭代训练——用模型生成的合成数据再训练模型,逐步筛选出正确部分并优化,去掉有误的部分,可突破传统训练的低效。
Harry:但计算效率还是会有个上限?
Jonathan:有吗?理论上可能存在数学极限。例如计算机科学中的“大O复杂度”表明,不同算法解决同一问题的步骤数差异巨大。比如排序1000个数时,快速排序需要约1万步(n log n),而冒泡排序需要100万步(n)。乘法运算虽看似线性,但在底层实现中语言模型仍需大量中间步骤。
无论多复杂的运算,理论上都可以通过训练让模型直接记住任意大的数值组合,从而减少推理步骤。随着训练数据量的增加,模型对特定场景的适应性增强,但仍需保留部分通用推理能力。
Harry:如果效率没有天花板,模型性能的瓶颈在哪里?下一步我们会往哪里发展?
Jonathan:模型需要训练、推理两者平衡。训练使其更具“直觉性”,意味着它的思维流可以直接得出答案。推理部分不同,推理则依赖系统性算法,是大O复杂度的部分。所以它们是两个思考体系:快思考、慢思考,就像丹尼尔·卡尼曼的书里说的那样。两种系统的增长结合时,模型的性能才能获得几何式增长。
Harry:我再理解一下,如果我们有合成数据来支持模型训练......
Jonathan:模型会更具直觉性,也就是能更快地得出答案,就像国际象棋大师一样,一眼就能看出下一步怎么走。
Harry:合成数据的供应不是问题,瓶颈是什么?硬件质量?算力?还是算法?
Jonathan:硬件、算力、算法都是,三者缺一不可。当然,人们对瓶颈可能有所误解。现在算力更像是“软瓶颈”——当算力充足时,数据与算法的不足才会显现。理想情况下应同步提升这三者。
Harry:除了对合成数据、算力、算法的误解,你认为目前最普遍的误解是哪些,尤其在AI推理方面?
Jonathan:刚开始的误解是训练的成本比推理更高,不过这个观点现在已经消除了,每个人都明白推理是未来很重要的基础设施。
Harry:人们完全理解了吗?当你看到英伟达股价在DeepSeek之后下跌了15%,如果他们真正理解了推理的重要性,英伟达就不应该下跌15%。
Jonathan:我认为下跌更多是因为所有人都再说英伟达股票不可能再涨了,他们正在寻找一个契机,表明“我们错了,我们要抛售”,但这只是市场的某种人气博弈,与市场的称重机属性无关。
Harry:那么现在的创业者应该怎么构建业务?应该假设Scaling Law会延续吗?你如何建议?
Jonathan:我会建议以模型瓶颈会不断突破的预期来开展事业。例如现在的模型有幻觉问题,因此,一个专门的AI医疗诊断公司或是AI法律公司会很困难,但是你如果一直做这件事,算法改进会降低幻觉率。
就像我们一样。我们在PMF出现之前已经创业了7年,我们的赌注是推理的规模化。因为在运行大而重的模型后,推理将成为瓶颈。我们提前做出了正确的押注,所以现在的节奏刚好。我们的工作是为“风口”做好准备。这是最难的事情,因为曾经几乎每个人都在告诉我们,不要做大语言模型。
Harry:你有没有怀疑过自己?7年的等待非常漫长。
Jonathan:有过怀疑,但从没有停下来。原因是我们甚至在开始做TPU之前就担心,AI将是一种允许某些人拥有过度控制权和影响力的技术。如果任由这种技术落入可能不是最合适的人的手中,那么其他人无论你有多富有,也没有意义。这是最重要的技术。所以无论有多困难,我们都别无选择,只能成功。我们的目标是在人工智能时代保护人类的自主性。如果我们做不到这一点,不管有没有怀疑,我们都会失败。
曾经有过一段时期,我们的资金将要耗尽,当时我们做了一件我们称之为“Grok债券”的事情,就像二战时期的“战争债券”。
Harry:可能有人不清楚战争债券。
Jonathan:战争债券是美国二战的一种资金来源。美国政府制作了一些海报,上面写着“资助你的部队”之类的内容。你可以购买这些债券,他们会支付你一定的回报。
当时我们的资金快要用完了,与其假装坚强,我们选择向员工坦诚,告诉他们我们快没钱了。我们希望他们能用股权来换取薪水。我们甚至把战争债券的照片拍下来,把上面的文字换成了“Grok债券”。
我们担心每个人都会离开,然而,大约80%的员工参与了进来,其中50%的人甚至将薪水降低到了法律规定的最低标准。后来,当我们筹集到第一笔3亿美元的融资时,我们的银行账户里的钱甚至比通过“Grok债券”节省下来的钱还要少。如果不是因为这些,我们真的会耗尽资金。那一段确实非常艰难,我知道每个创始人都经历过。
AI推理的未来:能源效率与成本重构
Harry:当推理的重要性远远超过训练,那会是一个怎样的世界?
Jonathan:我认为最简单的方法是把LPU或GPU比作员工。如果你有足够的LPU或GPU,你可以像拥有员工一样完成工作。不过有一点不同,它们不会辞职去别的地方,你也不需要重新培训它们。一旦你的模型达到了一定的能力,它就会始终保持至少那样的能力,对吧?你可以从中获得一致性。但现在想象一下,你是一家初创公司,与其出去招聘100个人,你只招聘10个,然后部署相当于90个员工的算力。这是一种完全不同的思考方式,因为你的Capex或一些情况下的Opex支出已经可以替代部分员工的工作了。
就推理而言,为了让你了解一下我们的扩产情况,我们从2024年初的大约640个芯片提升到年底的超过4万个,今年我们预计超过200万个,明年就是另一个数量级了。
Harry:产能方面有担忧吗?这个扩产速度很惊人。
Jonathan:我们会将我们合作的Fab产能打满,但我不会透露具体数字。
明年的GPU产能扩张将极度依赖三星、海力士和镁光的高带宽内存(HBM),世界上只有这3家公司生产HBM。这类特种内存产量有限且成本高昂,是主要制约因素。
但我们在创立Grok时在架构上有了新的启发,绕过了HBM瓶颈下的产能困扰。众所周知,摩尔定律每18到24个月像时钟一样准时地将晶体管数量翻倍,意味着算力翻倍;而我们观察到芯片的数量也在每18到24个月翻倍,不是2倍,而是4倍。因此我们问自己:如果拥有无限数量的芯片,我们能在架构上做出什么不同的选择?答案很明显:与其用GPU依赖外部内存,让单个GPU需反复拆解和重建计算流程,不如使用大量的LPU,将模型的所有参数保留在芯片中,同时我们让计算流通过数百甚至数千个LPU芯片并持续流动,例如用600或3000个芯片运行一个模型。
Harry:这如何改变能源利用效率?
Jonathan:LPU通过架构优化将能耗降低至GPU的三分之一。因为单位token能耗降低了。这好比你试图将一吨煤从城市的一边运到另一边,你是用摩托车还是用货运火车更高效?摩托车每次使用的能量更少,但它需要更多的往返次数,因而会消耗更多的总能量。这也是大多数人的一种误解:认为边缘计算的能耗更低,但实际上边缘计算能源效率低于数据中心计算。在数据中心计算就像用货运火车运输,能同时完成很多任务。而且不需要从外部内存读取数据,也就不用为此耗能。
再讲讲为何LPU如此节能:芯片里物理导线有宽度,给导线充电设为 “1”,放电设为 “0”,类似给电容器充放电,这一过程会耗能。导线越长,需电荷越多。当HBM在这,数据在另一个芯片上,芯片间传输比特时,导线要反复充放电,距离长且导线更宽。而把内存置于芯片内,传输距离短,导线更细,耗能就少很多。
Harry:未来我们将同时使用LPU和GPU?如何分配它们的使用场景?
Jonathan:首先,未来训练应该在GPU上进行,但推理其实可以不使用GPU了。英伟达应卖出他们生产的每一个GPU用于训练,但目前他们大约40%的市场是推理。如果我们部署大量低成本的推理芯片,你会发现GPU的销售数量保持不变——推理越多,你需要的训练就越多,反之亦然。
另一种用例是,由于我们的LPU实际上比GPU快得多,我们甚至尝试过将模型的一部分在我们的LPU上运行,让其余部分在GPU上运行,这会加速整个过程,并使GPU更具经济性。但实际上人们已经部署了许多GPU,我们考虑过的一个用例是向他们出售一些我们的LPU......
Harry:这正好也是我的问题:如果我提前很久就买了GPU,但等到我拿到它们并安装好时,它们几乎已经过时了。
Jonathan:对。我们与一些客户交谈过,他们提前一年多就下了GPU订单,也支付了费用,但仍然没有拿到产品。
但我们最近在帮沙特阿拉伯的部署中,从合同签订到在他们内部系统中提供第一个token,只用了51天。
Harry:你们怎么做到的?51天简直令人惊叹。
Jonathan:部分原因是我们的架构更简单。我们没有很多其他硬件组件。我们也不使用交换机在芯片之间连接,只是将芯片直接接入另一个芯片,芯片就是交换机。我们也不需要做网络调校。
「与英伟达并非竞争关系」
Harry:为什么英伟达在LPU上没有更积极主动?
Jonathan:你为什么认为他们不想更积极主动呢?
Harry:他们没提这件事。
Jonathan:他们为什么要提这件事?为什么要在该展示实力而不是脆弱性时谈论他没有的东西?
Harry:如果想要保护股东价值,保护在华尔街心目中的领先形象,他们至少会说“我们也在研究LPU”,对吧?
Jonathan:在英伟达拥有LPU前,谈论它实则会暴露自身短板。上一次GTC,他们宣称最新GPU比上一代快30 倍。从实现方式看,有两条曲线,30倍的提升是从一条曲线末端到另一条曲线末端。但如果把对比的起始数值点变一下,提升的倍数值就会改变。说芯片比上一代快无限倍,显然不合理。
这反映出企业销售的一些问题。当前大家获取芯片有一定困难,厂商销售往往依赖“规格主义”:以芯片速度、每秒TFlops等他们更擅长的规格为卖点进行销售,但最关键的指标应该是每token的成本、每token的能耗是多少,其他指标没那么重要。就像卖车时厂商喜欢强调高转速,而真正重要的是每加仑里程和实际车速。
Harry:所以你们并不把英伟达视为竞争对手?
Jonathan:我们之间并没有真正的竞争。英伟达不提供快速的token,也不提供低成本的token。但他们非常好地完成了训练。他们在这方面跟任何人都拉开了差距。
如果你去竞争,那意味着你没有找到一个未解决的客户问题。如果别人已经解决了这个问题。那你为什么还要花时间去解决呢?
......
Harry:LPU比GPU便宜多少?
Jonathan:便宜5倍多。仅最新GPU中的内存成本就比我们部署的每个芯片的完全负载成本更高。此外,能源效率上,LPU每个token使用的能源大约是GPU的三分之一。如果以三年为周期看,我们的成本中三分之一是Opex,主要包括能源和数据中心租金,另外三分之二是Capex。总体上看,要产生相同数量的推理token,GPU需要的Opex就与我们的Capex+Opex相当。
Harry:为什么英伟达的收入中有40%来自推理?为什么你们没有占据更多的市场份额呢?
Jonathan:在2024年年初,我们只有640个芯片。到2024年底,我们有4万个。你得保证质量,还得成本低、速度快,而且要有足够的产能。这就是我们不使用HBM的最重要原因:摆脱规模瓶颈。GPU使用的是与你的手机相同的制造工艺生产的,你手机中的硅片与GPU中的硅片是相同的。唯一区别在于内存,但内存是制造中最困难的部分,所以它在规模上是有限的。由于我们避免使用它们,所以我们的扩产可以没有限制。这对于推理来说很重要。
Harry:英伟达的毛利润率有多少?
Jonathan:70%到80%。
Harry:所以他们可以拿走70%到80%的利润,并且与你相比,他们可以极大地降低成本,就像你们也可以摧毁他们的利润率一样。
Jonathan:但你也可以说我们是对英伟达最大的利好之一,因为他们能以高利润率出售GPU用于训练,成本分摊到部署中。我们将接手相对“薄利多销”的推理业务。他们的利润率不一定会因此受影响。
Harry:你说的低利润率是多少?
Jonathan:根据交易会有不同,我们在交易的前期大约是20%,交易后期会得到更多。所以我们后期会承担一些风险。
Harry:在后期得到更多的意思是?
Jonathan:我们的交易中,我们不为自己的Capex出资,而由合作伙伴来承担部署的资金,但我们用合理的IRR来偿还这部分资金,收益的大部分还是归合作伙伴。也就是说,一旦我们达到了一定的IRR,其他人能为我们分摊成本。
所以,我们不仅在芯片上有创新,还在商业模式上进行了创新。我们的收入上限取决于我们能部署多少,而不是我们有多少钱。当我考虑我们能做什么时,这完全取决于我们能把规模扩到多大。
数据中心投建陷阱与电力供需错配
Harry:你们部署的限制是什么?仅仅取决于有多少芯片吗?
Jonathan:基本上是了。这里你问到对AI的误解,我认为其中一个就是关于电力的。确实存在芯片和电力之间的不匹配,但这部分是因为它们中间需要数据中心。数据中心并不难建,而建造电力设施其实更难。
正由于这中间需要匹配机制,你会看到超大规模云服务商四处奔走,说:“我需要1吉瓦(GW)的电力”,然后他们会向60个潜在的数据中心建设者询问。你就会听到很多回音:这里要1GW,那里要1GW,还有那里也要1GW。突然之间,似乎有60GW的需求,而这只是从最初的1GW那儿传出来的。
现在,全球大约有15GW的数据中心产能,比当前的需求量多了一倍多。我真正担心的是,人们现在正在建造更多的电力设施。未来3到4年,人们会说:“我建造了这么多电力,但没有人使用它。这完全是浪费,我们再也不会这么做了。”
然后,之前说过每18到24个月芯片数量会翻倍,3到4年后,你将把15GW翻倍2次,有那么多电力可用吗?将会发生的是,由于目前的不匹配和沟通不畅,我们现在会稍微过度建设,此后又会减少建设,最后再回到实际需求。这就是我最大的担忧,3到4年后,电力将成为一个硬瓶颈。
Harry:那为什么我们进入一个推理比训练大20倍的世界,还会出现数据中心供不应求?
Jonathan:很常见的一个问题是很多在建的数据中心都是假的。每个人都认为建数据中心就是房地产。但数据中心不是房地产。
现在行业里的一个常见笑话是,有人对你说:“我将为你提供100兆瓦(MW)的容量,我将在3个月内完成。你愿意签约吗?”然后你问:“你的正常运行时间是多少?”他们会说:“我不知道,取决于电网。”
“等等,你的发电机在哪里?”
“我还没有订购它们。”
“你知道发电机的交付期是90天吗?”
“啊,真的吗?”
然后下一个问题是:“你的水从哪里来?”
“等等,数据中心需要水。我以为它只是一堆芯片。”
诸如此类,有很多人不知道自己在做的实际上是什么。
Harry:(笑)既然建造数据中心需要时间,那我们有办法提前建造它们吗?
Jonathan:是的,如果你训练一个模型,你会预期在大约6个月内分摊成本。如果你要部署芯片,一般预期在3到5年内分摊成本。有些更倾向于3年,有些更倾向于5年。如果你要建造一个数据中心,你可能在谈论10到15年的事,因为考虑一座电力设施的时间维度是10到15年。这里存在一种不匹配,即融资需求和实际需求之间的不匹配。
训练模型、芯片部署还有数据中心这三类订单没法在承诺周期上达到统一。因为一项设施越通用,其回报时间也越长,但各方都希望承担最小的风险。现在数据中心的建设需要7年的合作承诺,在整个生态系统中就完全不匹配了。
这也是我们与沙特阿美合作在沙特成立一个新实体的原因,他们有能力长期资助这些项目。他们有长期视角,有高信用评级。
Harry:当你说到沙特阿美的资金能力,这也是误解所在。人们认为这是一轮15亿美元的融资。这并不是一个融资轮次对吧?
Jonathan:对,我们不是筹资15亿美元。15亿美元其实是我们通过交易获得的收入。
Harry:交易结构是怎样的?
Jonathan:合作从去年开始,我们部署了19000个芯片,用时大约51天。那么我们今年能做什么?所以他们开始在沙特建一些数据中心和电力设施。交易的结构就像我之前说的,他们为我们承担在数据中心部署芯片的支出,我们根据部署后赚到的钱来偿还这部分支出。这个交易有点像债务,但沙特阿美参与了上行收益;而我们在项目前期就可以获得利润。
开源架构将推动AI推理规模化
Harry:这如何影响你们所能做的事情?
Jonathan:我们不再受制于资本。有一个关于Groq的一个误解:有篇论文说我们不能在收取最低价格的情况下盈利。首先,我们可以收取更高的费用。第二,我们产品的利润贡献度(contribution margin)现在很可观。据我所知,我们是唯一一家真正靠运行这些开源模型赚钱的公司。因为基于开源模型,每个人在风险投资资金的支持下都有能力参与市场份额的竞争,就像Uber那样。我们自己赚钱,同时也可以通过可观的IRR让我们的合作方赚钱。
另外,我们也在与一些闭源模型提供商合作。例如我们与Play AI合作了闭源语音模型,我们可以从中获得收入分成;但问题是,由于模型快速商品化,很多其他的闭源合作商失去了收入。
Harry:你们的价格会随着垄断能力的降低/增加而变得更便宜/更贵吗?
Jonathan:我们希望保持利润率大致不变,同时价格下降,就像杰文斯悖论的力量一样,我们还是希望通过扩大我们的规模实现相对薄利多销,在人工智能时代保护人的自主性。
我们的目标是到2027年底,至少提供全球一半的AI推理算力。为了实现这一目标,我们需要让人们没有任何理由不将他们的模型运行在我们的平台上,也不会让人们因为额外收费而不使用我们平台上的模型。我不断告诉团队,当我们以指数级速度增长时,你赚取多少利润已经不重要了,重要的是在市场中占据一席之地并有价值。
作者:罗宾
出品:明亮公司什么是金融杠杆炒股
上一篇:湖北股票配资 2月20日基金净值:华安锦溶0-5年金融债定开债最新净值1.0786
下一篇:没有了