一篇论文砸掉6200亿:谷歌TurboQuant与存储芯片的杰文斯时刻
谷歌TurboQuant算法将AI推理内存压缩6倍,全球存储芯片股两日蒸发6200亿元。华尔街引用杰文斯悖论集体看多,锐报拆解技术细节、市场误读与谷歌的议价权暗线。
KV缓存内存压缩倍数
两日市值蒸发(人民币)
领跌美股存储板块
供给端约束未变
Key Findings
事件:谷歌研究院3月24日发布TurboQuant算法,将大语言模型推理时的KV缓存从16比特压缩至3比特,实现6倍内存缩减和最高8倍推理加速。论文将在ICLR 2026正式发表。
市场反应:25日美股存储板块跳水,26日亚洲市场跟跌。闪迪单日暴跌11%,SK海力士跌6.23%,三星跌4.71%,美光跌3.4%(五日累计跌近20%)。全球主要存储厂商市值合计蒸发约6200亿元。
核心判断:市场用"需求毁灭"的叙事定价了一篇作用范围有限的论文。TurboQuant仅压缩推理环节的KV缓存,不触及训练需求和模型权重——而后两者才是HBM需求的主体。这是一次技术误读引发的情绪性抛售。
一、论文:3比特的精度魔术
3月24日,谷歌研究院在官方博客发布TurboQuant——一种针对大语言模型推理环节的KV缓存(Key-Value Cache)极限压缩算法。KV缓存是大模型在推理时用于存储先前计算结果的内存区域,避免每次生成新token时重复计算整个上下文窗口。TurboQuant将每个KV缓存值从标准的16比特压缩至3比特,在Nvidia H100 GPU上实现了6倍内存缩减和最高8倍推理吞吐提升,且在所有基准测试中保持了与未压缩版本一致的精度。
技术路径分两步。第一步PolarQuant通过随机旋转数据向量简化其几何结构,使标准量化器能够高效压缩每个维度,完成主体压缩。第二步用仅1比特的QJL算法修正残余误差,消除量化偏差,确保注意力得分的精确性。这篇论文已被ICLR 2026接收,开源社区迅速复现——GitHub上的PyTorch实现显示5倍压缩率和99.5%的注意力保真度。硅谷将其称为"谷歌版DeepSeek"。
换言之,TurboQuant解决的是一个非常具体的问题:在推理阶段,如何用更少的内存存储更长的上下文。它不改变模型本身的参数规模,不触及训练阶段的算力需求,也不减少模型权重的存储空间。这个区分至关重要,因为市场的恐慌恰恰建立在对此的忽视之上。
二、抛售:6200亿元的误读
论文发布次日,美股存储板块率先跳水。闪迪单日暴跌11.02%,领跌整个板块;西部数据跌4.7%,希捷跌2.76%,美光跌3.4%。26日亚洲开盘,恐慌情绪越洋传导:韩国市场上,SK海力士跌6.23%,三星电子跌4.71%。全球主要存储厂商市值两日合计蒸发约6200亿元人民币。纳斯达克指数当日收跌2.4%,Meta和美光的拖累占了相当份额。
| 公司 | 市场 | 跌幅 | 备注 |
|---|---|---|---|
| 闪迪 SanDisk | 美股 | -11.02% | 领跌板块,NAND闪存敞口最大 |
| SK海力士 | 韩股 | -6.23% | HBM核心供应商,市场担忧需求放缓 |
| 三星电子 | 韩股 | -4.71% | DRAM+NAND双重敞口 |
| 西部数据 | 美股 | -4.70% | 存储和数据中心业务占比高 |
| 美光科技 | 美股 | -3.40% | 五日累计跌幅近20% |
| 希捷科技 | 美股 | -2.76% | HDD为主,AI存储敞口相对有限 |
抛售逻辑直白:如果AI推理需要的内存减少了6倍,那存储芯片的需求岂不要断崖式下降?这个推理在直觉上成立,但技术细节讲的是另一个故事。韩国《首尔经济日报》引述半导体分析师指出,TurboQuant的实际效果约为2.6倍而非论文标题中的6倍——因为论文数据基于理想实验室条件,工程部署后的压缩率会打折扣。更关键的是,KV缓存仅占推理总内存的15%至25%,模型权重才是内存消耗的主体。即便KV缓存压缩了6倍,对总推理内存的节省也仅在20%左右——远非"需求毁灭"的级别。
三、反论:杰文斯悖论与真实的需求结构
华尔街分析师的反应几乎一边倒地看多。摩根士丹利亚洲科技研究主管Shawn Kim率先祭出杰文斯悖论(Jevons Paradox):当一种资源的使用效率提升时,其单位成本下降反而会刺激更大规模的消费,最终总消耗量不降反升。19世纪英国经济学家杰文斯观察到蒸汽机效率的提升并未减少煤炭消费,反而因为蒸汽动力变得更经济实惠而大幅推动了工业化。Kim认为TurboQuant的逻辑如出一辙:推理成本降至原来的六分之一,意味着此前只能在云端昂贵集群上运行的模型现在可以部署到本地设备,原本受限于成本的应用场景将被释放。摩根大通和花旗也持类似观点。
由此观之,TurboQuant对存储需求的影响需要从两个维度拆解。其一是直接效应:单次推理的KV缓存内存需求下降,这是确定的。其二是间接效应:推理成本下降催生更多部署、更多用户、更长的上下文窗口——这是杰文斯悖论的作用区间,其强度取决于AI应用渗透率的弹性。从当前供给侧看,三星、SK海力士和美光已将70%的新增产能分配给HBM,市场仍存在50%至60%的HBM产能缺口。训练阶段对HBM的需求丝毫未受TurboQuant影响——而训练才是HBM订单的核心驱动力。
换言之,市场在用一个局部变量的变化来重新定价整个板块的估值。这不外如是——技术论文引发的恐慌性抛售,历史上有迹可循。2024年DeepSeek发布时,AI芯片板块同样经历过短期剧烈回调,随后在需求持续增长的事实面前迅速反弹。
四、暗线:谷歌的议价权博弈
TurboQuant引发的市场波动有一个容易被忽略的维度:谷歌为什么选择在这个时间点公开发布这篇论文?
作为全球最大的AI推理基础设施运营商之一,谷歌每年在HBM采购上的支出以百亿美元计。SK海力士是其HBM的主要供应商,三星正在追赶。在HBM供给持续紧张、价格居高不下的格局中,谷歌公开展示"我们可以用更少的内存做同样的事",本质上是向供应商释放一个议价信号:你们的不可替代性并非绝对。
这个信号的时机耐人寻味。HBM4预计将在2026年下半年量产,而谷歌、Meta、微软等超大规模数据中心运营商正与存储厂商就HBM4的价格和供货优先级展开谈判。在这个节点上抛出一篇降低内存依赖的论文,无论其工程落地程度如何,都足以在谈判桌上为买方争取一些心理优势。表面上是技术发布,实质是采购谈判中的筹码。
五、判断
TurboQuant是一篇优秀的工程论文,它在KV缓存量化这个细分领域实现了当前最优结果。但它不是一个改变存储芯片行业供需格局的事件。市场在两天内蒸发6200亿元市值,定价的不是论文的技术含量,而是对"AI硬件需求见顶"的焦虑——一种自2024年以来就反复出现、又反复被证伪的情绪。
存储芯片的核心需求驱动力——AI训练的算力军备竞赛和HBM的结构性供给短缺——没有被一篇推理端优化论文动摇。6200亿元的蒸发不是技术判断的结果,是恐惧定价的产物。对投资者而言,这更接近于一个买入机会而非逃离信号。不过,这个判断的前提是杰文斯悖论在AI推理领域依然成立——而从蒸汽机到云计算的两百年历史看,它几乎从未失灵过。
读到这里,说明你关注真正重要的事
锐报每周深度分析直送邮箱——财经、地缘、科技,穿透表象。零广告,零废话。