一篇博客引发的股市地震
2026年3月25日,谷歌研究院发布了一篇关于TurboQuant压缩算法的博客文章,随即在全球资本市场掀起惊涛骇浪。
韩国首尔证券交易所开盘不到两小时,SK海力士暴跌近6%,三星电子下跌4.8%,KOSPI指数单日大跌3%。美股存储板块同样未能幸免:美光科技收跌4%,闪迪重挫6.5%,希捷下跌5.6%,西部数据跌4.4%。
Cloudflare首席执行官Matthew Prince甚至将其形容为”谷歌的DeepSeek时刻”,引发市场广泛讨论。
TurboQuant究竟是什么?
据谷歌官方介绍,TurboQuant是一套针对大模型推理阶段KV缓存(Key-Value Cache)的压缩算法。
大模型在生成每一个Token时,都需要”回看”之前所有Token的信息。为避免重复计算,模型会将每一层注意力机制产出的Key和Value向量全部缓存起来。随着对话长度增加,这份缓存会线性膨胀,成为推理阶段最大的内存瓶颈。
TurboQuant采用两阶段策略:首先通过随机旋转将高维向量转换为极坐标系统,消除传统量化方法中额外存储”量化常数”的开销;然后利用1-bit的Johnson-Lindenstrauss变换校正残余误差,确保内积计算无偏。
实验结果显示,该算法可在仅3-bit的总预算下实现接近无损的压缩效果,KV缓存开销降低6倍。在H100 GPU上,4-bit配置下的注意力计算速度相比32-bit基线提升了8倍。
市场反应是否过度?
然而,多位分析人士指出,市场对这项技术的影响可能存在严重误读。
首先,TurboQuant并非新成果。该论文最早于2025年4月上传至arXiv,至今已近11个月,期间并未引发广泛关注。谷歌只是在博客中重新介绍了这项即将在ICLR 2026上发表的研究。
其次,技术适用范围有限。TurboQuant压缩的是推理时GPU显存中的KV缓存,属于软件层优化。而AI对内存芯片的需求来自三个方面:模型权重、训练时的激活值和梯度、以及推理时的KV缓存。该算法只触及第三项,前两项完全未涉及。
更关键的是,目前TurboQuant仅在8B参数级别的开源模型上得到验证,70B以上模型、MoE架构、百万级上下文窗口等真正消耗内存的场景尚无数据支撑。谷歌也未宣布将其部署到Gemini或任何生产系统中。
Quilter Cheviot技术研究主管Ben Barringer向媒体表示:“TurboQuant增加了压力,但这是演进性的,不是革命性的。它不会改变行业的长期需求图景。“
杰文斯悖论:效率提升可能带来更多需求
历史经验表明,技术效率的提升往往会激发更大的总需求——这就是著名的”杰文斯悖论”。蒸汽机效率提高后,煤炭消耗总量反而增加,因为更多人开始使用蒸汽机。
无限星辰董事长方海声分析指出,如果TurboQuant真正落地,最可能的结果不是减少内存采购,而是服务商利用节省下来的显存将上下文窗口从128K扩展到1M,并发数从512提升到5000——总内存需求可能持平甚至上升。
摩根士丹利也在研报中强调,该技术仅作用于推理阶段,反而可能激活更多因成本受限而无法落地的AI应用场景。
市场情绪与技术现实的错位
此次事件折射出当前市场对AI的复杂心态:一方面极度FOMO(害怕错过),另一方面越发迷茫。
值得注意的是,美光在3月18日公布的Q2财报显示营收239亿美元,远超预期,但股价在随后一周连跌四天。市场担心的不是现在,而是未来——美光Q1资本支出同比增长68%,达到53.9亿美元,这是一个押注内存需求持续增长的巨大赌注。
TurboQuant的出现,恰好给了市场一个”需求可能没那么多”的理由,两个担忧叠加触发了这波抛售。
然而,一个范围有限的算法论文,经过一番信息传播的折腾,最终导致整个产业周期判断被重新定价,这本身就说明市场在AI领域的定价机制存在明显缺陷。
技术不关心股票代码,只关心比特的边界在哪里。在算力军备竞赛中,最锋利的武器未必是更大的芯片,也可能是更聪明的数学。但数学的进步,未必意味着硬件需求的终结。