新闻资讯
你的位置:澳门新银河网址(中国大陆)官方网站IOS/安卓/手机APP下载安装 > 新闻资讯 > 澳门新银河网址娱乐网 在大模子推理历程中-澳门新银河网址(中国大陆)官方网站IOS/安卓/手机APP下载安装
澳门新银河网址娱乐网 在大模子推理历程中-澳门新银河网址(中国大陆)官方网站IOS/安卓/手机APP下载安装

发布日期:2026-03-30 08:08    点击次数:63

从“算力时期”插足“推理时期”,AI对内存的需求激增,大幅提振了各人存储公司功绩和股价。

但谷歌的一篇著作,让好意思国和韩国的内存巨头市值一天挥发了超900亿好意思元(约合东谈主民币6200亿元)。

当地期间3月24日,谷歌商榷院(Google Research)发布了一篇先容名为TurboQuant的向量量化压缩算法的著作,声称在不死亡准确率前提下,将大模子运行时的关节内存占用压缩至3比特(原有内存占用的1/6)。

有阛阓不雅点以为,这一算法将减少AI对内存的需求。

但也有分析师称,阛阓的反应施展,许多东谈主对时刻“一窍欠亨”。

谷歌发布新算法,存储巨头市值挥发逾6200亿元

当地期间3月24日,谷歌发布名为TurboQuant的内存压缩算法。谷歌方面默示,TurboQuant不错在不死亡准确性的情况下,将大型言语模子运行时的关节部分——键值缓存(KV Cache)的内存占用减少为原有的1/6,同期在英伟达H100GPU上的特定测试中,性能可提高高达8倍。

这一音问飞快触发阛阓重估逻辑。

富国银行分析师Andrew Rocha以为,这项时刻可能影响昔时对内存容量规格的需求判断。他在敷陈中写谈:“阛阓很快就会重新评估,AI究竟还需要几许内存容量。”

当地期间3月25日,即音问发布后的第一个好意思股走动日,存储芯片板块在盘中集体跳水。闪迪(SanDisk)股价一度大跌6.5%,收盘时跌幅收窄至3.5%,市值死亡36.3亿好意思元。同日,好意思光科技(Micron Technology)着落3.4%,市值死亡151.66亿好意思元;西部数据(Western Digital)着落1.63%,市值死亡16.64亿好意思元;希捷科技(Seagate Technology)着落2.76%,市值死亡21.4亿好意思元。

负面情绪飞快扩散至亚洲阛阓。3月26日,韩国SK海力士股价着落6.23%,市值死亡44.18万亿韩元(约合293.8亿好意思元);三星电子也着落了4.71%,市值死亡57.83万亿韩元(约合384.5亿好意思元)。

各人主要内存巨头市值死亡共计超900亿好意思元(约合东谈主民币6200亿元)。

直击大模子“资本痛点”:KV缓存占用减少83%

TurboQuant激勉滚动的中枢,在于其精确击中了大模子的关节资本痛点——KV缓存(Key-Value Cache)。

在大模子推理历程中,模子需要保存历史潦倒文信息变成KV缓存,以幸免类似揣测。但跟着潦倒文窗口增长,KV缓存呈线性膨大,占用多半GPU内存。

举例,一个700亿参数模子在512用户、2048 Token输入场景下,仅KV缓存就需约512GB内存,约为模子本色的4倍,已成为买卖化部署中的最大资本之一。

传统处理有打算是“量化”,即用低精度数据替代高精度浮点数,但时时葬送准确率,且还需相当存储量化参数,对消部分压缩收益。

TurboQuant通过两步优化处理这一问题。

第一步,运用名为PolarQuant的次第,将数据从笛卡尔坐标转化为极坐标,类似于“向东走3米,向北走4米”的教导,简化为“以37度角走5米”。通过速即旋转让数据漫步可展望,从而无需相当量化参数,径直减少内存支出。

第二步,再运用名为QJL(量化约翰逊-林登施特劳斯变换)的时刻,用只是1个比特来修正第一步压缩后产生的轻细误差,确保最终戒指的准确性。

谷歌默示,通过该组合有打算:

◆KV缓存可压缩至3比特,内存占用减少为原有的1/6(降幅约83%);

◆在Gemma、Mistral等模子测试中,性能与未压缩模子一致,无需相当查验或微调;

◆在NVIDIA H100测试中,4比特TurboQuant翔实力揣测速率达到32位未量化的8倍。

华尔街舌战:蹂躏缓存便是减少内存总需求吗?

尽管阛阓短期剧烈反应,但机构不雅点明显分化。

率先,这项时刻并非初度袒露,相干论文早在2025年4月已公开。

其次,有分析指出,谷歌所谓的“8倍性能提高”是与32位未量化模子对比得出,而现时主流已广泛罗致4位量化,执行提高或低于宣传值。

阛阓分析机构Citrini Research分析师Jukan直言,因TurboQuant导致内存股暴跌,反应出阛阓对时刻“一窍欠亨”,就像丰田推出混动发动机却让石油公司暴跌相似。

摩根士丹利则指出,TurboQuant时刻的影响鸿沟是有限的。它仅作用于推理阶段KV缓存,不影响模子权重,也不触及查验设施。因此,这并不虞味着合座存储需求下降到原来的1/6,而是提高单元硬件效果,让接头的硬件能处理更长的潦倒文或事迹更多用户。

此外,摩根士丹利征引“杰文斯悖论”(Jevons Paradox),该表面以为,效果提高时时不会减少资源浮滥,反而会因资本下降而刺激需求增长。就像瓦特雠校蒸汽机提高了煤炭点火效果,戒指却是各人煤炭需求量的飙升相似。摩根士丹利以为,通过大幅镌汰单次查询的事迹资本,TurboQuant约略让原来只可在云霄斯文集群上运行的模子移动至腹地,灵验镌汰AI鸿沟化部署的门槛,这可能反而能进一步提振合座需求。

Cloudflare首席实行官Matthew Prince将TurboQuant称为谷歌的“DeepSeek时刻”。类似情况曾在DeepSeek发布时出现:阛阓一度担忧算力需求下降,但最终AI应用爆发,反而推高硬件需求。一运转着落的英伟达其后再创历史新高。

从行业司法“内存帕金森定律”来看,TurboQuant蹂躏的内存不会闲置,而会被飞快浮滥:每一轮硬件升级或软件优化开释出来的存储余量,很快就会被更长的潦倒文窗口、更大的批处理鸿沟、更复杂的推理需求所吞吃。换言之,蹂躏下来的空间将被用于事迹更多并发苦求、处理更长的文档,或者运行原来因内存不及而无法加载的大模子,致使可能推进更庞大的AI应用在手机等移动拓荒上成为现实。

免责声明:本文内容与数据仅供参考,不组成投资提倡,使用前请核实。据此操作,风险自担。

逐日经济新闻澳门新银河网址娱乐网