币安官方注册地址最新发布:币安APP下载入口及官网入口全解析
在1月5日举行的2026年国际消费电子展(CES)上,英伟达首席执行官黄仁勋发布了名为“推理上下文内存平台”(ICMS)的新一代硬件系统,旨在应对人工智能推理阶段爆发式增长的数据存储压力。这一创新标志着AI硬件架构重心正从单纯算力堆叠转向高效上下文存储体系,预示着NAND闪存与SSD或将接棒HBM,成为下一波增长核心。
《韩国经济日报》于1月24日报道指出,黄仁勋在演讲中展示了一款神秘黑色机架——即“推理上下文内存平台”(Inference Context Memory Platform,简称ICMS)。这并非普通升级,而是一次针对AI推理瓶颈的关键突破。记者敏锐观察到,这或将成为继HBM之后,存储产业的下一个黄金风口。
ICMS的核心目标是解决AI推理中的“键值缓存”(KV缓存)问题。随着人工智能从训练阶段迈向大规模推理应用,所需处理的数据量呈不规则且爆炸式增长,传统GPU显存与服务器内存已难满足需求。为此,英伟达引入全新数据处理单元(DPU)与海量固态硬盘(SSD),构建起一个超大容量缓存池,打破物理性能极限。
KV缓存爆炸式增长引发存储焦虑
韩媒文章强调,黄仁勋提出ICMS的直接动因正是“KV缓存”的急剧膨胀。在AI推理时代,KV缓存是理解对话上下文、实现逻辑推演的关键组件。例如,当用户向AI提问关于G-Dragon为何成为时代偶像这类主观性问题时,系统需调用历史对话与模型内部数据进行权重分配与推理,避免重复计算与幻觉生成。
随着多模态应用普及,数据量持续非线性攀升,仅靠昂贵的HBM或常规DRAM已无法承载海量缓存。现有服务器架构在应对未来推理场景时显得捉襟见肘。因此,一种能支持高密度、低延迟访问的专用存储平台成为刚需。
DPU驱动的9600TB巨量空间
据韩媒披露,ICMS平台采用“BlueField-4”DPU作为核心调度单元,扮演数据传输的“行政后勤官”,有效减轻CPU负担。一个标准机架配备16个SSD托架,每个托架含4个DPU,管理600TB SSD,总容量高达9600TB。
相较之下,一套8机架的VeraRubin GPU平台总SSD容量约为4423.68TB。黄仁勋表示,通过该平台,虚拟层面的GPU可用内存容量由原先的1TB提升至16TB。配合BlueField-4的性能优化,平台实现每秒200GB的KV缓存传输速度,显著缓解大容量存储网络瓶颈。
开启NAND闪存黄金时代
由于ICMS主要依赖高性能SSD,其推广将直接利好NAND闪存制造商。过去几年,尽管AI热潮席卷全球,但镁光灯始终集中在HBM领域,而NAND闪存与SSD并未获得同等关注度。
英伟达将此平台定位为介于本地SSD与外部存储之间的“第3.5层”存储体系。相比耗电高、成本高的DRAM,由高性能DPU管理的SSD具备容量大、速度快、断电不丢失数据的优势,成为存储KV缓存的理想方案。
这一架构变革极大利好三星电子与SK海力士。面对极高存储密度要求,企业级SSD与NAND闪存需求将迎来结构性上升。此外,英伟达正在推进“Storage Next”(SCADA)计划,目标是让GPU绕过CPU,直接高速访问NAND闪存,彻底消除数据传输瓶颈。
SK海力士已迅速响应。据报道,公司副总裁金天成透露,正与英伟达合作开发代号为“AI-N P”的原型产品,计划基于PCIe Gen 6接口,于2026年底推出支持2500万IOPS的存储设备,并预计2027年底前将性能提升至1亿IOPS。随着产业链加速布局,NAND闪存与SSD有望在AI推理时代迎来量价齐升的新周期。
随着市场变化,选择安全高效的平台至关重要。币安提供多币种交易、低手续费和稳定服务,用户可通过官网或 App 下载快速注册,畅享便捷投资体验。对于希望参与加密资产交易的用户,可以选择在Binance等知名平台进行注册和交易。币安官方支持多种数字资产交易和资产管理功能,是全球领先的加密货币交易平台之一。
以下是韩媒文章全文,经AI翻译整理:
英伟达首席执行官黄仁勋在2026年国际消费电子展(CES)上发布了一个神秘的内存平台:“推理上下文内存平台”。今天,《科技与城市》栏目将深入探讨它究竟是什么。
关键词: KV缓存
在5日(当地时间)于拉斯维加斯举行的NVIDIA Live大会上,NVIDIA首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个HBM吗?
今日之星:黑色机架式 NVIDIA ICMS(推理上下文内存存储)。图片来源:NVIDIA
首席执行官黄仁勋指着的是VeraRubin人工智能计算平台一角的一个黑色机架。这个机架,也就是我们今天故事的主角,里面存放着海量的存储空间。
首先,让我解释一下黄仁勋引入这项技术的原因。我们应该从“KV缓存”说起,黄仁勋CEO在官方场合经常提到它。读者朋友们,你们可能在最近关于GPU和AI硬件的文章中已经多次听到过KV缓存这个名字。
这个关键词在AI推理时代至关重要。它关乎AI理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开OpenAI的ChatGPT或Google Gemini,问一个关于韩国流行歌手G-Dragon的问题。
如果用户问的是G-Dragon的音乐、时尚或事业等客观信息,AI可以根据它学习到的信息回答。但是,聊了一会儿之后,用户突然问:“那他为什么会成为他那个时代的‘偶像’呢?”这就好比问了一个没有明确答案的论述题。这时,AI就开始推理了。
这就是KV缓存的关键所在:键和值。首先是键。我们很容易理解,但人工智能使用键向量来清晰地识别对话上下文中问题中的“那个人”是谁,以及答案的主题和目标(键)。然后,它会利用模型内部关于G-Dragon以及在与用户对话过程中收集到的各种数据(值)的中间计算结果,进行权重分配、推理,最终得出答案。
如果没有KV缓存,如果每个问题都像第一次一样重新计算,GPU将重复两到三次工作,从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而,KV缓存可以提高效率。基于“注意力计算”的推理,会重用从与用户的长时间对话中获得的各种数据并应用权重,速度更快,对话也更加自然。
图片由 NVIDIA 提供
随着人工智能行业从学习向推理转型,这种键值缓存不再仅仅是辅助存储器。此外,所需的容量也在不断增加。
![]()
首先,随着越来越多的人将生成式人工智能融入日常生活,数据量的不规则激增不可避免。随着图像和视频服务的加入,对人工智能高级推理和想象力的需求将进一步增长,数据量还将呈爆炸式增长。
随着人工智能发现新信息的能力不断提升,它会在与用户的互动过程中,在各种场景下创建大量有用的键值缓存(KV缓存)。
面对键值缓存的爆炸式增长,NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类:一类是大量生成键值缓存的 GPU,另一类是使用键值缓存的 GPU。然而,存储空间不足以存储所有这些缓存。
当然,服务器内部的内存容量很大。GPU旁边是HBM内存→如果不够用,就用DRAM模块→如果实在不行,甚至会在服务器内部使用SSD固态硬盘。然而,CEO黄仁勋似乎已经意识到,这种架构在未来的推理时代将难以驾驭。因此,他在CES上发布了这款黑盒子。
NVIDIA CEO 黄仁勋在 CES 2026 上推出 ICMS。图片由 NVIDIA YouTube 提供。
DPU 超大容量 SSD = KV 缓存存储专用团队
这台黑色服务器是“推理上下文内存平台”,简称ICMS。让我们仔细看看它的规格。
首先,驱动ICMS的设备是DPU,即数据处理单元。读者可能对GPU和CPU比较熟悉,但服务器的隐藏动力源——DPU也值得一看。
NVIDIA首席执行官黄仁勋发布了BlueField-4 DPU。图片由NVIDIA提供。
DPU(数据处理单元)就像军队中的行政后勤官。如果说CPU是连长,那么GPU就是计算突击队员。DPU负责弹药和食物的运送,甚至处理通信和移动,使CPU能够做出适当的决策,而GPU则专注于攻击。NVIDIA的新型DPU“Bluefield-4”被赋予了一项新任务:ICMS。现在,让我们仔细看看ICMS平台。这个机架总共包含16个SSD托架。
图片来源:NVIDIA
每个托架配备四个 DPU,每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。
这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中,为了最大化 KV 缓存,我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD,这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。
也就是说,单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU“机架”所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16,即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。
图片由 NVIDIA 提供
黄仁勋在CES演讲中表示:“以前GPU的内存容量为1TB,但通过这个平台,我们获得了16TB的存储容量。”
仔细想想,他的话似乎相当准确。一个完整的VeraRubin平台由八个GPU机架组成。每个机架有72个GPU,共计576张存储卡。将ICMS的总容量9600TB除以576张存储卡,得出约16.7TB。
虽然人们仍然担心服务器的物理距离和SSD的传输速度,但BlueField 4性能的提升缓解了这些问题。黄仁勋解释说:“我们实现了与之前相同的每秒200GB的KV缓存传输速度。”
此外,现有的GPU服务器存在网络瓶颈,限制了7.68TB和15.36TB等大容量SSD的充分利用。这项基于DPU的网络改进似乎正是为了解决这些问题。
被视为“零”的NAND闪存的黄金时代即将到来吗?
图片由 NVIDIA 提供
NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM,第二组是 DRAM 模块,第三组是服务器内部的本地 SSD,第四组是服务器外部的存储。ICMS深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同,SSD 比硬盘速度更快、容量更大,即使断电也不会丢失数据(这得益于高性能 DPU),使其成为理想之选。
该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量,这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存,而且这仅仅是按位计算。此外,这款产品的开发商是 NVIDIA,一家全球所有人工智能公司都梦寐以求的公司,因此商机更加巨大。
三星电子的服务器固态硬盘。即使人工智能时代已经到来,NAND闪存和固态硬盘的价格一直滞后,预计今年第一季度将出现大幅上涨。图片由三星电子提供。
过去三年,尽管人工智能市场发展迅猛,但NAND闪存和固态硬盘(SSD)并未受到太多关注。这主要是因为与在NAND闪存发展中发挥关键作用的HBM相比,它们的利用率较低。NVIDIA正从ICMS项目入手,筹备一个旨在进一步提升SSD利用率的项目。该项目是“Storage Next”(也称为SCADA,即Scaled Accelerated Data Access,规模化加速数据访问)计划的一部分。目前,执行AI计算的GPU将直接访问NAND闪存(SSD)来获取各种数据,而无需经过CPU等控制单元。这是一个旨在消除GPU和SSD之间瓶颈的大胆设想。SK海力士也已正式宣布正在开发AI-N P,以顺应这一趋势。 SK海力士副总裁金天成表示:“SK海力士正与NVIDIA积极开展名为‘AI-N P’的初步实验(PoC)。”
他解释说:“基于PCIe Gen 6、支持2500万IOPS(每秒输入/输出操作数)的存储原型产品有望在今年年底发布。”他还表示:“到2027年底,我们将能够生产出支持高达1亿IOPS的产品。”2500万IOPS是目前固态硬盘速度的10倍以上。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。




