又推迟！英伟达Blackwell GPU被爆散热缺陷，预计延期三个月交付！

据《The Information》11月18日消息，英伟达新一代 Blackwell GPU 在高容量服务器机架中存在严重的过热问题。

Blackwell GPU 专为 AI 和高性能计算（HPC）所设计，但在配置可搭载 72 个处理器的服务器中出现过热问题，不符合AI训练和 HPC 的高功耗需求。

过热问题可能会导致在AI训练、高性能计算的过程中出现一系列风险：

性能降低：为了防止硬件损坏，服务器可能会自动降低GPU的工作频率，这会直接影响其处理能力，进而影响AI训练的效果。
硬件损坏：长时间过热可能会导致GPU和其他电子元件损坏。
数据丢失：服务器可能会因为温度过高自动关机保护，导致正在处理的数据丢失，这对于AI训练、AI推理简直就是灾难！
运行波动：过热问题可能导致服务器运行不稳定，频繁重启或者出现系统错误。

因此过热问题不能轻视，这迫使英伟达多次修改机架设计，设计调整必然延缓了 Blackwell GPU 的交付，使得谷歌、Meta和微软等英伟达的主要客户对能否按计划部署 Blackwell 服务器训练自家的超级AI模型感到担忧。

英伟达在今年GTC人工智能大会推出的 Blackwell GPU 作为人工智能数据中心的关键组成部分，延期发货可能对许多大模型开发商、数据中心云服务提供商造成不小的影响，AI模型训练和深度学习推理无法如期推进。好在中小企业或个人用户可优先选择算力租赁平台，例如通过算力云平台在云端访问GPU服务器实现AI模型的训练和推理。

目前算力云平台已在多所城市部署数据中心，为海内外高校、企业和个人用户提供算力租用服务。平台目前有 RTX 4090/3090/3080/2080Ti 充足的显卡在多地域可租用，在杭州、西安、北京、成都、济南等城市还有专门适用于深度学习推理的 NVIDIA Tesla T4 和 NVIDIA V100S 可租用。11月5日到12月12日，算力云推出朋友圈集赞活动，参与者可获得对应奖励金！高端算力显卡更有限时降价活动，低至75折！

为应对这一难题，英伟达要求供应商调整机架设计，并与合作伙伴一起优化散热系统。

英伟达发言人向记者回应称：“我们正在与领先的云服务提供商合作，将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中，需要与我们的客户共同设计。”

英伟达希望通过这种合作，确保最终产品在性能和可靠性方面达到预期，同时加紧解决技术瓶颈。

据悉，修订后的 Blackwell GPU 于今年10月底才进入量产，预计最快明年1月底出货。

上一次，英伟达Blackwell GPU被爆存在“设计缺陷”后待返厂修复，已延迟三个月交付，预估在今年Q4发货。这一次改款GPU再延迟三个月，到明年1月交付，会给AI行业带来多大的影响呢？

以上是算力云今日内容分享，感兴趣的朋友可以多多关注我们。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

又推迟！英伟达Blackwell GPU被爆散热缺陷，预计延期三个月交付！

文章展示

低成本开启AI艺术之旅：Stable Diffusion云端部署和操作指南

算力租赁成为AI公司主流选择，背后有哪些关键因素？

公测期免费！不花钱使用4090显卡解锁DeekSeek非凡体验，点击拿名额

美国商务部长：“重大突破，史无前例”，台积电4nm芯片已在美生产！

英伟达巨资布局AI未来：10亿美元投资AI初创企业

4090云主机性能测试：在云电脑上使用4090是种什么样的体验？

又推迟！英伟达Blackwell GPU被爆散热缺陷，预计延期三个月交付！

相关文章

文章展示

标签云