本月下旬,特斯拉创始人马斯克在一场投资者演讲中发言,表示为了发展他旗下的人工智能初创公司xAI,他计划将数万张专用芯片串联到一台巨型的超级计算机中,并将这台超级计算机称为“算力超级工厂”。马斯克向投资者透露,这台超级计算机预计连接10万块英伟达H100 GPU组成巨型超算,它的规模将至少是目前最大GPU集群的四倍。
据悉,马斯克自退出OpenAI团队,于去年7月创立了人工智能企业xAI,专注于人工智能技术的研发,公司创立的初衷正是挑战OpenAI和谷歌。去年11月,xAI推出旗下首款AI大模型聊天机器人Grok,能实时连接到其名下的的社交媒体平台X(原名:推特)。
目前,Grok的最新版本为3月底发布的Grok1.5,版本实现了长上下文理解和高级推理能力,可以处理128K token的长上下文窗口。马斯克称,为了让Grok“更加智能”,急需大量高性能的GPU投入训练下一版本的对话式 AI 聊天机器人 Grok。
据悉,xAI正在训练的Grok 2已经耗费了约2万块H100 GPU,训练进程一度因芯片短缺受阻,预计于今年5月训练完成。未来进阶版本的Grok 3可能需要高达10万块H100 GPU。
AI大模型训练是一个对计算资源要求极高的过程,它依赖大量的GPU计算单元来提供必要的算力支持。由于GPU在AI训练和推理中的关键作用,拥有大量GPU的集群成为了高性能计算资源的标志。
因此不少人工智能企业正在加速布局GPU算力集群,为自家的AI大模型训练和运行提供充足的算力来源。
在今年4月初,微软和OpenAI表示,合作建设一个名为「星际之门」的AI超级计算机,配备数百万专用的服务器芯片,为OpenAI旗下的AI模型训练推理提供算力支持,预计投入成本高达1150亿美元。这将是微软未来六年内计划建造的一系列设施中最大的一个。
在2022年初始,Meta和英伟达发布了一个大型AI研究超级计算机,其连接了6080个A100 GPU,可以提供五百亿亿次级的AI计算性能。全面部署后,这一超级计算机成为最大的英伟达DGX A100客户系统,用于训练具有超过1万亿个参数的AI模型。
然而,大部分的中小型人工智能初创公司,难以负担高昂且持续的GPU支出成本,AI大模型训练和推理的一度因GPU短缺、算力匮乏而难以推进。因此小编建议中小型创业公司可以选择像算力云(SuanLiX)这样的算力租赁平台,通过租用GPU、显卡或GPU云主机的形式,为模型训练提供充沛的算力资源。目前,算力云(SuanLiX)已在香港、福州、广东、甘肃区域部署算力服务,已上线RTX2080Ti、RTX3080、RTX3090、RTX4090、Tesla V100S、Tesla T4等显卡,型号齐全,价格实惠,用户可按需租赁。
在全球人工智能一波又一波的浪潮下,对高性能算力的需求无疑促成了英伟达的成功。根据英伟达发布的2025财年第一财季报告显示,总营收和数据中心收入连续多个季度创新高,分别同比增长262%和427%,净利润增超620%。
正如网友所说,人工智能时代下的英伟达就好比在淘金时代向一众科技巨头(唯一)出售挖黄金的铲子。
以上是算力云(SuanLiX)今日内容分享,欢迎读者们参与评论区互动!