当前所在位置:首页 > 股票配资流程图解

做大模型时代的“卖铲人”:腾讯发布超强算力集群 国内首发搭载英伟达H800

5284

2024-06-20 【 字体:

K图 00700_0

  国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练,4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。

  该集群采用腾讯云星星海自研服务器,国内首发搭载英伟达最新代次H800 GPU,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

  ▍开启云上大模型训练模式

  当下,大模型训练如火如荼,且参数量级已进入万亿时代,单体服务器算力有限,随着算力需求的增长,因此需要将大量服务器通过高性能网络相连,打造大规模算力集群。

  集群的算力要求,意味着用于采购硬件的资金投入是指数级增长,这给不少企业带来了巨大的现金流压力。自己采购GPU,面临着成本和供应链问题,且峰谷问题较为明显。

  例如,本地的物理CPU/GPU资源配比是固定绑定在一起的,扩展性比较差。有时CPU跑满、GPU空闲(或相反)。造成效率低下和资源浪费。在云上,这些资源可以池化随取随用,按需按量取用。

  面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题,腾讯认为,云上算力能帮助企业完成随机突发的算力需求。

  ▍先进芯片≠先进算力

  目前大热的人工智能大模型,其训练需要海量数据和强大的算力来支撑训练和推理过程,其中数据主要由服务器和光模块存储、运输,算力支撑则依赖各类芯片。

  算力需求陡增,业界普遍认为,高性能芯片的短缺是限制国内大模型行业发展的重要因素。

  但在腾讯看来,用上了先进芯片并不代表就拥有了先进算力,原因在于高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。

  以算力对网络的要求为例:目前,GPU并行是大模型训练的必备技术,不同于传统并行以加快计算速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,整体配合完成大模型的训练部署。

  即使是目前业界已有的GPU分布式训练方案,也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年,却只有少数企业可以复现GPT-3。

  换句话而言,先进算力的背后,是先进芯片、先进网络、先进存储等一系列的支撑,缺一不可。

  ▍首发搭载英伟达H800

  腾讯新一代HCC集群搭载了英伟达最新代的H800芯片,这是H800在国内首发。不过,腾讯暂未透露采购了多少H800。

  H800是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。

英伟达芯片参数对比

  网络层面,腾讯自研的星脉网络,为新一代集群带来了3.2T的超高通信带宽。实测结果显示,搭载同样的GPU卡,3.2T星脉网络相较前代网络,能让集群整体算力提升20%,使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。

  存储层面,腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,充分满足大模型训练的大数据量存储要求。

  在自研芯片方面,腾讯已经量产了用于AI推理加速的紫霄芯片,并已在语音转写、OCR等业务场景使用,用于视频转码的沧海芯片,已经在云游戏、直点播等场景中规模落地。

阅读全文
相关推荐

毛泽东:我第一次到北京,遇到一位好人,没有他我今天还不知道在哪里呢

毛泽东:我第一次到北京,遇到一位好人,没有他我今天还不知道在哪里呢
1949年3月25日凌晨,一列从涿县的火车缓缓驶向北京,火车上坐着的便是毛泽东和...

港股异动 石油股午后跌幅扩大 供应紧张担忧缓解 国际油价连续回落

港股异动  石油股午后跌幅扩大 供应紧张担忧缓解 国际油价连续回落
石油股午后跌幅扩大,截至发稿,昆仑能源(00135)跌3.29%,报8.52港元...

实盘配资交易平台:助你把握市场机遇

实盘配资交易平台:助你把握市场机遇
title===>实盘配资交易平台:助你把握市场机遇[field]body===...

莱克电气获得外观设计专利授权:“吸尘器(T40)”

莱克电气获得外观设计专利授权:“吸尘器(T40)”
证券之星消息,根据企查查数据显示莱克电气(603355)新获得一项外观设计专利授...

解锁“红色密码”!红色文化轻骑兵清远佛冈站展演顺利收官

解锁“红色密码”!红色文化轻骑兵清远佛冈站展演顺利收官
红色堡垒,大美佛冈。9月3-4日,“2024红色文化轻骑兵:从赣州到广州”佛冈站...

电池回收“白名单”企业申报迎来重启

电池回收“白名单”企业申报迎来重启
近日,工信部就修订形成的《新能源汽车废旧动力电池综合利用行业规范条件(2024年...

商铺出租人超标多收67万余元电费,广东高院:应退还

商铺出租人超标多收67万余元电费,广东高院:应退还
南都讯 记者赵青 通讯员陈虹伶 陈捷 8月22日,广东省高级人民法院发布一批不...

虚拟盘炒股:模拟实战,提升投资技能

虚拟盘炒股:模拟实战,提升投资技能
title===>虚拟盘炒股:模拟实战,提升投资技能[field]body===...

个人股票杠杆开通指南:轻松解锁资金倍增利器

个人股票杠杆开通指南:轻松解锁资金倍增利器
title===>个人股票杠杆开通指南:轻松解锁资金倍增利器[field]bod...

港股概念追踪 工信部发布《2024年汽车标准化工作要点》 汽车芯片今年市场规模将超900亿元 (附概念股)

港股概念追踪 工信部发布《2024年汽车标准化工作要点》   汽车芯片今年市场规模将超900亿元  (附概念股)
6月21日,工信部发布《2024年汽车标准化工作要点》。其中提到,强化汽车芯片标...