本篇文章2120字,读完约5分钟

9月18日,在华为互联(Hu Connect)2019大会上,华为副董事长胡发布atlas 900 ai培训集群,为拥有超级计算能力的企业带来人工智能业务的终极体验。世界正在从数字化向智能化转变。人工智能产业作为关键驱动力,正面临着自身升级和演进的挑战。华为从两个方面加速了智能世界的转型:超级人工智能计算能力和大规模分布式人工智能培训集群。

华为推出全球最快AI训练集群Atlas 900

图1华为阿特拉斯900人工智能培训集群

atlas 900人工智能培训集群介绍

用于大数据集训练的神经网络体系结构涵盖了图像识别、自然语言处理、视频实时分析和智能推荐系统等各个方面。训练这些神经网络模型需要大量浮点计算能力。近年来,单个人工智能处理器的计算能力和训练方法取得了很大的进步,但是在单台机器上进行人工智能训练所需的时间仍然不现实,因此有必要通过大规模分布式人工智能集群环境来提高神经网络训练系统的浮点计算能力。

华为推出全球最快AI训练集群Atlas 900

这次发布的Atlas 900 ai训练集群由数千个提升的910 ai处理器组成,是世界上最快的ai训练集群,代表了当今世界计算能力的巅峰。它的最终功率达到256 p ~ 1024 p触发器@ fp16,相当于50万台电脑的计算能力。

华为推出全球最快AI训练集群Atlas 900

阿特拉斯900人工智能培训集群的领先技术优势

人工智能计算能力引领行业

阿特拉斯900人工智能训练集群采用业界最强的单芯片计算能力的新兴910人工智能处理器。每一个正在崛起的910人工智能处理器都内置了32个达芬奇人工智能内核,单个芯片上的计算能力是业界的两倍(256次浮点运算@fp16)。Atlas 900人工智能训练集群将数千个提升的910人工智能处理器相互连接起来,创建了业界第一个计算能力集群。

华为推出全球最快AI训练集群Atlas 900

盛京910 ai处理器采用soc设计,集ai计算能力、通用计算能力、高速大带宽i/o于一体,大大减轻了主机cpu的数据预处理任务,充分提高了训练效率。

最优集群网络

Atlas 900 ai训练集群采用hccs、pcie 4.0和100g以太网三种高速互联模式,具有100 tb全互联和无阻塞专有参数同步网络,减少网络延迟,梯度同步延迟缩短10~70%。

华为推出全球最快AI训练集群Atlas 900

在人工智能服务器内部,瑞星910人工智能处理器通过hccs高速总线相互连接;最新的pcie 4.0(速率16gb/s)技术用于连接Rising 910 ai的处理器和cpu,其速度是主流行业采用的pcie 3.0(8.0gb/s)技术的两倍,使数据传输更快、更高效。在集群级别,采用cloudengine 8800系列交换机作为数据中心,提供100gbps的单端口交换速率,并将集群中的所有ai服务器连接到高速交换网络。

华为推出全球最快AI训练集群Atlas 900

原有的无损耗智能无损交换算法对集群中的网络流量进行实时学习和训练,实现网络0丢包和e2e s级延时。

系统级调谐

Atlas 900 ai训练集群通过华为的集体通信库和作业调度平台,集成了hccs、pcie 4.0和100g roce三个高速接口,充分释放了瑞星910 ai处理器的强大性能。

华为的集体通信库为培训网络提供分布式并行库。通信库+网络拓扑+训练算法在系统级得到优化,集群线性度达到80%以上,大大提高了作业调度效率。

极端冷却系统

传统数据中心大多使用空气冷却技术来冷却设备,但在人工智能时代,传统数据中心面临巨大挑战。高功率设备,如中央处理器和人工智能芯片带来更大的热岛效应,需要更有效的冷却方法。液冷技术可以满足数据中心对高功率、高密度部署和低功耗的高要求。

华为推出全球最快AI训练集群Atlas 900

Atlas 900 ai培训集群采用全液冷方案,创新设计了业内最强的柜级封闭保温技术,支持95%以上的液冷。单个机柜支持高达50kw的超高冷却功耗,并在pue<1.1时实现最高的数据中心能效。

华为推出全球最快AI训练集群Atlas 900

此外,在节省空机房方面,与8kw风冷机柜相比,节省了79%的机房空机房。极限液体冷却技术满足了高功率、高密度设备部署和低pue的要求,从而大大降低了客户的总拥有成本。

华为推出全球最快AI训练集群Atlas 900

阿特拉斯900ai培训集群领先基准指标

华为在华为云上部署了一个atlas 900人工智能培训集群,集群大小为1,024个升序910人工智能处理器。基于最典型的resnet-50 v1.5模型和imagenet-1k数据集,atlas 900ai训练集群可以在59.8秒内完成训练,居世界第一。

华为推出全球最快AI训练集群Atlas 900

Imagenet-1k数据集包含128万张图片,准确率为75.9%。在相同的准确率下,行业内其他两个主流厂商的测试分数分别为70.2分和76.8分,atlas 900 ai训练集群比第二个快15%。

华为推出全球最快AI训练集群Atlas 900

图2基于resnet-50 v1.5模型和imagenet-1k数据集的测试数据

Atlas 900 ai集群应用场景

Atlas 900 ai cluster主要为大型数据集的神经网络训练提供超级计算能力,可广泛应用于科学研究和商业创新,让研究人员更快地训练图像、视频和声音等ai模型,让人类更高效地探索宇宙奥秘、预测天气、探索石油和加速自主驾驶的商业过程。

华为推出全球最快AI训练集群Atlas 900

Atlas 900 ai集群还可以提供云服务,以云的形式提供丰富、经济的计算能力资源,提供易用、高效、全流程的ai平台,为客户带来易于获取、价格合理、便捷的普惠ai计算能力的终极体验。

标题:华为推出全球最快AI训练集群Atlas 900

地址:http://www.gshxhs.com/gmwxw/10452.html