华为AI训练集群Atlas900有多快?算力相当于50万台PC

2019-09-18 16:16:05 阅读：7351 来源：网易科技报道作者：责任编辑NO。姜敏0568

网易科技讯 9月18日音讯，华为全联接2019大会上，华为副董事长胡厚崑发布了Atlas 900 AI练习集群。此次发布的Atlas 900 AI练习集群由数千颗昇腾910 AI处理器互联构成，是当时全球最快的AI练习集群，代表了当今全球的算力巅峰。其总算力到达256P～1024P FLOPS @FP16，相当于50万台PC的核算才能。

AI算力抢先

Atlas 900 AI练习集群选用业界单芯片算力最强的昇腾910 AI处理器，每颗昇腾910 AI处理器内置32个达芬奇AI Core，单芯片供给比业界高一倍的算力。Atlas 900 AI练习集群将数千颗昇腾910 AI处理器互联，打造业界榜首的算力集群。

昇腾910 AI处理器选用SoC规划，集成“AI算力、通用算力、高速大带宽I/O”，大幅度卸载Host CPU的数据预处理使命，充沛提高练习功率。

最佳集群网络

Atlas 900 AI练习集群选用“HCCS、 PCIe 4.0、100G以太”三类高速互联方法，百TB全互联无堵塞专属参数同步网络，下降网络时延，梯度同步时延缩短10~70%。

在AI服务器内部，昇腾910 AI处理器之间经过HCCS高速总线互联；昇腾910 AI处理器和CPU之间以最新的PCIe 4.0（速率16Gb/s）技能互联，其速率是业界干流选用的PCIe 3.0（8.0Gb/s）技能的两倍，使得数据传输愈加快速和高效。在集群层面，选用面向数据中心的CloudEngine 8800系列交流机，供给单端口100Gbps的交流速率，将集群内的一切AI服务器接入高速交流网络。

首创iLossless 智能无损交流算法，对集群内的网络流量进行实时的学习练习，完结网络0丢包与E2E μs级时延。

体系级调优

Atlas 900 AI练习集群经过华为调集通讯库和作业调度渠道，整合HCCS、 PCIe 4.0和100G RoCE三种高速接口，充沛开释昇腾910 AI处理器的强壮功能。

华为调集通讯库供给练习网络所需的分布式并行库，通讯库+网络拓扑+练习算法进行体系级调优，完结集群线性度>80%，极大提高了作业调度功率。

散热体系

传统数据中心多以风冷技能对设备进行散热，但在人工智能年代传统数据中心却面对非常大的应战。高功耗器材比方CPU和AI芯片带来更大的热岛效应要求更高效的冷却方法。液冷技能能够满意数据中心高功率、高密布置、低PUE的超高需求。

Atlas 900 AI练习集群选用全液冷计划，立异性规划业界最强柜级密闭绝热技能，支撑＞95%液冷占比。单机柜支撑高达50kW超高散热功耗，完结PUE＜1.1的极致数据中心动力功率。

别的，在空间节约方面，与8kW风冷机柜比较，节约机房空间79%。极致的液冷散热技能满意了高功率、高密设备布置、低PUE的需求，极大地下降了客户的TCO。

据了解，华为已在华为云上布置了一个Atlas 900 AI练习集群，集群规划为1024颗昇腾910 AI处理器。根据当时最典型的“ResNet-50 v1.5模型”和“ImageNet-1k数据集”，Atlas 900AI练习集群只需59.8秒就可完结练习，排名全球榜首。

“ImageNet-1k数据集”包括128万张图片，精度为75.9%，在平等精度下，其他两家业界干流厂家测验成果分别是70.2s和76.8s，Atlas 900 AI练习集群比第2名快15%。

Atlas 900 AI集群主要为大型数据集神经网络练习供给超强算力，可广泛应用于科学研究与商业立异，让研究人员更快地进行图画、视频和语音等AI模型练习，让人类更高效地探究世界奥妙、猜测气候、勘探石油和加快自动驾驶的商用进程。（静静）

本文来历：网易科技报导责任编辑：乔俊婧_NBJ11279