雅玛网
设为首页
加入收藏
联系我们
返回首页
> 国际 > 一文看懂华为最新发布的全球最快AI训练集群“Atlas 90
推荐新闻
最新新闻
相关新闻
一文看懂华为最新发布的全球最快AI训练集群“Atlas 90
作者:佚名  点击数:2140   更新时间:2019-11-13 19:07:23

9月18日,在华为互联会议上,华为副主席胡侯坤发布了atlas 900人工智能培训集群,称其为世界上最快的人工智能培训集群。

华为atlas 900 ai培训集群

那么,atlas 900 ai训练集群到底是什么?它在哪里?解放日报上官新闻要求华为的技术人员对此进行解释。

问:为什么要开发atlas 900 ai培训集群?

答:用于大型数据集培训的神经网络架构涵盖图像识别、自然语言处理、实时视频分析和智能推荐系统等各个方面。训练这些神经网络模型需要大量浮点计算能力。近年来,单个人工智能处理器的计算能力和训练方法取得了很大进展。然而,在一台机器上,人工智能训练所需的时间仍然长得不切实际。因此,有必要通过大规模分布式人工智能集群环境来提高神经网络训练系统的浮点运算能力。

这次发布的atlas 900人工智能训练集群由成千上万个相互连接的910人工智能处理器组成。它是目前世界上最快的人工智能训练集群,代表了当今世界计算能力的顶峰。最后,其功率达到256p~1024p触发器@fp16,相当于50万台计算机的计算能力。

问:问:阿特拉斯900成为“世界上最快”的基础是什么?

答:华为在华为云上部署了一个atlas900ai培训集群,集群规模为1024个,增加了910个ai处理器。基于当前最典型的resnet-50 v1.5模型和imagenet-1k数据集,atlas 900ai训练集群可以在59.8秒内完成训练,居世界第一。

“imagenet-1k数据集”包含128万张图片,准确率为75.9%。在同样的精度下,业内其他两家主要制造商的测试结果分别为70.2秒和76.8秒。atlas900 ai训练集群比第二个集群快15%。

问:除了“快”,atlas 900 ai训练集群还有什么优势?

答:阿特拉斯900的优势体现在四个方面:计算能力、集群网络、调度平台和冷却系统。

首先,atlas 900是人工智能计算的行业领导者。

阿特拉斯900 ai训练集群使用业界计算能力最强的瑞星910ai处理器,每个瑞星910ai处理器内置32个达芬奇ai内核,单芯片提供业界两倍的计算能力(256tflops @ fp16)。阿特拉斯900人工智能训练集群将成千上万个正在崛起的910人工智能处理器相互连接起来,以构建业界第一个计算集群。

瑞星910ai处理器采用soc设计,集成了“ai计算能力、通用计算能力、高速大带宽i/o”,大大减轻了主机cpu的数据预处理任务,充分提高了训练效率。

其次,atlas 900拥有最好的集群网络。

阿特拉斯900 ai训练集群采用“hccs、pcie 4.0和100g以太网”三种高速互联模式。100 tb全互联无阻塞专用参数同步网络将网络延迟和梯度同步延迟降低10-70%。

在ai服务器内部,正在崛起的910 ai处理器通过hccs高速总线相互连接。上升的910 ai处理器和cpu与最新的pcie 4.0 (16gb/s)技术互连,速度是业界主流采用的pcie 3.0(8.0gb/s)技术的两倍,使数据传输更快、更高效。在群集级别,采用面向数据中心的cloudengine 8800系列交换机来提供单端口100gbps交换速率,并将群集中的所有ai服务器连接到高速交换网络。

原无ilossless智能无损交换算法对集群中的网络流量进行实时学习和训练,实现网络零丢包和e2e μs级延迟。

第三,atlas 900具有系统级调谐。

阿特拉斯900ai培训集群通过华为的集体通信库和作业调度平台集成了hccs、pcie 4.0和100g roce,充分释放了正在崛起的910ai处理器的强大性能。

华为的集体通信库提供培训网络所需的分布式并行库。通信库的网络拓扑训练算法进行系统级优化,实现集群线性度> 80%,大大提高作业调度效率。

第四,atlas 900有一个极端冷却系统。

传统数据中心大多使用空气冷却技术来散热,但在人工智能时代,传统数据中心面临着巨大的挑战。cpu和ai芯片等高功耗设备带来更大的热岛效应,需要更有效的冷却方法。液冷技术可以满足数据中心对高功率、高密度部署和低pue的超高要求。

阿特拉斯900 ai培训集群采用全液冷方案,创新设计业界最强的柜级气密绝缘技术,支持95%以上的液冷比例。单机柜支持高达50kw的超高散热功耗,实现pue<1.1的极端数据中心能效。

此外,在节省空间方面,与8kw风冷式机柜相比,节省了79%的房间空间。极端液冷技术满足高功率、高密度设备部署和低pue的要求,大大降低了客户的总体拥有成本。

问:问:阿特拉斯900ai集群可以应用于哪些场景?

答:阿特拉斯900ai集群主要为大型数据集的神经网络训练提供超级计算能力。它可以广泛应用于科学研究和商业创新。它使研究人员能够更快地训练图像、视频和声音等人工智能模型,并使人类能够更有效地探索宇宙的奥秘、预测天气、勘探石油和加速自动驾驶的商业过程。

阿特拉斯900 ai集群还可以提供云服务,以云的方式提供丰富而经济的计算能力资源,以及一个简单、易用、高效、全过程的ai平台,从而为社会各界带来“易得、实惠、方便”的包容性ai计算能力和极致体验。

总编辑:任毅,文本编辑:任毅

广西快乐十分 辽宁11选5 极速赛车下注 江苏快三开奖结果 湖南快乐十分

上一篇:一幼儿游玩不慎摔伤,北湖交警开道送医省下22分钟
下一篇:中小学生近8成睡眠不达标,说好的减负呢?
© Copyright 2018-2019 mecparty.com 雅玛网 Inc. All Rights Reserved.