免费注册


NVIDIA与浪潮对话AI 回顾2020与展望2021

2020-12-28 人浏览

近日,海外知名媒体STH主编Patrick Kennedy专访NVIDIA浪潮,围绕边缘AI推理、数据中心等2020 AI行业发展热点与2021年趋势展开深度对话。


图片

Vangel Bojaxhi(左),Paresh Kharya(右)


嘉宾简介:

Vangel Bojaxhi,浪潮全球AI&HPC总监、亚洲超算协会(ASC) 执行总监;

Paresh Kharya,NVIDIA加速计算产品管理与营销高级总监。




01关于边缘推理


01. 边缘AI推理硬件部署的最大趋势是什么?目前有哪些常见的形态或功能?




Vangel:

边缘AI推理硬件部署的最大趋势是变得更复杂,体积小,数量多且分散,管理难。


边缘AI盒子已经成为边缘AI推理硬件的常见形态。浪潮针对边缘AI开发的EIS1盒子是首款支持5G的产品,其外形小巧,方便部署。此外,浪潮深度参与开发基于OpenEdge、OTII等开放计算标准的边缘AI技术。最近还推出了基于OTII(开放式电信 IT 基础设施)开放计算标准的边缘服务器NE5260M5。


图片

浪潮NE5260M5▲




Paresh:

人工智能与云原生应用、物联网与数十亿计的传感器、5G网络等,这些都为边缘AI的大规模应用带来了无尽可能。这就需要一个可扩展且可全面编程的加速平台,以实时驱动决策,帮助零售、制造、医疗、智能城市等各行各业将自动化智能付诸行动。


为了扩大边缘操作的规模,数百万个端点将需要实时操作,从云端协调,实现安全的自动化。如果没有它,大规模物联网应用的运作成本将非常昂贵,保证大规模物联网应用的安全充其量也就是打打补丁,而且几乎不可能看到边缘基础设施。


不过,企业在大规模部署边缘AI时也面临着以下主要挑战:


  • 边缘系统散布各地,缺少数据中心的物理安全基础设施。边缘服务器的设计需要确保自我安全性,易于更新、管理、部署和远距离维护,还要保证零停机时间。

  • 随着AI在计算应用中的普及,系统在各方面对高安全级别的需求也在增加。在AI进程中,安全需求必不可少。保护 AI系统及其数据和通信,这对用户安全和隐私以及保护企业投资都至关重要。

  • 最后,边缘节点又给IT基础设施增加了新一层的工作。因此,管理员必须以与管理企业本地或云端一样的动态自动化的方式管理边缘层的工作负载。



02. 各地区客户最常见的边缘AI推理应用是什么?




Vangel:

从全球来看,常见的边缘AI应用包括自动驾驶、物体检测、智能零售等。边缘AI应用在中国地区的应用场景也是类似的,值得一提的是,快递自动分拣、小区物业智慧管理发展十分迅速。


面向云边协同的AI应用场景,浪潮最近发布了AIStation 3.0,以帮助用户更高效地创新和部署AI应用,其中包含以下改进


  • 全面支持NVIDIA Ampere架构中创新的细粒度、高灵活性多实例 (MIG) GPU共享。现在,管理员可以根据不同的场景动态分配 GPU 算力。

  • 更具弹性的配置能力。开发者可以根据工作流的串行/并行部分,动态调整CPU与GPU资源的比例,进一步提高 AI 开发、训练、推理的粒度与效率。

  • AIStation与OpenStack全面整合。现在,企业用户可以在云端边缘快速高效地开发和交付可扩展的AI服务。因此,OpenStack云用户可以充分利用AI站管理套件,而这显著提高了边缘端大规模AI应用的商业化效率。


100s 了解浪潮AIStation▲




Paresh:

AI 正给各行各业带来改变。边缘端推理对于感知输入、规划和采取实时行动至关重要。


常见用例包括:医疗领域的放射学和患者护理,制造业的自动化和质量控制,工业机器的前瞻性维护,金融领域的欺诈防范和建议,交通领域的无人驾驶,零售业的库存优化和损失预防,智慧城市的安全与效率,以及诸多面向消费者的行业的客户支持等等。



03. 从业务流程和基础设施管理的角度来看,客户是如何管理边缘端AI部署的?




Vangel:

边缘端的AI设备数量众多,如何有效地统一管理、调度和维护,是客户的一个痛点。而且,边缘AI设备的存储容量有限,故而有必要实现其部署、运营、升级和维护的自动化,比如轻量化的OTA就是其中的方式之一。


浪潮AIStation人工智能推理平台可实现推理服务资源的敏捷部署与管理,支持多源模型统一调度,使模型部署耗时从几天缩短到几分钟,进而帮助企业轻松部署AI推理服务,大幅提升AI 部署管理效率。


图片浪潮AIStation用户界面




Paresh:

边缘计算提出了一系列独特的挑战。在分布式部署的情况下,安装硬件、确保连接、部署软件、维护升级,乃至确保每个单独地点的安全和数据隐私,这些任务都十分艰巨。


面对这些挑战,NVIDIA提供了数个工具,帮助企业妥善管理边缘基础设施的AI部署。NVIDIA的混合云平台Fleet Command,可以在边缘端安全地部署、管理和扩展AI。只需一个控制平台,人们就可以通过浏览器和互联网连接来部署应用程序,隔空更新软件,并监测相关位置的健康状态。Fleet Command融合了边缘计算的优势与"软件即服务"的便捷性。



04. 未来,DPU以及结合DPU与GPU于一体的BlueField产品将如何影响AI推理的边缘市场?




Vangel:

DPU首先会先在数据中心部署,然后再进入到边缘。据我们预计,诸如“BlueField-2X”这样将DPU 与GPU结合起来的BlueField产品将会大大提高网络安全性、降低推理延迟和增加硬件部署密度,从而提高深度神经网络实时推理的效率、速度、精度和安全性。


然而,当下仍很难准确评估边缘场景未来的DPU需求。




Paresh:

边缘AI需要加速,同时也需要安全保障,因为从医疗设备到工业自动化再到家庭设备,它们在处理数据时难免涉及一些需要谨慎对待和敏感处理的信息。由于这些设备是分散的,所以还需要快速可靠的连接来保证运行和协调。


图片

NVIDIA EGX AI 平台▲


NVIDIA EGX边缘AI平台使用我们的GPU来实现实时AI推理,更有适合各种用例的先进模型。我们的BlueField DPU能够在实现低延迟通信的同时,为隔离安全域带来强大的威胁防护。我们的EGX协议栈和软件能够实现边缘AI基础设施的生产部署和管理。




02数据中心

01. 在先后发布Volta和Ampere的这期间,数据中心的AI训练集群有什么变化?




Vangel:

在这几年间, AI技术和应用快速发展,神经网络模型更新迭代速度加快、复杂度上升,出现了Bert/GPT-2/GPT-3等NLP模型,以及DLRM等大规模推荐模型,其中GPT-3的参数量超过了1700亿。对计算平台提出了更高的要求,需要更大规模的AI训练集群扩展,对集群间互联要求也提高。


为适应这些需求,NVIDIA推出了新一代Ampere架构,实现GPU性能翻倍,TF32性能提升近20倍,全面支持HDR 200G,大幅提升集群通信速率。


浪潮AI服务器全面支持NVIDIA Ampere架构,让AI训练集群性能更强,通信速率更快。


图片

浪潮NF5488A5▲


例如浪潮的创纪录产品NF5488A5,测试显示其试性能较上一代服务器提高了234%。在MLPerf 0.7 AI性能基准测试中,这台服务器还创造了18项世界纪录,包括在ResNet50推理任务测试中每秒执行54.9万次推理。这比2019年的最佳服务器性能记录高出3倍。


图片

2019、2020 MLPerf ResNet50推理性能对比▲




Paresh:

AI的最大趋势是深度学习模型和数据集的规模及复杂性急剧增长。自Volta推出以来,从当时的计算机视觉模型ResNet-50,到今天的GPT-3等自然语言理解模型,我们见证了训练高级AI模型的计算需求增加了30,000倍。现在,推荐系统和互联网引擎动辄使用几十乃是数百TB的数据集。AI训练集群已经扩展到数以千计的GPU,通过极高带宽的网络结构互通互联。


NVIDIA通过一系列创新技术,配合高效、可编程的平台,实现了这一转变。第三代张量核心可令峰值性能提高多达20倍。全球首创2TB/s DRAM带宽,80GB超大内存。第三代Nvlink和 NVSwitch可将服务器中的每个GPU相互连接,速度高达 600Gb/s。Mellanox Infiniband网络可以实现一个集群中有效扩展至数千个GPU。Magnum IO软件可利用GPU-direct RDMA和GPU-direct Storage技术实现高效扩展。



02. 如今,数据中心AI集群的软件编排和基础设施管理与 Volta刚发布时有什么不同?




Vangel:

数据中心 AI 集群需要更加细粒度的资源调度,以提高资源利用率,满足多任务训练与开发场景。同时,需要进行跨节点的并行框架扩展,满足大规模模型的训练需求。


借助 MIG (Multi-Instance GPU) 技术,单个A100可划分为多达七个独立的GPU实例,并分别处理不同的计算任务。通过细粒度更高的GPU资源切割,能够为用户提供更精确的加速计算量,将GPU资源利用率提升至前所未有的水平。A100 80GB 内存较上一代提升了一倍,可用来涉及更多参数的大型模型,如Bert。它能解决传统训练中跨节点运行缓慢、耗时严重等问题。

图片
图片

浪潮NF5488A5(左)NF5488M5-D(右)支持最新A100 80GB GPU▲




Paresh:

AI工作负载无处不在。现在,所有的企业数据中心都需要为运行AI做好准备,这包括用于训练大型AI模型的专业扩展集群,也包括运行AI融合应用的主流企业数据中心和边缘基础设施。


NVIDIA正与我们的生态系统和合作伙伴携手努力实现这一转变,确保GPU加速服务器在现有的标准IT运营框架中可靠运行。Kubernetes现已原生支持GPU加速,我们还与 VMware、RedHat等伙伴合作,让NVIDIA GPU加速完美融入他们的平台。



03. 在最新的MLPerf 0.7推理结果中,NVIDIA的服务器推理加速引起广泛关注。AI加速器内测市场的发展情况如何(或可从去年市场回顾和来年境况展望中略知一二)?




Vangel:

新冠疫情使网络化智能化需求不断攀升。为了提升短视频、直播、远程教育、网购的线上体验,CSP积极开发AI应用,进一步推动AI加速芯片增长。


到2022年,超过50%的企业生成数据将在边缘创建和处理,但这一比例目前还不足10%。远程医疗、自主机器人、智能制造和自动驾驶等AI场景将极大地推动推理芯片的高速增长。


据IDC预测,AI推理将继续保持高速增长,到2022年有望超过 AI训练市场。紧跟这一趋势,浪潮将整合NVIDIA最新的 GPU/DPU技术,为客户提供更丰富的AI生态系统和AI产品组合,特别是面向推理领域的超级混合服务器架构设计。

图片

浪潮AI服务器▲




Paresh:

AI 正从云端向企业普及。AI和数据驱动型应用正改变着各行各业。企业正从零星的实验性AI应用走向未来每一个企业应用都将融入AI,并在数据驱动的深入洞察下持续改进。


就AI加速而言,我们将继续看到AI模型的复杂性和数据集的大小实现爆发式增长,而不同用例所需的AI模型种类也将更加丰富。这对训练和推理都有影响,所以多功能的AI加速将迎来旺盛的需求。


硬件需要易于编程,配合高性能、高效率的软件,才能加速广泛的模型和用例,例如图像、反欺诈,对话式AI和推荐系统等。


现在很多构建中的AI服务都是利用网络的集合,十多个网络必须在1秒内完成推理计算并给出答案。AI训练需要加速很好理解,而AI推理的加速也是大势所趋。



04. 未来,DPU以及结合DPU与GPU于一体的 BlueField产品将如何影响数据中心?




Vangel:

DPU会对进入云数据中心的数据流量进行智能化处理,使得网络、存储、虚拟化或特定的数据流处理从 Host主机offload到DPU上,大幅释放CPU算力资源从而大幅提高数据中心的处理能力和响应速度。


图片

NVIDIA BlueField 2 DPU概述▲




Paresh:

要想拥有现代化和安全的加速数据中心,企业应当围绕三大计算支柱来构建基础设施:CPU、GPU和数据处理单元 (DPU)。


数据处理单元 (DPU) 是一种新的加速计算元素,可以提高企业工作负载的性能、效率、可扩展性和安全性。NVIDIA BlueField-2是世界上最先进的数据处理单元(DPU),它融合了 ConnectX-6 Dx SmartNIC的网络功能和可编程Arm内核,再加上用于流量检测、存储虚拟化和安全隔离的卸载。NVIDIA DPU可根据应用场景释放CPU周期,提高每台主机的安全性、效率和可管理性。


在NVIDIA EGX平台上,NVIDIA DPU与NVIDIA GPU相辅相成,打造无与伦比的卓越性能。GPU可实现并行应用的最高吞吐量处理,同时给AI、HPC、数据分析和图形处理加速。DPU 可实现隔离安全域的强大威胁防护,同时给网络、存储和安全加速。


图片

NVIDIA Mellanox ConnectX 6 Dx亮相展会▲




0展望未来


01. 如果一家公司即将启动新的AI硬件项目,其应当重点关注数据中心的哪些方面(计算/网络/存储)?




Vangel:

计算还是最重要的因素。目前在新的硬件芯片、卡、服务器和网络方面仍有很大的创新空间,这里面重点要解决好整个系统的生产力问题。如何将AI计算资源统一管理调度、数据集中管理、AI模型流程化开发,都是重点要考虑的问题。


比如,浪潮研发的AIStation和 AutoML Suite,可以帮助用户构建敏捷高效的AI资源平台,提升AI模型开发效率,加快AI研发创新速度,提高产品竞争力。




Paresh:

为满足新的应用需求,企业需要对IT基础设施进行现代化改造,同时还要兼容现有的标准IT运营框架。  下一代数据中心的建设必须做到能够原生运行现代应用程序,兼容现有的企业应用程序,并且要有足够的灵活性来驱动各种工作负载,包括尚未发明的工作负载。这种平台应当能以具有成本效益和可扩展的方式实现这一目标。


NVIDIA平台为客户打造了一个高性能、高成本效益和可扩展的基础设施,足以运行许多不同的现代应用程序。它将计算加速和高速安全网络整合到一个企业数据中心平台上。这个平台包含了一套庞大的软件,可以让用户立即提高工作效率,并可轻松集成到行业标准的IT和DevOps框架中,让IT部门保持完全控制。


加速计算需要加速输入/输出 (IO) 来实现性能最大化。NVIDIA Magnum IO是一种并行异步IO架构,可最大程度提高存储和网络IO性能,实现多GPU、多节点加速。Magnum IO支持NVIDIA CUDA-X库,并充分利用一系列NVIDIA GPU 和 NVIDIA网络硬件拓扑结构,实现最佳吞吐量和低延迟。


图片

Inspur Systems NF5180M5中段内装NVIDIA T4▲



02. 展望2021年,您觉得明年的最热门趋势是什么?




Vangel:

在5G、物联网的发展下,自动驾驶,工业机器人等催生出广泛应用,边缘AI计算可能会实现超乎想象的增长。




Paresh:

AI和数据驱动型应用将继续改变各行各业。企业正从实验性AI应用走向未来,每一个企业应用都将引入AI,并在数据驱动的深入洞察下持续进步。这一趋势明年仍将延续。


单体应用程序正让位于基于微服务的现代应用程序。现代应用程序使用专门的组件和服务,它们松散耦合,可以在任何地方部署和扩展,视需要使用本地、云端和边缘计算资源。


另外,企业将在实施零信任安全模式方面取得进展,通过保障每一台主机的安全来增强周边安全。



03. 您觉得AI训练或推理领域有哪些需要改进之处?




Vangel:

我们希望可以建立开放、通用的AI计算的硬件和软件的平台规范,使得领域内的技术创新可以更加迅捷有效。




Paresh:

过去十年,数据中心基础设施的平均升级周期几乎增加了一倍,从3年变为5年以上。今天作出的基础设施部署决策,不仅着眼于现有的工作负载,还需要满足未来数年涌现的新需求。


高明的企业组织并不一味依赖于购买,而是会对现有和未来的工作负载进行细致的分析。选择的平台应当易于编程,高性能、高效率,才能加速广泛的模型和用例,例如图像、反欺诈,对话式 AI 和推荐系统等。




结语:

感谢Vangel和Paresh接受我的访问,感谢浪潮和NVIDIA团队的协助。


2021年令人翘首期待,明年将有许多新品上市,带来更加强悍的计算、加速计算、网络和存储。2020年,业界在硬件创新方面相对放缓,但软件领域却是异彩纷呈。展望未来,整个行业有望在2021年大展宏图。





上一篇: 15个2020年工业互联网双跨平台公示 新增腾讯忽米宝信蓝卓紫光云
下一篇: 云原生的特点都包括哪些

相关文章