选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能

GPU是我们常用器件,采用GPU,才使得图形显示成为可能 。在上期文章中,小编对GPU的加速原理等知识有所阐述 。为增进大家对GPU的认识,本文将基于两点介绍GPU:1.选择GPU服务器需要考虑哪些情况,2.如何提升GPU存储性能 。如果你对GPU具有兴趣,不妨继续往下阅读哦 。
一、如何选择GPU服务器
当GPU型号选定后,再考虑用什么样GPU的服务器 。这时我们需要考虑以下几种情况:
第一、在边缘服务器上需要根据量来选择T4或者P4等相应的服务器,同时也要考虑服务器的使用场景,比如火车站卡口、机场卡口或者公安卡口等;在中心端做Inference时可能需要V100的服务器,需要考虑吞吐量以及使用场景、数量等 。
第二、需要考虑客户本身使用人群和IT运维能力,对于BAT这类大公司来说,他们自己的运营能力比较强,这时会选择通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户,他们更关注数字以及数据标注等,我们称这类人为数据科学家,选择GPU服务器的标准也会有所不同 。
第三、需要考虑配套软件和服务的价值 。
第四、要考虑整体GPU集群系统的成熟程度以及工程效率,比如像DGX这种GPU一体化的超级计算机,它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的,这时效率就比较高 。
【选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能】
选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能
文章插图
二、如何提升GPU存储性能
要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调 。这里有三种方法可供考虑 。
1.大规模调整性能
AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担,STFC(TheScienceandTechnologyFacilitiesCouncil)则是这种典型的代表 。尽管STFC已添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百个Researchers中扩展资源所需的企业级存储功能 。
通过在具有RDMA功能的高速网络(例如Infiniband或融合以太网(RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI/ML用户组(例如STFC)可以虚拟化NVMeSSD在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样 。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天 。即使具有复杂的模型训练任务,GPU存储也不再是瓶颈 。
2.在并行文件系统下使用NVMe池化存储
当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统 。并行文件系统还使存储更容易实现大多数AI/ML使用所需的高吞吐量和低延迟 。在并行文件系统下具有快速、灵活的池化NVMe存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率 。
例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预估保险公司使用的车辆碰撞场景 。为了开发应用程序背后的AI逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700KB之间 。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行 。
通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍 。
3.检查特定于GPU的“高速公路”
新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能 。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接的数据通道,从而完全绕开CPU 。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对NVMe企业级卓越性能的无障碍访问 。
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}
选择GPU服务器需要考虑哪些情况如何才能提升GPU存储性能
文章插图

    推荐阅读