请选择 进入手机版 | 继续访问电脑版

深度学习GPU工作站/服务器硬件设置方案

[复制链接]
查看: 249|回复: 2
avatar

276

主题

276

帖子

850

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
850
online_admin 发表于 2021-9-27 19:43:40 | 显示全部楼层 |阅读模式
市场上用于深度学习训练计算机大致环境如下:
(1)服务器/工作站(支持2、4、8块GPU架构):广泛存在噪音大,无法放置于办公环境,必须放到专门的机房,维护成本高,别的数据存储带宽、耽误、容量也不尽快意。
(2)分布式集群架构:性能强盛,但是开发成本太高(太贵),是大多数科研单位及个人无法承受。
(3)组装电脑:这类特点是价格便宜,但是在散热和功率方面依然是寻常家用/游戏电脑标准,稳固性巨差。
(4)大部分GPU计算机(服务器/工作站):重点都放在GPU卡数目上,好像只要配上充足GPU卡,就可以了。
然而,机器硬件设置还必要团体平衡,不同的学习框架更必要不同GPU卡去适配。


主流学习框架


主流框架加速效能
上图是不同的DL框架加速效能(NVIDIA GP100为例),不同的框架并不是GPU越多效能就越高。
深度学习计算麋集,以是必要一个快速多核CPU,对吧?!
听说深度学习有很多显卡就可以了,一个高速CPU大概是种浪费?!
搭建一个深度学习体系时,最糟糕的变乱之一就是把钱浪费在并非必需的硬件上。
一个高性能且经济的深度学习体系所需的硬件到底要怎样设置?!
一. 深度学习计算特点与硬件设置分析:


深度学习计算特点
1.数据存储要求
在一些深度学习案例中,数据存储会成为显着的瓶颈。做深度学习起首必要一个好的存储体系,将汗青资料保存起来。
紧张使命:汗青数据存储,如:笔墨、图像、声音、视频、数据库等。
数据容量:提供充足高的存储本领。
读写带宽:多硬盘并行读写架构进步数据读写带宽。
接口:高带宽,同时耽误低。
传统解决方式:专门的存储服务器,借助万兆端口访问。
缺点:带宽不高,对深度学习的数据读取过程时间长(耽误大,两台机器之间数据交换),成本还巨高。
UltraLA解决方案:
将并行存储直接通过PCIe接口,提供最大16个硬盘的并行读取,数据量大并行读取要求高,无论是总线还是硬盘并行带宽,都得到加大提升,满足海量数据麋集I/O哀求和计算必要。
2. CPU要求
现在深度学习CPU好像不那么紧张了,由于我们都在用GPU,为了可以或许明智地选择CPU我们起首必要明白CPU,以及它是怎样与深度学习干系联的,CPU能为深度学习做什么呢?当你在GPU上跑深度网络时,CPU进行的计算很少,但是CPU仍然必要处理以下变乱:
(1)数据从存储体系调入到内存的解压计算。
(2)GPU计算前的数据预处理。
(3)在代码中写入并读取变量,实验指令如函数调用,创建小批量数据,启动到GPU的数据传输。
(4)GPU多卡并行计算前,每个核负责一块卡的所必要的数据并行切分处理和控制。
(5)增值几个变量、评估几个布尔表达式、在GPU或在编程内里调用几个函数——全部这些会取决于CPU核的频率,此时唯有提升CPU频率。
传统解决方式:CPU规格很随意,核数和频率没有任何要求。
UltraLA解决方案:
CPU频率尽量高
CPU三级缓存尽量大(有必要科普一下CPU缓存)
“这是个常常被忽视的标题,但是通常来说,它在整个性能标题中黑白常紧张的一部分。CPU缓存是容量非常小的直接位于CPU芯片上的存储,物理位置非常接近CPU,可以或许用来进行高速计算和操作。CPU通常有缓存分级,从小型高速缓存(L1,L2)到低速大型缓存(L3,L4)。作为一个程序员,你可以将它想成一个哈希表,每条数据都是一个键值对(key-value-pair),可以高速的基于特定键进行查找:假如找到,就可以在缓存得值中进行快速读取和写入操作;假如没有找到(被称为缓存未掷中),CPU必要等待RAM赶上,之后再从内存进行读值——一个非常缓慢的过程。重复的缓存未掷中会导致性能的大幅降落。有用的CPU缓存方案与架构对于CPU性能来说非常关键。深度学习代码部分——如变量与函数调用会从缓存中直接受益。”
CPU核数:比GPU卡数目大(原则:1核对应1卡,核数要有至少2个冗余)。
3. GPU要求
假如你正在构建或升级你的深度学习体系,你最关心的应该也是GPU。GPU正是深度学习应用的核心要素——计算性能提升上,劳绩巨大。
紧张使命:承担深度学习的数据建模计算、运行复杂算法。
传统架构:提供1~8块GPU。
UltraLA解决方案:
数据带宽:PCIe8x 3.0以上。
数据容量:显存大小很关键。
深度学习框架匹配:CPU核-GPU卡 1对1。
GPU卡加速:多卡提升并行处理服从。
4.内存要求
至少要和你的GPU显存存大小类似的内存。当然你也能用更小的内存工作,但是,你或许必要一步步转移数据。总而言之,假如钱够,而且必要做很多预处理,就不必在内存瓶颈上兜转,浪费时间。
紧张使命:存放预处理的数据,待GPU读取处理,中心结果存放。
UltraLA解决方案:
数据带宽最大化:单Xeon E5v4 4通道内存,双XeonE5v4 8通道内存,内存带宽最大化。
内存容量合理化:大于GPU总显存。
说了那么多,到底该怎样设置深度学习工作站,下面是干货来袭~
二. 深度学习工作站介绍与设置保举
1. UltraLABGX370i-科研型


UltraLAB GX370i-科研型
硬件架构:4核4.7GHz~5.0GHz+4块GPU+64GB内存+4块硬盘(最大)
机器特点:高性价比,最快预处理和GPU超算架构
数据规模:小规模

2. UltraLABGX490i-高效型

硬件架构:设置10核4.5GHz+4块GPU+128GB+4块硬盘(最大)
机器特点:较GX360i,CPU核数和内存容量提升
数据规模:中小规模


UltraLAB GX490i基准设置
3. UltraLABGX490M-高性能型

硬件架构:设置6核4.5GHz/8核4.3GHz/10核4.3GHz+最大7块GPU+256GB+20盘位并行存储
机器特点:GPU数目支持到7块,支持海量数据并行存储
数据规模:中大规模

4. UltraLABGX620M-超级型


UltraLAB GX620M
硬件架构:双Xeon可扩展处理器(最大56核,最高3.8GHz)+最大9块GPU+20盘位并行存
机器特点:现在最强盛的CPU+GPU异构计算
数据规模:建模与仿真计算、高性能科学计算、机器/深度学习


UltraLAB GX620M基准设置
UltraLAB深度学习工作站特点:
(1)种类丰富: GX370i(1C4G), GX490i(1C4G) --科研型,GX490M(1C7G)、GX620M(2C9G)--超级型。
(2)性能特点:超高频+多GPU+海量高速存储+静音级=最完善强盛DL硬件平台。
(3)应用平台:完善支持TensorFlow,Caffe,Torch,DIGITS,Theano,MXNet等。
回复

使用道具 举报

avatar

0

主题

15

帖子

40

积分

新手上路

Rank: 1

积分
40
在线会员 发表于 2021-9-27 19:44:14 | 显示全部楼层
机器学习谁人sli的显卡链接桥对速率和数据大小有关系吗?
回复

使用道具 举报

avatar

0

主题

17

帖子

44

积分

新手上路

Rank: 1

积分
44
在线会员 发表于 2021-9-27 19:45:08 | 显示全部楼层
转发了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

logo
  • 反馈建议:service_media@36kr.com
  • 工作时间:周一到周五 10:00-19:00

关注我们

  • erweima
Copyright   ©2015-2016  SOSSEO博客  Powered by©Discuz!  技术支持:源码哥    |网站地图源码哥免费dz商业插件