博聚网

赛灵思推出业内首款PCIe 4 轻量级加速卡Alveo U50,部分应用可实现20倍加速

2019-08-13 12:56:02 来源:EETOP
美国当地时间8月6日,赛灵思发布了一款名为Alveo U50的数据中心加速器卡,进一步将Alveo系列产品扩展到自适应性和智能计算领域。

 


据悉,Alveo U50是业界首款支持PCIe 4的轻量级自适应计算加速器,能够在同一个可重配置的FPGA平台上,增强各种关键计算、网络和存储工作负载。
 

许多种类的加速器,特别是那些带有GPU和FPGA的加速器,都可以用做相当强大的计算引擎,能够满足或超过现代处理器的功率、热量和空间封装。他们做的工作比CPU多得多,但这仍然不容易将它们部署到现有的商业服务器。
 

这就是为什么赛灵思推出Alveo U50加速器,这是一款低调的PCI-Express加速卡。该设备可以插入标准数据中心服务器,因此广泛用于有助于计算加速的工作负载,包括机器学习推理,数据分析,视频转码和财务分析,,以及加速存储和网络的内向型应用。
 

如果这听起来类似于去年推出的Alveo卡- U200,U250和U280 ,但与其可以提供高达225瓦的双插槽前代产品不同,U50已被拆卸为75瓦,单插槽,半高半长卡,几乎可以安装在任何服务器上。
 

Xilinx的数据中心营销总监Jamon Bowen解释说:“缩短的外形,使得U50可以用在更多的地方。”据Bowen说,虽然他们的客户欣赏双宽的200系列卡的性能,但他们希望能够在标准服务器机箱中即拥有加速功能,又不需要特殊的电源或冷却。
 

在性能方面,Bowen告诉我们U50保持了旧卡的吞吐量和低延迟。FPGA本身有872K查找表(LUT),而U200的查找表为892K, U250的查找表为1341K, U280的查找表为1082K。寄存器计数也同样减少。但是,总的来说,对于U50的大多数应用来说,有很多FPGA资源可以利用。
 


这张卡实际上只在一个方面受到影响:内存容量。U50完全依赖于8Gb的封装在HBM2的内存,没有外部RAM来支持它。相比之下,200系列的显卡最多可以配备64GB的DDR4。除了DDR4, 顶级的U280还配备了8GB的HBM2。

 

虽然较低的内存配置文件会让U50在处理大型数据库或构建神经网络时显得有些牵强,但许多目标应用程序都是基于流数据的,而在流数据中,大内存容量不是那么重要。然而,HBM2提供了更快的数据传输,在这种情况下,高达460 GB/s,大约是DDR4内存的6倍。这对于许多需要低延迟操作的面向数据流的工作负载来说是一个显著的优势。
 

U50上没有外部存储器可以节省大量功耗,这不仅仅是因为DDR4模块不存在,而且还因为引脚和布线损耗更少。U50上的FPGA芯片也是采用了最新的16纳UltraScale+架构,可提供额外的功耗节省及更高的密度。
 

U50升级到PCI-Express 4.0连接,这是第一个这样做的低配置FPGA卡。它还配备了一个100GbE接口,用于与外界通信。高速接口特别适用于NVMe-oF解决方案(NVM Express over Fabrics)或其他基于网络的工作上的应用。
 

撇开硬件规格不谈,U50的价值最终将取决于它比CPU或其他加速器更好地加速实际工作负载的能力。基于Xilinx的初步结果,新的Alveo确实可以在几个应用领域找到了一个可接受的客户群。
 

例如,U50能够比英伟达的主要推理GPU Tesla T4更快地执行语音翻译,而且能够以更低的延迟完成。鲍恩认为,U50将特别擅长于这些短期存储(LSTM)应用,以及使用循环神经网络(RNN)架构的其他应用——比如异常检测、对话系统和手写识别等。
 

尽管U50在内存容量方面可能会面临一些挑战,但在正确的场景下,它非常擅长数据库分析。对于基于高吞吐量查询的分析应用,U50比24核Xeon Platinum CPU高出四倍。在这种情况下,Alveo卡每24毫秒就会给出一个答案,而英特尔处理器则需要210毫秒。
 


在衍生定价和风险模型应用中,U50的能效比Xeon CPU(v4)高20倍,比V100 GPU高7倍。该算法使用蒙特卡罗技术获得预期的投资回报,并绘制出衍生品的风险概况。尽管U50的定价信息尚未公布,但Bowen表示,他们的解决方案预计将以不到GPU设置成本的一半来实现。

 

对于电子交易而言,U50看起来也是一个不错的选择,这是金融服务领域中更为传统的FPGA应用。对于抽象交易(T2T)操作,该卡能够在500纳秒内执行交易,这比CPU快20倍。Bowen指出,不仅传递的延迟极低,而且它也是一致的,因为FPGA逻辑的确定性特性确保了这种可靠的行为。

对于存储应用,FPGA对于数据加密,擦除编码和压缩等任务最为有用。对于后者,U50比22核Skylake Xeon快20倍。

 


这方面的一个特定应用是加速Hadoop存储,通常关闭压缩以最大化磁盘吞吐量。使用这种由fpga支持的 line-rate compression功能,不仅可以将磁盘空间减少一半,而且只需要一半的服务器(在本例中,每个服务器都有两个U50卡)来提供存储。因此,根据Xilinx的计算,基础设施成本可以降低约40%。
 

Bowen表示,这种计算存储功能也可以应用于NVMe over Fabric设置,这里利用了高性能网络以及Alveo加速器除了压缩之外还可用于执行各种数据相关工作的事实,包括数据库过滤,扫描和聚合等。
 

所有这一切都得益于Xilinx的努力,为这些加速器构建应用生态系统。虽然这是一个长期项目,但自从去年10月Alveo推出以来,它们似乎在短时间内取得了不错的进展,使这些设备上运行的应用程序数量翻了一番。同样,在此期间,接受过编写这些应用程序培训的开发人员数量增加了四倍。
 

此外,Bowen表示他们有越来越多的软件合作伙伴和系统供应商支持这一产品组合。后者包括许多主流OEM,包括戴尔EMC,SuperMicro和浪潮。亚马逊,阿里巴巴,腾讯和百度也在各自的云中支持这些加速器。
 

正如您所料,Xilinx提供了一堆开发工具,驱动程序和运行库,包括数学原语和参考代码块。Bowen说,拥有这种IP基线对于开发人员构建新应用程序至关重要。
 

Alveo U50现已开始提供样品,许多原始设备制造商正在进行鉴定,根据规格表,包括戴尔,惠普企业和Supermicro。一般可用性定于2019年秋季。
 

关键词: PCIe 4 赛灵思

相关文章

全部评论

X