不同类型的硬件AI加速器

匿名用户 2020年6月30日 pm9:38 阅读 385

AI加速器是一种专用的硬件加速器或计算机系统,旨在加速人工智能应用程序,尤其是人工神经网络、机器学习、机器人技术和其他数据密集型或传感器驱动的任务。它们通常具有新颖的设计,并且通常专注于低精度算术,新颖的数据流X结构或内存中计算功能。

在过去十年中,随着深度学习和人工智能工作负荷的日益增长,从现有产品中设计或改编了专门的硬件单元,以加快这些任务的速度,并为针对各种应用(包括神经网络仿真)的工作站提供并行的高吞吐量系统。截至2018年,典型的AI集成电路芯片包含数十亿个MOSFET晶体管。

硬件加速具有许多优势,主要是速度。加速器可以大大减少训练和执行AI模型所需的时间,还可以用于执行无法在CPU上执行的基于AI的特殊任务。在这里,我们看一下最受欢迎的硬件AI加速器。

不同类型的硬件AI加速器

图形处理单元是一种专用芯片,可以进行快速处理,主要用于渲染图像。它们已成为现代超级计算的关键部分。它们已用于发展新的超大规模数据中心,并已成为加速器,加速了从加密,联网到人工智能的各种任务。GPU引发了AI的热潮,成为现代超级计算机的关键部分,并继续推动游戏和专业图形的发展。

现代GPU非常适合处理计算机图形和图像处理。对于并行处理海量数据块的算法,它们的极度并行结构使其比通用中央处理器(CPU)更有价值。超级计算机,工作站上使用多个GPU来加快处理一次视频和3D渲染的速度,从而实现VFX和仿真,以及在AI中训练工作负载。与CPU相比,例如NVIDIA GPU所包含的芯片具有所谓的CUDA内核,并且每个内核都是一个可以执行一些代码的微型处理器。

视觉处理单元(VPU)是一种新兴的微处理器,是一种旨在加速机器视觉任务的AI加速器。据报道,视觉处理单元更适合执行各种机器视觉算法。这些工具可以设计有用于从相机捕获视觉数据的特定资源,并可以进行并行处理。这些工具中有一些是低功耗和高性能的,可以插入接口以实现可编程使用。

视觉处理单元适合执行机器视觉算法,例如СNN(卷积神经网络),SIFT(尺度不变特征变换)和其他类似算法。它们可能包括直接接口,以从摄像机获取数据(绕过任何片外缓冲区),并更加强调许多并行执行单元之间的片上数据流。

推动VPU的因素包括智能手机的日益普及,边缘AI的日益普及以及对计算机视觉高级计算能力的需求不断增长。VPU的一个示例是Intel的Movidius Myriad X VPU,该产品已在许多边缘设备中使用。目标市场是机器人技术,物联网,用于AR / VR的新型设备,以及将机器视觉加速集成到智能手机和其他移动设备中。

现场可编程门阵列(FPGA)是在制造后由客户或设计人员配置的集成电路(IC),因此被称为“现场可编程”。FPGA包括一系列可编程逻辑块和“可重新配置的互连”层次结构,使这些块能够像许多可以以各种配置互连的逻辑门一样连接在一起。

FPGA在接口灵活性方面优于GPU,并通过将可编程逻辑与CPU和标准外围设备集成在一起而得到增强。相反,GPU已针对利用数千个X的浮点运算的并行处理进行了优化。它们还具有强大的处理能力和更高的电源效率。可以同时执行多种逻辑功能的FPGA被认为不适合新兴技术,例如自动驾驶汽车或深度学习应用。

当今的现场可编程门阵列(FPGA)具有大量逻辑门和RAM块资源,可以实现复杂的数据计算。由于具有可编程特性,FPGA非常适合许多不同的市场。在制造后,可以将FPGA重新编程为所需的应用程序或功能需求。此功能将FPGA与专用集成电路(ASIC)分开,后者是为特定设计任务而定制生产的。

FPGA越来越多地用于加速数据中心中的AI工作负载,以完成诸如机器学习推理之类的工作。诸如Xilinx之类的许多硬件公司已经将其FPGA产品作为最新的数据中心加速器卡推出,以满足客户对更多AI工作负载的不断增长的对异构架构的业务需求和性能提升。

整个AI硬件加速器类别正变得越来越重要,这被称为专用集成电路(ASIC)。ASIC采用诸如优化内存使用和使用低精度算术之类的策略来加速计算并增加计算吞吐量。一些采用AI加速的已采用的低精度浮点格式是半精度和bfloat16浮点格式。硬件加速用于加速AI工作流中存在的计算过程。

例如,英特尔发布了Nervana,这是一种ASIC,用于推理并支持服务器设置中的大量并行化。它还大大改进了芯片结构,并在10nm制造工艺上构建了它们。ASIC具有众多优势,其中主要是速度。加速器可以最大程度地减少训练和执行AI模型所需的时间,还可以用于执行基于AI的特殊任务。

张量处理单元(TPU)是一种专用电路,通常通过对预测模型(如人工神经网络(ANN)或随机森林(RF))进行操作,来执行执行机器学习算法所需的所有必要控制和算术逻辑。

Gооgle于2016年推出了TPU。与GPU不同,TPU是经过定制设计的,可以处理神经网络训练中的矩阵乘法等运算。Gооgle TPU的功能可以通过两种类型实现,即云TPU和边缘TPU。可以从Gооgle Colab笔记本访问Cloud TPU,该笔记本为用户提供位于Gооgle数据中心的TPU盒。另一方面,Edge TPU是定制开发工具包,可用于创建特定的应用程序。

张量是X数组或矩阵,是基本单位,可以按行和列格式保存数据点,例如神经网络中节点的权重。基本计算操作在张量上执行。TPU在X的DeepMind的AlphaGo中得到了利用,在那里AI击败了世界上最好的Go播放器。它也被用于AlphaZero系统,该系统产生了国际象棋,将棋和围棋程序。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://ispeak.vibaike.com/32128

发表评论

登录后才能评论