忘掉英特尔酷睿和高通骁龙:人工智能时代你该认识这些芯片

  • 时间:
  • 浏览:5
  • 来源:大发湖北快3_大发湖北快3投注平台_大发湖北快3娱乐平台

本文授权转载自PingWest品玩,作者光谱,原文链接http://www.pingwest.com/ai-chips-101/

不可能 你今天问身边懂科技的朋友 “未来是哪几个时代?”他八成会告诉你是人工智能的时代。

不可能 开发了数十年,但在近几年得到迅猛发展的厚度学习神经网络技术,正在驱动一次人工智能革命。而革命的对象正是微信、Facebook等主流科技产品肩上的哪几个科技公司。

新的革命还里能 新的武器。酷睿和骁龙们不到满足需求,人工智能计算还里能 新的芯片。当朋友 谈起外理器,朋友 过去谈的是酷睿、GTX和骁龙——现在是完后 了解一点人工智能时代的芯片了。通过本文,我将用比较通俗易懂的语言为你介绍几款主流的厚度学习加速外理器。

GPU,也本来朋友 常说的显卡,得益于其硬件架构对并行计算支持比较好,最一开始英文英语 英文朋友 都用GPU来搞厚度学习。有一另有三个 很经典的例子本来斯坦福教授吴恩达跑到Google,带队用大量GPU做出了有一另有三个 专门跑神经网络的大规模计算集群,也本来本来的Google大脑。

但在厚度学习专家眼中,GPU仍就有最优的答案。它的性能很好,但耗电惊人。或者有一另有三个 搞笑的原困 是,不可能 挖比特币和以太坊还里能 ,显卡到处都缺货,厚度学习研究者一直买不到不可能 买不起。神啊,赐朋友 一台不挖矿,只跑厚度学习的外理器可好?

即将前往麻省理工学院(MIT)担任助理教授的厚度学习专家韩松告诉PingWest品玩,厚度学习的计算模式和常规计算有很大不同,厚度稳定且不到很高精确性。“1乘以1还里能 不等于一”,这是一点计算不到允许的。

我个人所有 面,厚度学习专门硬件的特点是计算高效,缺点是很贵,还里能 有大量需求开发和使用才比较经济,韩松指出,现在厚度学习应用的不可能 非常广,给人工智能开发专门的计算硬件是值得的。

Facebook人工智能研究院院长燕乐存(Yann LeCun),20多年前在贝尔实验室就开发过一款叫安ANNA的人工智能专门芯片。那时他还在做光学字符识别(OCR)研究,而ANNA识别字符的时延单位达到了惊人的30个/秒,比一齐代一点外理器都快得多。你也还里能 说,ANNA是最早的“人工智能芯片”,不可能 更准确来说,厚度学习加速外理器之一。

现在?人工智能芯片多到一双手不可能 数不过来了。几乎每一家过去的“软件”不可能 “服务”公司,哪几个跟硬件一直没没有来太久关系的大型科技公司,比如Google、亚马逊、微软,就有可能 开始英文英语 英文使用,不可能 正在研发我个人所有 的厚度学习加速外理器。

Google的人工智能驱动着每一次搜索的结果展现,Facebook用人工智能来优化用户的时间线,在用数千种语言发布的内容之间互译,腾讯也在西雅图设立了实验室进行人工智能基础研究,尝试将其用在微信等用户过亿的产品中。

而你这些 变化对芯片行业的巨头们带来了新的冲击,朋友 有的发现我个人所有 不可能 过时了,有的正在迅疾 追赶Google,通过收购的法律法子拓展我个人所有 的产品线,在人工智能芯片市场还未开始英文英语 英文论资排辈完后 ,就先占上一把交椅。

Google:TPU是哪几个:Tensor Processing Unit(张量外理单元),是Google开发的专门目的集成电路(ASIC)。

性能:TPU不可能 开发出了第二代,每颗时延单位300GB/s,算力达到45 TFLOPS (8位整数)。

它的模组化能力出众,Google的用法是将4颗TPU放入 一块电路板上,组成有一另有三个 130 TFLOPS的模组“Cloud TPU”,用它们来替换厚度学习云机房里的CPU和GPU,单机最多还里能 拼接256块Cloud TPU,算力达到惊人的11.5 PFLOPS(下图)。

用途:前面提到,Google过去用显卡组建大规模计算集群,能耗较高,训练时延单位较慢,该公司还里能 有一另有三个 专门的计算架构,去更高效地训练和使用厚度神经网络。所以Google开发了TPU。

TPU于面向大规模低精度的厚度学习计算而设计和优化,适合神经网络的训练和推理(在具体用途和场景中运行神经网络)。现在,TPU不仅Google员工的内控 工作系统,还支持着搜索、照片、翻译、街景等Google旗下产品。就连击败了李世乭、柯洁的围棋人工智能线程池池AlphaGo,也运行在TPU上。

微软:HPU和“脑波计划”DPU是哪几个:HPU是微软在混合现实头显HoloLens里自行设计,并由相互合作伙伴生产的“协外理器”。具体是用一块FPGA(现场可编程门阵列),三种非常灵活的半定制化电路实现的。

“脑波计划”(Project Brainwave)则是微软前不久完后 提前大选的人工智能硬件加速计划,包括有一另有三个 大量芯片组成的分布式计算架构,和一套直接运行在芯片上的“操作系统”。脑波计划的硬件核心是DPU (DNN Processing Unit),也即厚度神经网络外理单元——本质上还是FPGA。

性能:HoloLens一代内置的HPU,要能在10W功耗下提供1TFLOPS算力。微软上个月完后 提前大选了新一代HPU,具体细节未知,但还里能 预料到的是功耗会进一步降低,性能会继续提高。

至于“脑波计划”,它的信息十分有限,但看起来支持多种FPGA,目前微软展示的技术用的是英特尔的14纳米制程FPGA。你这些 芯片单颗计算力约10 TFLOPS(单精度),功效为30GFLOPS/W。

用途:HoloLens一代不可能 内置了一块英特尔的CPU和集成GPU,为哪几个它还还里能 HPU?嘴笨 ,作为混合现实不可能 增强现实头显,HoloLens还里能 确保佩戴者的舒适,降低运动和姿态变化和画面变化的延时,所以它还里能 结合传感器数据进行海量的计算。但CPU和GPU主要跑操作系统(Windows 10)和外理图像,没有多余的算力给传感器。不可能 让它们来做这每项的计算,不但延时高用户会眩晕,也更费电,还抢走了操作系统的算力,提高了蓝屏危险……

HPU本来用来做这每项工作的。而在HoloLens二代里,微软打算让HPU承担更复杂性的任务:本地运行厚度神经网络。根据有限的信息,HPU二代还里能 高功效运行类型非常充足的厚度神经网络,为HoloLens加入更多人工智能功能(比如本地图像识别、语音外理等)开了大门。

至于“脑波计划”,从同样有限的信息来看,它应该是微软为扩展我个人所有 的人工智能和云计算生态,和Google TPU抗衡而推出的。它的用途和TPU应该本来会有没有来太久差异,无外乎对微软我个人所有 的产品,以及其团队的科研提供计算支持。微软的云计算服务一直在使用FPGA,所以向“脑波计划”迁移应该比较轻松。它支持微软我个人所有 的CNTK厚度学习框架,一齐也支持竞争对手Google的TensorFlow框架。

英伟达:Tesla厚度学习外理器是哪几个:英伟达是显卡界的王者,但你不可能 真不知道,现在的显卡功能比玩游戏多多了(别提挖矿!)GeForce是玩游戏的,Titan系列则步入了GPU的范畴(还里能 玩游戏也还里能 做神经网络训练)。而Tesla GPU则是英伟达专为人工智能开发的专业级服务器端显卡。

Tesla GPU系列最新产品是V30,V的命名来自英伟达最新也最顶级的12纳米Volta微架构。

性能:V30所采用的Volta架构,是由640枚被英伟达命名为“张量核心”(Tensor Cores)组成的。你不到明白Tensor Cores到底是哪几个,只还里能 知道它很厉害就行。V30的计算性能达到15 TFLOPS(单精度)、120TFLOPS(厚度学习),堪称人工智能芯片中的核弹了。

Tensor Cores

用途:Google最一开始英文英语 英文宣称TPU比GPU快30倍,业界对其赞叹有加。但有个细节是,TPU第一代不到推理,不到用来训练神经网络。所以当时英伟达还还里能 说我个人所有 是唯一端到端(从训练到推理再到自动驾驶等实际场景)的人工智能计算方案提供者。而V30本来你这些 方案的硬件核心。

不过英伟达推出V30没多久,Google就开了I/O 2017大会,提前大选了训练和推理都能做的TPU二代。即便没有,V30仍然是截至目前最适合神经网络科研的显卡,用通用图形外理器(GPGPU/CUDA)做厚度学习你这些 派的绝对王者。

英特尔:FPGA、显卡、至强融核和VPU是哪几个:前面提到了微软在使用的现场可编程门阵列FPGA,正是由英特尔(所收购的FPGA巨头Altera,现在成为了英特尔FPGA部门)所开发的。简单来说,不可能 FPGA对并行计算支持好,性能高,便于重新编程,功耗比GPU、CPU低,FPGA也是人工智能芯片的有一另有三个 重要门派(另一家FPGA巨头Xilinx的人工智能产品也很不错,不过篇幅有限就不赘述了)。

英特尔还收购了Nervana,组建了有一另一我个人所有 工智能部门。你这些 部门的研究用的是显卡。

“至强融核”(Xeon Phi)是英特尔另一款在服务器端抗衡英伟达GPU的外理器产品。它的最新款产品并行计算好适合厚度学习,它的有一另有三个 最主要优势是“实惠”,不跑厚度学习也还里能 当CPU来用(不可能 它有一另有三个 本来CPU)。

VPU则是英特尔收购的另一家爱尔兰公司Movidius所开发的低功耗厚度学习加速芯片,特色是超小尺寸和功耗超低。

用VPU制成的神经计算棒

性能:英特尔FPGA产品线较复杂性,性能多样。显卡方面的信息本来多

至于Xeon Phi,计算力合适 在3.5 TFLOPS左右?

VPU采用该公司自研的Myriad架构,最大的特色是要能在1W或更低功率内,实现30 GFLOPS甚至更高算力。

用途:不可能 英伟达一发核弹毁灭全球,没有英特尔本来通没有来太久元化的产品线尝试在厚度学习市场上分一杯羹。FPGA、Xeon Phi就有直接推向消费者的云端数据中心里的产品,而身材纤细的VPU用途更多样,安放入 了大疆无人机、联想手机等产品中,也被英特尔直接做成了即插即用的厚度学习计算棒,适合机器人开发等等。

Intel, Processors

一点公司

Facebook:也在开发我个人所有 的厚度学习芯片,据说在和高通相互合作。

百度:XPU,本质是FPGA,和Xilinx相互合作

地平线:前百度厚度学习研究院院长,也在开发人工智能定制芯片,应该是FPGA

苹果 手机:没错,苹果 手机也将在新款手机里加入“人工智能协外理器”,信息极为有限。