阿里平头哥首款AI芯片发布!46倍于英伟达P4,刷新全球推理性能最高纪录

阿里第一颗芯片诞生!

刚刚,云栖大会现场,阿里巴巴集团CTO、达摩院院长张建锋向全场展示了含光800——阿里第一款AI芯片。


为了这款芯片,阿里一年前放下狠话,但谁也没想到一年后即亮相:不仅完成流片,还已在阿里云上正式上线。

这也是阿里平头哥成立以来首款硬件产品,是阿里20年发展史上首款自主研发、流片量产的芯片。

在芯片行业时代变革转关之际,阿里好风凭借力、快速取得突破,掌握下一阶段擂台主动权,意义和价值,或许将远超芯片本身。

不过发布现场,张建锋更想强调的是敬畏之心。

他说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”


含光800究竟如何?

含光之名,依然沿袭平头哥传统,取自神兵宝剑。

“含光”本是上古三大神剑之一,含而不露,光而不耀,正如含光芯片作用方式——无形却强劲的算力。

具体来说,这是一款云端AI芯片,主打推理,重点应用于视觉场景。

性能方面,打破现有AI芯片记录,性能及能效比全球第一。

芯片制程12nm,晶体管数量高达170亿个。


在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍。

能效比500 IPS/W,是第二名的3.3倍。


以数据横向对比,含光800展现性能,是英伟达最新T4五倍,是应用最广的英伟达P4的46倍——超过去年设计之初吹下的“牛”。

目前,含光800已经率先在阿里内部多个业务场景开启大规模应用。

从视频图像识别、分类、搜索,到城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。

大会现场,张建锋展示了这款芯片的强大性能。

每天新增10亿商品图片的拍立淘商品库,使用含光800识别效率可提升12倍,时间从传统通用GPU的1小时缩减至5分钟。


还有城市大脑。在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。


阿里方面称,含光800会首先在阿里内部场景业务服役,同时含光800的AI云服务也正式上线,通过阿里云对外提供AI算力,但不会直接以芯片的形式对外售卖。


此前,阿里平头哥连战连捷,过去两个月已经发布了无剑SoC平台和玄铁处理器IP,“让天下没有难造的芯片”,帮助企业降低芯片设计门槛。

现在,作为首款硬件,也是最硬核产品,含光800依然承载平头哥之志,希望通过阿里云AI云服务,让企业随时随地可以享受高性能计算。

而且也意味着阿里平头哥成立一年来,走过了软件架构(处理器IP、SoC平台)到硬件流片的完整流程。

这是阿里造芯,标志性的“交作业”时刻。

阿里造芯这一年

阿里布局AI芯片,最早曝光于2018年4月。

其后9月云栖大会,阿里宣布成立平头哥,并且先将“狠话”放下,正在打造一款NPU,架构设计上,性能成果就要比业内最好的AI处理器强大40倍。

此言一出,语惊四座。

然而一年之后的现在——成绩单时刻——阿里平头哥确实没有食言。含光800,性能46倍于P4,甚至比最新一代英伟达T4,也有5倍领先。

虽然过程并非完全顺风顺水,但过去一年,“含光”团队不仅完成了从无到有的跨越,更是超越了所有人的预期。


整个过程中,含光800团队在软硬件设计上都做了大量工作,例如做架构创新,软件编译器、框架、工具链等,后期还针对INT8数据类型进行了大量优化。

含光800芯片负责人骄旸透露,这款芯片采用自研架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。

芯片同时深度优化了卷积、矩阵乘、向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。

另外,还集成了达摩院算法。针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。


更难能可贵的是,平头哥团队攻克了一系列挑战。

例如如何兼顾性能、良率、功耗等。平头哥在软硬件上充分考虑了这些问题,用最短的时间完成了芯片的设计、流片整个过程,7个月完成前端设计,之后仅了3个月就成功流片。

骄旸感慨,从传统造芯角度来看,几乎是一个不可能完成的任务。但最终,阿里AI芯片团队,还是创下纪录,完成挑战,把不可能变为可能。

这其中,自然有“007”们日日夜夜的苦功,不过也不容忽视乘风起势的大趋势作用。

正所谓时来天地同协力,AI时代的专芯专用需求,阿里业务场景加持优势,都是不得不说的核心原因。


NPU:芯片的iPhone时刻

首先,AI时代的专芯专用需求。

顾名思义,NPU——神经网络处理器就是专门处理深度神经网络算法的芯片,而深度神经网络算法,核心是模仿生物神经网络结构特点,并且最基本特征就是模仿大脑神经元之间传递模式,并对输入的信息进行快速处理。

然而传统通用处理器基于冯诺依曼结构,其存储和运算处理相互分离,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,效率较低。

因此以含光800为代表的神经网络芯片,根据神经网络推理运算特征,会设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。


简而言之,专芯专用,效率更高、成本更低,相应效益也会更好。

而且另一方面,因为需求明确,应用场景有针对性,相比打造CPU和GPU,打造AI芯片的门槛要低很多。

于是整个行业都在来到一个“iPhone时刻”——软件重新定义硬件,场景需求重新定义芯片。

然后过程中最好还能与应用的业务场景结合,不断验证、反馈,迭代,最后在达到目标效果后流片、完成物理实现。

所以当今之势,不仅AI造芯初创公司形成小高潮,而且互联网巨头也纷纷跨界变硬,启动自主AI芯片打造。

但想不想造、有没有能力造,最后造的结果如何……完全是好几个层次,完全是综合实力的比拼。

这也就是为什么,阿里的业务场景优势,会给平头哥首款AI芯片带来加速,也是阿里手握新时代芯片竞争“天命”的原因。


何以一年造出AI芯?

实际上,虽然速度快、成果惊人,但阿里AI芯片并非完全“从0开始”。

平头哥创立一年,不过达摩院和阿里各大业务,已在AI算法和软件方面积累很长时间。

含光800团队透露,基于阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀,是含光800重构芯片软硬件技术栈的秘诀所在。

由于AI芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值。
算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果。


硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年经验,平头哥团队也在体系结构、编译技术等领域拥有深厚的技术储备。

基于这些能力,平头哥完成了算法和硬件之间鸿沟的快速突破。在算法能力之上,自研芯片架构,并且设计了完整软件栈。

而且如此设计理念,效果也立竿见影。例如功耗是AI芯片行业通病,但平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,能把芯片功耗降到最低水平。

另外,新入局也有新入局的优势。

带队打造含光800的骄旸感慨,半导体巨头搞AI芯片,会有既有开发者生态的包袱,但阿里平头哥团队目标专一,就是要实现最强算力,把硬件能力完全释放,以构建更大的生态。

过程中也无时不刻展现着阿里业务场景优势、以及组织凝聚力。

而平头哥在架构设计之初,业务场景同事就从需求和经验层面给出了全面反馈,直接帮助厘清了需求。

然后算法加持和验证迭代阶段,达摩院和业务场景也不厌其烦帮助测试、反馈,提交迭代,共同完成了流片前的最后保障。

所以虽然阿里造芯,专门成立了平头哥半导体,但“含光800”从无到有,不光是一个人、一支团队在战斗。

如果你问阿里AI造芯的优势究竟有哪些?


除了有“生死看淡不服就干”的决心,真金白银的投入,业内全球资深人才的招揽……

平头哥首席科学家、阿里巴巴高级研究员元尊,会将具体优势归结为“ABCDE”。
  • A:Algorithm,算法,阿里本身的技术储备和AI实力,在算法方面有世界领先的积累。
  • B:Big Data,大数据,庞大的生态场景和覆盖方方面面的业务,在数据质和量方面都有优势。
  • C:Computing,安全稳定的计算力,阿里云的市场龙头和领先地位,就已能说明一切。
  • D:Domain knowledge,专业领域知识,阿里本身并非只是一家一业的公司,而是几十家公司的集合体、经济体,有各种各样的全面应用场景,对于各项最新技术和产品,有最天然的应用基础。
  • E:Ecosystem,生态。比起传统芯片半导体公司,阿里生态涵盖之广泛、能力之多元和应用前景,都是综合实力的体现。
元尊认为,拥有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上AI芯片C位。
而且这种“ABCDE”,一方面帮助造芯,另一方面还帮助用芯。


阿里AI芯片商业模式

在阿里内部,因为丰富的场景需求和业务体量,对高性能AI算力的需求已非一日。

电商场景中,拍立淘等新兴购物方式涉及的图片搜索,需要AI芯片。

还有文娱场景,优酷视频修复、分析,也需要AI实现。

还有阿里正在大规模落地推进的城市大脑等,如各类车辆进行检测、跟踪、特征提取、属性检测等,也都离不开更强算力加持。

未来,在医疗和自动驾驶等重要垂直领域,更是空间广阔、商业前景潜力十足。

单自主芯片自用,就已效益显著。

更何况阿里云的地位和实力,也能让AI算力通过阿里云赋能更多领域、更多企业。

所以此次含光800芯片选择云服务的商业模式,也在情理之中。

阿里方面,则更乐于强调首款AI芯片的商业模式背后,一以贯之的普惠性——平头哥创办的核心理念。

今年早先推出的无剑SoC平台和玄铁处理器IP,都选择了直接开放授权,帮助企业降低芯片设计门槛。

而含光800的普惠性,则体现在通过阿里云AI云服务的形式,让企业随时随地可以享受高性能计算服务。

平头哥下一步

在杭州云栖大会期间,也谈到了阿里芯片的下一步。

随着含光800发布,平头哥已集齐了全栈芯片家族:
  • 基础单元处理器IP,C-Sky系列、玄铁系列,为AIoT终端芯片提供高性价比IP;
  • 一站式芯片设计平台,无剑SoC平台集成CPU、GPU、NPU等,降低芯片设计门槛;
  • AI芯片,含光800通过AI云服务为AI场景提供高性能算力。
这三大产品系列,初步完成了平头哥端云一体的芯片生态。

而接下来,平头哥产品形态,重点将是云端AI训练芯片、端上推理芯片,以及用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。

此外,平头哥芯片初步软硬件闭环实现,阿里巴巴在芯片、云和AI三大业务之间的协同关系,也雏形初现。
从时代趋势而言,三者原本就是三位一体。

AI算法逐渐集成到芯片,集成算法的专用芯片能为云服务提供了更强的性能,而云计算本身则加速了AI应用的大规模落地。


过去十年,阿里集中推进、展现成果的是AI和云计算。

现在,平头哥补齐芯片一环,阿里在计算版图中的铁三角形成。

不过中国科技互联网巨头,自然还有野心更大的宏伟蓝图——行业生态和开发者生态。

此前,玄铁910发布,阿里也明确解释过,平头哥目标就是打造AIoT时代的基础设施平台,延续从阿里巴巴B2B淘宝支付宝,到阿里云和菜鸟等延续承袭的阿里之道。

在此次云栖大会,基于RISC-V架构的玄铁处理器、以及无剑SoC平台也有开发者案例——如人工智能独角兽云天励飞、老牌芯片商炬芯科技,以及可重构计算芯片领军企业清微智能,都将现场亮相。

当然,既然AI芯片是一次软硬件一体化的完全重构,那么在软件栈和模型框架方面,阿里必然也不会袖手旁观。
最明显的信号,莫过于重磅引入的Caffe之父贾扬清。

One more thing:含光

最后,阿里首款AI芯片,取名依然寓寄深远。

“含光”之名,来自《列子·汤问》,是上古名剑,也是商天子三剑之首。

“视不可见,运之不知其所触,泯然无际,经物而物不觉。”

这把剑隐隐发光,如光如影如风,快到看不见,无形、无处不在,无往不利。

平头哥团队解释说,这是含光800团队内部投票的结果。

既希望传达该款NPU的能力,也展现平头哥首款硬件初入芯片领域的心态——在英特尔和英伟达等巨头面前,还是“年轻人”,造芯重器,心怀敬畏。

不过,含光800面世,依然是阿里和平头哥历史性的重要一步。

阿里刚刚度过了20周岁生日,这一个20年完成了“让天下没有难做的生意”。

接下来20年,能实现“让天下没有难造的芯片”的大胆梦想吗?

不知道。

眼下只知道含光初立,一剑光寒十四州,迈出万里长征第一步。

来源 | 量子位

上一篇:“智变融合”赋能 AI 行业,第五届中国人工智能大会在青岛胶州开幕
下一篇:干货 | 澎思科技——有限算力资源下的深度学习与人脸识别