寒武纪副总裁刘道福:算力是人工智能的第一推动力

猎云网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

12月10~11日,2019年度CEO峰会暨猎云网创投颁奖盛典在北京望京凯悦酒店隆重举行,近百位知名资本大咖,独角兽创始人、创业风云人物及近千位投资人与创业者共聚“新势力·2019年度CEO峰会暨猎云网创投颁奖盛典”。

寒武纪副总裁刘道福:算力是人工智能的第一推动力

在《人工智能芯片技术发展与应用》的主题演讲中,寒武纪副总裁刘道福概括介绍了人工智能的发展路径,并分享了寒武纪现阶段在云、边、端的业务进展。

刘道福提到,人工智能和深度学习的发展经历了“三起三落”。

,当时被称为“多层感知机”技术。由于当时没有有效的训练方法以及多层感知机计算量过大,70年代神经网络的相关研究陷入了低谷,被人称作第一次人工智能的冬天(AI Winter)。

但当时整个计算机系统的计算能力还是比较弱,加上隐藏层需要调参比较耗时,因此,神经网络这类需要消耗大量算力的算法并没有得到如期发展。

而其他一些机器学习算法,如支持向量机(Support Vector Machines,SVM),则因为无需调参和高效等特点迅速打败神经网络成为机器学习的主流算法。

进入2000年后,由于互联网企业的崛起,互联网巨头能够拥有大量的算力和数据,用于神经网络这类算力密集型和数据密集型的算法研究,神经网络重新焕发了第三春,并且诞生了比传统浅层神经网络(两三层)层数多很多的深度神经网络,层数高达上千层。

这些深度神经网络的表述能力比传统浅层神经网络好很多,可以解决更加复杂的问题。因此,深度神经网络很快在2012年后逐步成为机器学习主流算法,并且迅猛发展,很快在包括计算机视觉、语音识别、自然语言等领域成为了主流。

伴随着人工智能的发展和应用,2000年后,人工智能芯片也开始得到学术界和产业界的关注。其中,无论是在人工智能芯片的学术研究还是产业落地,寒武纪或寒武纪团队都是很早就进入,是相关领域的先行者。

刘道福分享认为,。

2018年,寒武纪推出的MLU100机器学习处理器芯片,运行主流智能算法时性能功耗比全面超越CPU和GPU。

2019年,寒武纪陆续推出了云端AI芯片中文品牌“思元”、第二代云端AI芯片思元270及板卡产品,发布边缘AI系列产品思元220(MLU220)芯片及模组。

其中,思元220是一款专门用于深度学习的边缘加速芯片,采用TSMC 16nm工艺,它具有小尺寸、高算力、低功耗和丰富的I/O接口等特点。

刘道福在接受猎云网采访时表示,寒武纪思元系列主要有以下几大亮点:

首先,。寒武纪为思元系列提供了一整套成熟的开发环境Cambricon NeuWare,具体包括应用开发、功能调试、性能调优等在内的一系列工具。

其次,。相比GPU处理器,采用了针对深度学习和人工智能应用特点优化的指令集和处理器架构,具有更优的能效比。

此外,。能够支持各类深度学习技术,支持多模态智能处理(视觉、语音和自然语言处理),应用领域广泛。

在刘道福看来,创业公司布局AI芯片需要从三个方面着手,做到“”。

目前,寒武纪人工智能相关芯片在互联网、金融、教育、制造、交通等领域均有成功落地和应用。

寒武纪副总裁刘道福:算力是人工智能的第一推动力

为了帮助创业者和投资人重新蓄力,2019年,猎云网携全新品牌“新势力(New Force Summit)”亮相。本次峰会由猎云网主办,锐视角、猎云资本、猎云财经、企业管家协办。

此次盛典上,猎云网将通过六个版块分享创业者和投资人在智能制造、文娱、零售、医疗、教育、汽车等领域的启发性的观点和行业前瞻,围绕多个维度,分享科技和产业前沿观点,探讨创新潮流趋势、把握未来新方向。

以下为刘道福演讲全文,猎云网整理:

尊敬的各位嘉宾,大家下午好!

感谢猎云网的邀请,很荣幸在这里向大家分享一下我在人工智能芯片的一些看法和想法。

首先简单介绍一下寒武纪,寒武纪本来是距今约5~6亿年的地质年代。在这个地质年代,物种多样性、复杂性得到大大提升,被称为寒武纪物种大爆炸。

如今,计算机产业、信息技术也有处于这样的阶段,人工智能出现也让相关产业得到很大的提升,乃至跃迁,先进的人工智能技术已呈大爆发之势。寒武纪公司英文名Cambricon是寒武纪与半导体两个单词的合成(Cambrian+Silicon),我们希望在人工智能的寒武纪时代,做一个伟大的芯片公司,支撑上层的人工智能应用。

这是整个深度学习的发展历程,人工智能、深度学习有三起三落。

50年代达特茅斯会议标志者人工智能的诞生。在人工智能诞生之初,深度学习的雏形,最早的神经网络,多层感知机就被提出。

但由于当时没有有效的训练方法以及对当时来说,多层感知机计算量过大,70年代神经网络的相关研究陷入了低谷,被人称作第一次人工智能的冬天(AI Winter)。

80年代发明反向传播的算法,解决了训练的难题,所以大家觉得神经网络会有一波浪潮,但是后面发现并没有实现,是因为80年代整个计算机计算能力特别弱,训练深度学习或者神经网络需要计算能力非常高,80年代一台超级计算机的能力也仅万亿次规模,现在一台手机远远超过这个计算能力。

加上神经网络容易陷入局部最优,以及隐层神经元数这些超参很难调好,神经网络发展碰到了障碍。

所以,80年代像神经网络需要消耗大量算力的算法没有得到发展,90年代神经网络相关研究陷入了低潮。

而其他一些机器学习算法,如支持向量机(Support Vector Machines,SVM),则因为无需调参和高效等特点迅速打败神经网络成为机器学习的主流算法。

进入2000年后,由于互联网企业的崛起,互联网巨头能够拥有大量的算力和数据,用于神经网络这类算力密集型和数据密集型的算法研究,神经网络重新焕发了第三春,并且诞生了比传统浅层神经网络(两三层)层数多很多的深度神经网络,层数高达上千层。

这些深度神经网络的表述能力比传统浅层神经网络好很多,可以解决更加复杂的问题。

因此,深度神经网络很快在2012年后逐步成为机器学习主流算法,并且迅猛发展,很快在包括计算机视觉、语音识别、自然语言等领域成为了主流。

寒武纪副总裁刘道福:算力是人工智能的第一推动力

人工智能有三个很重要的因素:。

,没有好的数据,无论算法多好,也很难加工出来好的模型。

,好的算法,能把好的数据进行加工(训练),得到一个好的模型,对于新的数据进行更好的预测。

,由于数据量越来越大,算法越来越复杂,需要非常非常高的算力支撑。就像人类社会进步需要生产力推动一样,算力是推动人工智能发展的第一推动力。

人工智能为什么需要一些专门的处理器呢?从历史发展来讲也可以看到一些端倪,传统在80年代、90年代所有的运算都是控制为主的运算或者文本处理,CPU就够了。

到90年代,图形界面的出现、游戏的出现,出现了图形渲染等这些新的的计算需求,原来的CPU处理这些计算太低效,成本太高,速度太慢,出现了针对图形界面和图像渲染的图形处理器(Graphics Processing Unit, GPU)。

人工智能计算特点相对图形渲染的计算,有一些新的特点,图像渲染以向量为主,但是人工智能计算往往是三维矩阵或者更高维运算为主,所以需要不一样架构的处理器来支撑人工智能这一类的计算。

伴随着人工智能的发展和应用,2000年后,人工智能芯片也开始得到学术界和产业界的关注。寒武纪在这个领域做的很早,我们在2008年在相关领域进行学术研究,2016年成立公司进行真正的产业落地。

比如说对于物联网领域,算力需求不会那么大,但是对功耗要求很高,希望做到极低功耗,这个场景对算力的要求往往小于1Tops。对移动消费电子,比如手机或者VR、AR设备,算力要求和具体场景有关系,1-20Tops的算力要求都有。

而对于一些关键实时应用,比如自动驾驶领域,取决于自动驾驶水平(Level)不一样,算力范围变化是很大的,可能从20-2000TOPS。

有观点认为,自动驾驶每往上升一个Level,所需要的算力会增加5~10倍。Level 2的自动驾驶典型算力要求为20~30TOPS。

另外一个关键场景就是互联网、数据中心的应用,这个场景,取决于业务规模的大小,可能从POPS到EOPS不等。

截屏2019-12-15下午4.18.37.png

人工智能发展当中,数据促进了IT技术变革以及人工智能落地。因为数据越多,所需要处理的类型越来越丰富,从而推动了很多新需求、很多新应用诞的生。

另外,人工智能发展的另一个趋势,就是终端与云端的联系越来越紧密。在终端,由于越来越多传感器被部署,越来越多的数据需要被处理,需要进行推理。

而这些推理,又往往依赖于云端,一方面,推理所需要的模型,往往需要终端数据汇集到云端,进行标注和训练得到。另一方面,终端由于受限于计算力和存储容量,对于一些复杂推理应用,需要云端的算力进行支撑。

人工智能芯片要做到“好用”与“通用”,要解决一系列问题和挑战。寒武纪在这方面,做了很多尝试和工作。

首先在处理器指令和架构设计方面,我们从应用需求出发,分析和抽取应用负载特征,基于这些特征设计灵活指令集,提供灵活的运算器方案,以及可扩展性强、高效架构。

在具体产品落地上,寒武纪通过灵活和丰富的软件栈支持主流编程框架,并在大规模商用中得到反馈和修正,降低了成功智能芯片的开发成本,加速了人工智能芯片的落地。

在实际的人工智能处理器设计过程中,采用传统ASIC芯片设计思路,也即直接将算法硬件化,存在三大矛盾和挑战需要克服。

第一个,硬件受限于物理限制,所能同时处理的算法规模是受限的。

第二个,芯片和硬件的迭代速度较慢,周期较长,而算法迭代速度极快,同时同一时期的算法本身也是有各种各样的算法,如何通过一个结构的芯片或硬件支持各种时期,各种变化的算法,是个重大的挑战。

第三个是,由于处理数据的人工智能算法越来越复杂,以及所需要处理的数据量越来越大,所需要的算力也越来越大,对计算的成本提出了很大的挑战,计算所需要的电力成本升高及其后面的基础设施建造都会是一个重要的负担,因此,在实际落地中,企业往往对于人工智能硬件功耗提出了各种限制,各种要求。

寒武纪在设计人工智能芯片过程中,采用了一系列技术来克服上述挑战,包括集成大量片内SRAM,神经元虚拟化,通用灵活的人工智能指令集,以及对稀疏神经网络的专门支持等技术。

我们在终端、云端、边缘都有不同层次的产品。

由于产品形态非常千变万化,我们采用的IP授权的方式,把我们的AI能力赋能于各类终端SOC厂商,包括手机、摄像头SOC芯片厂商。

,我们直接提供芯片、板卡和软件栈,直接服务于互联网和行业巨头、数据中心。在边缘,我们定义的边缘计算是边缘网关侧的计算,我们也提供了专门的芯片和小尺寸加速卡,赋能于边缘计算的各行各业。

今年6月,我们发布了第二代云端推理芯片,思元270,在稠密的神经网络处理上,相比前一代有4倍的性能提升。最近,我们也推出了面向边缘计算领域的思元220芯片和M.2加速卡。

思元220是一款专门用于深度学习的边缘加速芯片,采用TSMC 16nm工艺,它具有小尺寸、高算力、低功耗和丰富的I/O接口等特点。

截屏2019-12-15下午4.19.48.png

在生态战略上,寒武纪将坚持端云一体,在终端和云端采用统一的指令集、处理器架构以及软件栈。终端和云端的生态实现互通,互相促进。

在云端,我们会提供丰富、完备的各类软件开发平台和工具,包括开发工具,调试工具,和性能调优工具。

我们的终端客户,可以直接在云端进行开发,开发好后,直接用寒武纪提供的一键部署工具进行一键部署,解决常见终端或嵌入式开发的开发难,开发调试工具不方面的难题。

另外,我们还会提供编程语言给客户和开发者,这样客户一些独特的算子,客户可以通过编程语言,在保证编程和运行效率的前提下自己实现,从而保护客户的模型安全和知识产权。

近期我们就会向社区公开这个编程语言,这个编程语言叫Bang,两重意思,一层是希望这个语言能够很棒,大家用的很顺手,另外一层意思,就是希望这个编程语言能助力人工智能算法和应用大爆炸(Big Bang),支撑用户发明各种千变万化的神经网络结构和算子。

后面几页slides是人工智能芯片具体的应用领域,刚才特斯联谢总已经提到了很多,时间关系,我就简单介绍一下。寒武纪无论是在互联网的搜索推荐、语音,还是金融领域的OCR、票据分析,还是教育等领域,都有落地。

在边缘计算领域,我们也在加速落地,在思元220发布会上,我们就展示了一个零售的应用。

当前,我们在商店买东西时,都需要将商品逐一扫描,然后计算总额,然后刷卡或刷二维卡。整个过程非常耗时。尤其在高峰期,即使增加收银人员,也很难避免排队现象。

在未来,通过在收银台架设摄像头,在边缘应用人工智能芯片对摄像头数据进行分析,做到只要将结算商品放到收银台,就可以自动识别出所有商品,进行计价,再结合刷脸支付,可以实现无扫描收银,无感支付。

大大提高收银效率,减少店家所需要的收银人员数量,原来需要4~5个收银员,可以减少到1个,减少消费者的排队时间,增加消费者的复购率。

由于时间关系,我的分享就到这儿,欢迎大家台下继续交流。谢谢大家!

推广:猎云银企贷,专注企业债权融资服务。比银行更懂你,比你更懂银行,详情咨询微信: zhangbiner870616 ,目前仅开通京津冀地区服务。

随意打赏

提交建议
微信扫一扫,分享给好友吧。