AI相关的16种技术入门

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
本文简要介绍了与人工智能相关的16种重要技术,为想要了解人工智能的朋友建立起一个AI技术的基本认知。

一、机器学习

机器学习(英文为Machine Learning,简写为ML)是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。Alpaydin在2004年给机器学习的定义是“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”。

机器学习可理解为一种逆编程技术。常见的编程过程是由研发人员编写程序,而机器学习技术是将大量的训练数据交给机器学习算法去学习,最终训练出一个模型。那么这个模型就相当于程序员编写好的程序。而训练模型的方式大致分为三种:监督、无监督与半监督。这三种训练方法的区别可以这样理解,当我们将训练数据交给机器学习时,如果我们对数据标注了标签,那么就是监督方式;如果对数据完全没有标注标签,那么就是无监督方式;如果只有少部分标注了标签而大量数据没有标注标签,那么就是半监督方式。我们通过一个例子来理解什么是训练数据与标签。假如我们需要训练一个能够自动识别音乐类型的机器学习模型,那么我们需要准备一些音乐文件并把每个文件标注好对应的音乐类型,然后将文件对应的音乐类型标注交给机器学习模型去学习,其中的音乐文件就是训练数据,而对应每个文件标注的音乐类型就是标签。

训练机器学习模型的三种最为常见的算法:

1. 分类算法,是一种对离散型随机变量建模或预测的监督学习算法。该算法可以应用在识别物体、识别动物、识别垃圾邮件、识别金融欺诈、预测广告点击行为等输出为类别的案例。

2. 回归算法,是一种对数值型连续随机变量进行预测和建模的监督学习算法。使用案例一般包括房价预测、股票走势预测或电影票房预测等连续变化的案例。

3. 聚类算法,是一种根据数据自发寻找分类方式的无监督学习算法。使用案例包括用户画像、商品推荐、图像分割等。

二、深度学习

深度学习(英文为Deep Learning,简写为DL)属于机器学习的一个分支,是一种含有多隐层的深度学习结构。深度学习的概念由Hinton等人于2006年提出。是目前在市场上非常热门的技术,已经被成功应用在计算机视觉、语音识别与自然语言处理等相关领域。而在2016年轰动世界的AlphaGo其背后也涉及了深度学习技术。

对应计算机视觉的主要技术是深度学习中的CNN(卷积神经网络)。对应语音识别主要应用了深度学习中的DBN(深度置信网络)+CNN+RNN(循环神经网络)。对应自然语言处理主要应用了深度学习中的CNN+RNN。

在这里提到了深度学习与神经网络两个概念,可以将深度学习理解为一种方法,而神经网络是一个模型,这两种理论是独立发展的,只不过深度学习的概念源于人工神经网络的研究。

三、计算机视觉

计算机视觉(英文为Computational Vision,简写为CV)就是让计算机或相关设备可以对被拍摄的数据进行识别的技术。也就是让计算机能象人那样通过视觉观察和理解世界。在计算机诗句中深度学习技术,尤其是CNN技术得到了比较成功的应用,重点包含三类:分类识别、属性识别与行为识别。具体应用如下:

分类识别:文字识别、指纹识别、人脸识别、车辆识别、视频内容识别等;

属性识别:性别识别、年龄识别、表情识别、环境光线识别、人体姿态识别等;

行为识别:活体检测识别、面部动作识别、人体动作识别、行车轨迹识别、注意力状态识别等;

四、机器视觉

机器视觉(英文为Machine Vision,简写为MV)就是用机器代替人眼来做测量和判断。机器视觉系统最基本的特点就是提高生产的灵活性和自动化程度。在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉。同时,在大批量重复性工业生产过程中,用机器视觉检测方法可以大大提高生产的效率和自动化程度。在机器视觉领域中,深度学习的一种算法——像素智能分类决策树,已经广泛应用在医疗图像处理和Kinect。

机器视觉与计算机视觉的主要区别在于应用场景不同,机器视觉更多应用在工业与生产制造领域,其更多要求识别的精度。下面来看看机器学习的一些应用场景:

智能交通管理系统:在交通要道放置摄像头,当有违章车辆(如闯红灯)时,摄像头将车辆的牌照拍摄下来,传输给中央管理系统,系统利用图像处理技术,对拍摄的图片进行分析,提取出车牌号,存储在数据库中,可以供管理人员进行检索;

纸币印刷质量检测系统:该系统利用图像处理技术,通过对纸币生产流水线上的纸币20多项特征(号码、盲文、颜色、图案等)进行比较分析,检测纸币的质量,替代传统的人眼辨别的方法;

医疗图像分析:血液细胞自动分类计数、染色体分析、癌症细胞识别等;

金属表面的裂纹测量:用微波作为信号源,根据微波发生器发出不同波涛率的方波,测量金属表面的裂纹,微波的波的频率越高,可测的裂纹越狭小。

五、语音识别

语音识别技术,也被称为自动语音识别(英文为Automatic Speech Recognition,简写为ASR),可理解为将人类输入的语音中转化为可以识别的文字,并且这些文字需要尽可能的保证语义正确。2011年微软和谷歌在语音识别上采用深度学习DNN模型,将词错误率降低20%-30%。这里的DNN主要采用的是DBN,即深度置信网络。随着语音识别以及深度学习的发展,研究人员发现将CNN和RNN模型应用于语音识别领域可以取得更好的效果。

语音识别可以替代传统键盘与触摸屏等进行计算机的输入环节,可以应用在:语音听写的输入法、语音自动翻译工具、语音唤醒、语音交互机器人、车载语音交互系统等。

六、语音合成

语音合成,又称文语转换技术(英文为Text to Speech,简写为TTS),能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。为了让文字转化为听起来更自然的语音效果,需要处理好包括韵律、音强、音高等能够正确表达语义且清晰的声音,那么除了于语义规则、词汇规则、语音学等各种规则外,还必须对文字内容有很好的理解,这也涉及到自然语言理解的问题。

语音识别+应用处理+语音合成便可以组成语音交互系统,是在鼠标、键盘、手机触屏等交互方式之后,发展的更为自然的交互技术。不但输入速度会提升,而且在特定场景下会让软件系统使用更加方便,如:开车中使用语音会比使用手更方便,或如修车这类工作中不方便使用双手的场景。目前主要应用在:语音交互机器人、车载语音导航、智能语音客服、智能音箱等。

七、自然语言处理

自然语言处理(英文为Natural Language Processing,简写为NLP)是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。现代NLP算法是基于机器学习,特别是统计机器学习。常见的NLP领域包括:分词,词性标注,命名实体识别,句法分析,语义识别等。主要可以解决如下问题:让输入法更智能、智能设备的问答处理、客服机器人、垃圾邮件识别、语义纠错、机器翻译等。

八、自然语言理解

自然语言理解(英文为Natural Language Understanding,简写为NLU),像NLP一样也是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。是人工智能的分支学科。研究用计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。

NLU属于NLP中的一个子领域,多用在语音交互后端。在理解这两种技术的区别上,NLP更倾向于把各种感知层获取的信息转化为机器可以理解的信息,而NLU则是要理解获取到的信息中的语义、预警及其感情等。为了更容易理解,我们举个例子。我们通过ASR(自动语音识别)技术将获取到的音波转换为拼音序列“zhe jia gong si hen li hai”,那么通过NLP可以将其转化为“这家公司很厉害”,但是在NLU处理方面,需要结合用户表述的原因、心理状态、表述的背景因素等各种因素进行综合分析处理,对于同一句话可能会有不同的理解与处理结果。

九、知识图谱

知识图谱(英文为Knowledge Graph/Vault,简写为KG)可以理解为一种记录“实体”与“实体”间“关系”的大规模知识库。2012年5月,搜索引擎巨头谷歌在他的搜索页面中首次引入“知识图谱”,用于优化当时的搜索引擎,后来百度与搜狗等国内众多公司快速跟进,也推出了自己的知识图谱系统。

知识图谱将所有不同种类的实体信息连接在一起,得到的一个具备关系网络知识库,从而具备了从“关系”的角度去分析问题的能力。该技术可以应用在以下几个方面:

1. 搜索引擎优化:在应用了知识图谱技术后,除了可以搜索到网页链接外,还可以根据用户搜索词获取更多相关信息,例如:在百度搜索引擎中搜索“高铁”时,直接展示出了在线查询与预订高铁火车票的功能;

2. 自动问答的知识库:例如搜狗退出的中文知识图谱服务“知立方”,可以回答“梁启超的儿子的太太的情人的父亲是谁”这类问题,具备推理能力;

3. 精准营销:应用知识图谱可以挖掘到更多数据与用户之间的关系,对用户行为更加理解,进而可以根据用户喜好制定营销策略;

十、计算机博弈

计算机博弈是研究智能决策系统的重要基础。是考虑活动中的个体的预测行为和实际行为,并研究他们的优化策略。1997年,IBM的“深蓝”战胜了卡斯帕罗夫。2011年IBM Watson赢得Jeopardy!答题秀。2016年3月谷歌围棋人工智能AlphaGo以4比1战胜李世石。2017年1月30日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学开发的人工智能系统Libratus战胜4位德州扑克顶级选手,获得最终胜利。这些都是应用了计算机博弈技术的应用案例。

十一、大数据

大数据(英文为Big Data)技术是现在人工智能的重要基础,尤其是机器/深度学习技术,拥有大量的数据可能比拥有更好的算法更加重要。对于大数据研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

由于当今互联网企业的快速发展,积累了庞大的数据资源,从而推动了大数据技术的发展。他们对大数据进行加工处理,最终真正实现了让数据为让产品增值的结果。这其中的加工处理技术包括:第一,传统的数据挖掘与数据分析技术;第二,也就是当前火热的机器/深度学习技术。现在大数据作为一种基础技术已经成功的应用在众多的行业中。尤其是在零售业、金融业、制造业、政府等企业机构中。

十二、云计算

云计算(英文为:Cloud Computing)大幅降低了人工智能企业硬件使用成本,甚至是降低了上百倍。美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

国内的阿里云与百度云均推出了可以运行机器/深度学习程序的服务器,可以按需租用存放大数据的分布式云存储,可以按需租用云服务的GPU计算资源。解决了动辄就需要上百万购买人工智能应用的服务器的,只用很低的租用成本就可以快速开始研发人工智能应用。

十三、传感器

传感器(英文为:transducer/sensor)是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。人工智能领域很重要的事情就是感知环境信息,传感器正是收集这些信息的关键装置。传感器可以让机器获得到视觉、听觉、触觉、味觉、嗅觉等各种感官信息,目前可能会包含数千个种类。我们例举几种常见的传感器:

1. 温度传感器:可对环境温度进行测量;

2. 光敏传感器:可对不同类型的光(如:紫外线、红外线等)与光线强弱进行测量;

3. 视觉传感器:可以从一整幅图像捕获光线的数发千计像素;

4. 压力传感器:可以捕获压力信号;

5. 化学传感器:对各种化学物质的浓度进行策略,可以理解为嗅觉或味觉。

十四、机器人

当提起人工智能时,人们自然就会联想到机器人(英文为Robot),因为无数的科幻电影都在描绘着那种具备智能的机器人。其实机器人与人工智能几乎是完全分开的两个领域。机器人可理解为通过传感器和执行器与物理世界进行交互的设备。而人工智能尤其深度学习可以作为其思考的大脑。通过两种技术的整合,边可以在生活、工作、娱乐等各个方面协助或取代人类。目前机器人其实还不能实现真正像人一样思考与行动,但是处在弱人工时代的机器人已经在一些细分领域有了很好的成功案例。下面我们一起来看看几个比较成熟的机器人应用领域:

1. 教育机器人:以激发学生学习兴趣、培养学生综合能力为目标的机器人,代表企业为优必选科技;

2. 扫地机器人:智能家电设备的一种,可以自动清理地板,代表企业为科沃斯;

3. 医用机器人:可以从事医疗或辅助医疗工作的机器人,达芬奇手术机器人是目前全球最成功及应用最广泛的手术机器人;

4. 分拣机器人:可以对货物进行快速分拣的机器人,目前京东建成的全流程无人仓就应用了分拣机器人;

5. 工业机械臂:是拟人手臂、手腕和手功能的机械电子装置,目前已经被广泛地应用到工业生产作业上,目前在富士康自动化车间中,工业机械臂已经被大量应用。

十五、AR/VR/MR

增强现实(英文为Aumented Reality,简写为AR),可以利用头戴式设备将虚拟世界的电脑图形集成在真实世界的画面中,在真实世界的环境下AR设备可以进行实时交互处理,让人们感知到更多的信息。代表性产品有谷歌眼镜与Realmax的智能眼镜产品。

虚拟现实(英文为Virtual Reality,简写为VR),是利用计算机生成的、实时动态的三维立体逼真图像,并且能够具备听觉、触觉、重力、运动、头部转动等多感知的三维交互设备。目前很多公司出品了头戴式的VR眼睛,最为著名的产品有HTC Vive与Oculus Rift。

混合现实(英文为Mixed Reality,简写为MR)是虚拟现实技术的进一步发展,可以理解为基于虚拟世界引入现实世界的一种技术。代表性产品有微软的HoloLens。

十六、芯片

这一部分重点介绍英伟达(NVIDIA)公司的GPU芯片,与谷歌公司的TPU芯片。

机器/深度学习需要依赖三个要素:算法是核心,硬件和数据是基础。硬件方面主要就是计算资源,而GPU与TPU大幅提升了深度学习运算性能。2017年9月26日,2017 GTC China(GPU技术大会中国分会)现场由英伟达CEO黄仁勋宣布,阿里、百度、腾讯“三朵云”数据中心都开始使用Tesla V100新款GPU。

十七、结语

文章中可能存在着解释不清晰或错误的内容,希望得到您的指正与建议,如果有看不懂的朋友,也可以随时向我提问,我会尽快完善文章内容,欢迎更多朋友一起学习一起讨论。

参考资料

百度百科中机器学习、深度学习、计算机视觉、机器视觉、语音识别、语音识别技术、语音合成、自然语言处理、自然语言理解、知识图谱、计算机博弈、大数据、云计算、传感器、机器人、 教育机器人、扫地机器人、医用机器人、分拣机器人、工业机械臂、AR、VR、MR、芯片等词条

知识图谱的应用:https://zhuanlan.zhihu.com/liwenzhe/20394260

以上就是“AI相关的16种技术入门”的内容了,如果你还想了解其他相关内容,可以来 产品壹佰 官方网站。

随意打赏

提交建议
微信扫一扫,分享给好友吧。