业务进阶：AI图像识别

产品壹佰 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

一、灵魂三问

1. AI 业务的盈利模式是否完善、合理？

个人认为这是PM/PO/BA最容易发生的问题，把自己放在已有业务上而丧失观察相邻业态的大局观。因为不够了解市场的多样性，限制了扩展业务的思路和眼界。

之前我负责的产品主要服务对象是G端客户，帮助他们识别图像中的特征，提高业务效率。后来我在卫生间灵光一现，想到除了G端还可以服务B端，因为很多中小微型企业没有技术能力来实现这些系统，那么就可以把这些业务给产品化，给这些企业提供AI-a-a-S产品，一来是增加公司盈利渠道，二来是通过市场来检验产品，而且最重要的点是能够留存大量第三方的数据，这些数据对于企业来说是巨大的宝藏。

2. ROI能否达到公司预期？

ROI的时间维度是非常重要的因素，不知道有多少项目由于各种因素导致暂时不能给公司盈利而被砍掉。大象无形，大音声稀，没有人能永远掌握市场的需求，尽量多跟商务和市场的同事沟通，做好当下，规划未来。

3. 产品是否符合公司政策和发展基调

PM直接对公司和需求负责，二者的侧重点如同排序一样，有时候好的产品并不符合公司利益，做个俗人，当断则断。

之前我们公司赢利点在G端，但是B端在国内也有大量客户，公司规划的发展方向也是逐渐摒弃G端以B端为主，所以毫无疑问往B端发力，不管是不是属于我负责的业务，都要想方设法跟B端产生更多业务联系。

二、产品架构设计

公司资源、业务需求等各种条件都较为复杂的情况下，可以通过划分维度来设计产品，比如可能涉及到配置层、操作层和应用层。

业务进阶：AI图像识别

1. 配置层

用来帮助客户配置AI产品的规则逻辑等内容。包括但不限于

AI识别模型库：用来维护识别模型的种类，也是业务中科技含量最高的模块，便于规划下沉市场和管理；
AI权限模块：用来管理相关的业务人员进行操作，定位权限问题，定义使用AI服务的客户；
人工审核管理模块：用来管理使用AI识别还是人工识别的规则，便于对不太成熟的算法进行优化，减少误识率；
事件定义模块：统一定义事件的判断结果和触发条件，可通过对比模型之间的规则提高业务适用率；
AI服务周期：用来管理AI服务的有效期。

根据各公司实际情况，判断以上内容是否适用。

2. 操作层

对AI识别后的结果进行二次检查。可以设计AI标注库，用来校验AI的识别结果，提高正确率。也可以使用人工标注的数据优化现有算法。

3. 应用层

AI产生的结果直接面向客户。可以设计通知触发规则，用来管理通知的内容、触发频率和受众类型等；客户类型，根据客户类型给客户展示识别结果和数据可视化内容。

三、图像识别原理

1. 概念

通过当前已有数据对算法模型进行训练，总结数据的规则，预测新数据的结果。

2. 学习方式

分为《预测学习》和《描述学习》。

1）预测学习

模型训练之前，使用人工的方式提取特征并给打上标签。其目标是在给定一系列输入输出实例所构成的数据集的条件下，学习输入x到输出y的映射关系。

这里的数据集称为训练集，实例的个数称为训练样本数。对于给定的x，可以对所视察到的值与预测的值进行比较。

例如我们现在有大量的狮子和老虎的照片，首先给每张照片都打上对应动物的标签。然后把这些带标签的图片喂给模型，让模型知道狮子长什么样，老虎长什么样。最后我们找一些新的、没打标签的图片给模型，让它自己识别图片里是什么。这就是一个完整的有监督模式的机器学习过程。

2）描述学习

直接把数据丢给算法模型，又称为“聚类”。

在给定一系列仅由输入实例构成的数据集的条件下，其目标是发现数据中的有趣模式。

描述学习有时候也称为只是发现，这类问题并没有明确定义，因为我们不知道需要寻找什么样的模式，也没有明显的误差度量可供使用。为了让机器能够理解物体之间的关系，我们最终把现实中的特征转化为“向量”进行计算。

例如擎天柱，张三和我，如果细分的话，张三和我应该是一类，因为属于人类；擎天柱属于机械类。最后三者才同归属于生命体类。

3）算法模型

目前所有算法模型都是各有千秋的状态，没有一种算法能够被证明全面优于其他算法，每种算法都是为了解决某一特定场景的问题，只有某一特定场景更优的算法，可以通过对比找到其中最好的算法。

目前出现的相对流行的算法主要是以对象、区域、上下文等场景的分类算法：

① 基于对象的场景分类

这种分类方法以对象为识别单位，根据场景中出现的特定对象来区分不同的场景；基于视觉的场景分类方法大部分都是以对象为单位的，也就是说，通过识别一些有代表性的对象来确定自然界的位置。

典型的基于对象的场景分类方法有以下的中间步骤：特征提取、重组和对象识别。

缺点：底层的错误会随着处理的深入而被放大。例如，上位层中小对象的识别往往会受到下属层相机传感器的原始噪声或者光照变化条件的影响。尤其是在宽敞的环境下，目标往往会非常分散，这种方法的应用也受到了限制。

需要指出的是，该方法需要选择特定环境中的一些固定对象，一般使用深度网络提取对象特征，并进行分类。例如PCA算法实现识别人脸降维原理，排除冗余和噪音的干扰，试验步骤如下：

业务进阶：AI图像识别

② 基于区域的场景分类

首先通过目标候选候选区域选择算法，生成一系列候选目标区域，然后通过深度神经网络提取候选目标区域特征，并用这些特征进行分类。

例如K-means算法，它把N个对象根据属性分为K个类别，使得结果满足：同一类中的对象相似度较高，不同的对象相似度较小，定义损失函数如下：

业务进阶：AI图像识别

其中Xn为待分类的数据点，μk为第k个类别的中心，Rnk∈{0,1}来表示数据点Xn对于k的归属（其中n=1，。。。，N；k=1，。。。，k）

如果数据点Xn属于第k类，则Rnm=1，否则为0。

K-means通过迭代求解，得到使得损失函数J最小的所有数据点的归属值{Rnk}和聚类中心{μk}。

③ 基于上下文的场景分类

这类方法不同于前面两种算法，而将场景图像看作全局对象而非图像中的某一对象或细节，这样可以降低局部噪声对场景分类的影响。将输入图片作为一个特征，并提取可以概括图像统计或语义的低维特征。

该类方法的目的即为提高场景分类的鲁棒性。因为自然图片中很容易掺杂一些随机噪声，这类噪声会对局部处理造成灾难性的影响，而对于全局图像却可以通过平均数来降低这种影响。

基于上下文的方法，通过识别全局对象，而非场景中的小对象集合或者准确的区域边界，因此不需要处理小的孤立区域的噪声和低级图片的变化，其解决了分割和目标识别分类方法遇到的问题。

四、图像识别过程

图像识别技术归纳起来，主要包括4个步骤：

首先是获取信息，主要是指将各类信息通过传感器向电信号转换，也就是对识别对象的基本信息进行获取，并通过“聚类”的方式，将其向计算机可识别的信息转换。
然后是信息预处理，主要是指采用去噪、变换及平滑等操作对图像进行处理，基于此使图像的重要特点提高。
其次是抽取及选择特征，主要是指在模式识别中，抽取及选择图像特征，概括而言就是识别图像具有种类多样的特点，如采用一定方式分离，就要识别图像的特征，获取特征也被称为特征抽取。
最后是设计分类器及分类决策，其中设计分类器就是根据训练对识别规则进行制定，基于此识别规则能够得到特征的主要种类，进而使图像识别的不断提高辨识率，此后再通过识别特殊特征，最终实现对图像的评价和确认。

五、工作应用

作为PM\PO\TPM来说，给到技术大佬们的策略是要清晰完整的，举例：要识别图片中的人是否带帽子，那么这时我们就要描述清楚帽子的颜色、种类和所在位置等维度信息。

最好用爬虫的方式爬取大量帽子，然后判断帽子是否在人的脑袋上。在语音识别中，需要建立字符库，完善优化字符库的内容。

通过收集和整理，我们对要产品需求会有一个直观的认知，但随着调研的继续，我们还可能会发现其他问题。为了避免有价值的信息遗漏，这个阶段我们收集的案例，应该具有更多的发散性。

六、用户感知提升

对于用户来说，能够让用户感知到的是产品的拟人度。但AI的输出是否合理，这个取决于人的主观评判。这也是数据标注工作所做的意义所在——尽可能通过标注让模型更像真实的人。比如在情景对话中，虽然有些回答听起来很搞笑，但只要输出的结果让人觉得合理，就依然会被人接受。

老巫婆：你说这个世界上最美丽的人是谁？
AI：是白雪公主！
老巫婆：再给你一次重新组织语言的机会！
AI：是白雪公主！
老巫婆：你看清楚了，我手里拿着刀呢！
AI：是你，你是世界上最美的人！

PS：与AI算法工程师的沟通小技巧

客观化、可量化、数字化、就事论事。如下：

业务说：大佬，能不能优化下这个模型，好多地方都不准，客户都投诉啦。

建议沟通方式：

业务说：博士，这个模型的准确率能不能提高到95%？因为目前图像上的3个点都属于特征点，但是没有识别成功。