歪谈人工智能创业：京东+讯飞没行，凭什么你就行

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

很多企业都有战略部门，但不管写多少PPT，很多中国企业的战略通常可以用一句话来概括：美国人干什么，我们就干什么！按照这逻辑推导，今年很可能出现100家做智能音箱的，因为CES上最火的是Amazon Echo，而这100家智能音箱企业的最终结局很可能和百团大战后的结果大相径庭。要想看清这问题，需要认识到AI企业与互联网企业在调性上的根本冲突，而要想认识这种冲突，那我们先要回归到产品本身。

京东 + 讯飞没行，凭什么你就行

任何人想在中国市场做类似Echo的智能音箱，那都不能回避一个极为根本的问题：京东+讯飞的叮咚不算太成功，凭什么你做就成功了？

古代人讲兵法总是会讲正合奇胜，看待Echo这类产品的时候同样可以借用这个视角。产品本身有所依托（功能基础）这是正，而不管在ID、交互、宣传还是在价格上有所创新则是奇。前者保证基本面，后者保证差异化。

从这个角度来看Smart Speaker这类产品的“正”是音箱自身的音乐属性，奇是指语音交互是否足够便利（背后可以分解为速度和精度），是否能唤起大家的好奇心，是否有一个足够有影响力的人站台等。从这个角度看对大公司而言这类产品成功与否其实是决心和耐心的函数。

音箱是一个既有品类，而语音交互可以让交互变得更加便利，也就是说智能音箱带来的升级其实是在已有功能基础上添加了一个正向新特性。这样一来产品角度看这类别的成功其核心障碍只有一个：语音交互的新特性是否真的让体验变得更好还是说只是一个说法。如果确实足够好，那就相当于同样花那么多钱，买一个更好的东西。

难就难在这一点核心要求在语音交互上偏偏难以达到。

做电脑的时候我们很多企业扮演的其实是组装的角色，做手机的时候扮演的角色高级了一些，加入了更多的定制工作，但这两类活骨子里的技术门槛其实并不高。也正因此产品所需要的打磨周期就短，市场则相对成熟容易获得迅速的正反馈，公司投入决心也就容易坚挺。

我们再看下小米的例子：

2010年4月6日，北京小米科技有限责任公司正式成立

2010年8月16日，MIUI首个内测版推出。

2011年8月29日，小米手机1千台工程纪念版开始发售。

2011年9月5日，小米正式开放网络预订，半天内预订超30万台，取得了重大的成功。

产品整个打磨周期大概在一年左右，这其中正反馈有两种：一是MIUI上获得的各种积极反馈，二是半天内预订超过30万台了。一旦后一个反馈出现，那就不管是CEO还是资本就都会更有信心扩大战果。总结来看这是两个步骤：

第一步在相对成熟的体系上进行定制组合（高通+Android）。

第二步获得市场正反馈并加大投入。

如果拿智能音箱做对比，那就就会发现差距还是挺大的。

第一根本没有一个相对成熟的软硬件体系，而是大家都在摸索之中。软件上，指望别人把中文语音交互做成Android那样的成熟度比较不靠谱，必须得是中国企业自己挑大梁了。这次如果真的搞成了，那还可以顺手搞定我们呼唤了许多年的国产操作系统问题。硬件上也因为是新东西所以根本还没有成熟的生产链条来给你配套，很多人估计都是第一次听说世界上还有一种东西叫麦克风阵列，里面还要做Beamforming来定向收音。

第二正因为前面说的问题Echo这类产品就不太可能迅速获得市场的正反馈。作为一种纯正的必须全依赖于自己技术的新东西，最初体验最多可用，然后就需要持续打磨，但最初销量是不可能高的。这就和我们互联网培养出来的一波流打法差异很大，一波流打法下大家总想速胜，干个一锤子买卖，行了我再增加投入，但这事它事实上要求即使没卖出去那么多的时候还得持续投入。

看着不过是又一款新产品，但Smart Speaker这新品类事实上整体上挑战中国企业的文化、方法论和技术水平。总结来看，现在国内并不缺做智能音箱的，也不缺把智能音箱做出来的，唯一缺的是持续投入真把产品做好的。形象点讲，如果以Elon Musk做SpaceX的姿态来做，那这事是能搞定的，但以做脑白金的姿态来做，那最多还是一个叮咚。

少点想象和PR，多看点问题

AI这领域的核心问题是想象和PR太多，落地太少。不是不能落地，而是落地的长周期导致有些人对此兴趣不足。这通常并不是个人问题，而会涉及到公司文化上的深层次冲突。假设说我们身处一个快节奏的公司，公司一切KPI等全基于此来确立，那一个人进入公司后，他只有两种选择：一个是真心做慢节奏的产品，忍受长期没成绩，中途可能还被干掉了；二是想点办法快点出彩，避免从他老板的角度看过于尴尬。显然的PR是一种缓解尴尬的有效手段。

一个公司如果真想做人工智能，必须正视的问题至少有两个，而这两个都需要比较高的战略耐性：

限定范围与开放领域

我们总是可以在一个极为狭窄的领域里证明人工智能的强大，比如识图、标准环境语音识别、下棋、最强大脑。但这就和让人和计算机比计算速度一样，缺乏一种现实意义，做PR是可以的，但做产品就不灵。如果对话系统被限定于只回答100个问题，那之前的硬编码也可以做的非常精确，但那显然会因为适配范围太窄而对用户不产生价值。要想落地AI必须彻底解决一个子领域中的全部问题，这样才能贡献于产品，比如：精准的放音乐是一个子领域，自主的避障和行走是一个子领域，鉴黄是一个子领域。眼下看我们还很难打造一种通用型的智能，但要想有用那人工智就不能单独的只是擅长分类图片等。解决子领域问题是商业化，图片分类等是技术研究，这中间是有鸿沟在的。

算法、数据与原子

产品对技术的要求总是高度综合的，这点在语音交互上体现的特别明显，当语音识别、自然语言理解需要产品化的时候，你并不能约束用户必须把电视关了、其它人不能说话、说话的时候必须正面产品90度、必须把音箱音量设置到足够小等等。那样产品就没法用了。也就是说真想做好产品还要打穿原子和比特的边界，补全整个链条，把声学、语音识别、语义理解进行系统的整合。

第一点解决的越好，人工智能的现实影响也就越为深远，第二点解决的越好人工智能落地的速度也就越快。对于眼下而言，核心问题是要解决第二个问题，不解决它就不能消化此前的技术红利。不管解决那点都需要点原创精神，恰如前面所说，我们一下子冲到了世界最前沿，大家同一起跑线，类比手机的话我们既没有高通、MTK，也没有Android了。我们声智科技的CEO陈孝良博士被采访的时候经常会说声智科技的定位是语音交互下的高通和MTK，不理解上面的背景通常就很难理解为什么在这个时间点上这样一类企业特别有现实意义。

非要想的话可以往这儿想

既然投入这么多，那这个点还值得不值得打？是真有钱赚还是会像O2O那样虽然热闹但很难赚钱？

这其实是个不得不打的点，因为语音交互会颠覆的东西其实远比表面上看到的多，这里只说一点。

我们先做个基本的假设，那就是Alexa获得了巨大成功（Echo、智能音箱、Alexa有关联，但其实是不同的东西，这点在之前文章中有说，这里不再重复），渗透到各种设备之中，包围了人们的生活，人们有50%的时间在通过语音和设备打交道，并且日活逼近Android。

那这时候一定会衍生这样的需求，用户会说：Alexa，帮我通知下马化腾，明天我不见他了。这时候就需要有一种通讯的IM来实现这种需求。这时候亚马逊就有两个选择：第一它接入一种已有IM，比如Whatsapp，或者Skype。第二种是自己做一个嵌在Alexa里面。亚马逊至少有一半的几率会选择后者，而不是把这种基础设施开放给别人，因为前两种要么属于Facebook，要么属于微软。如果在中国是阿里巴巴做成了Alexa，那估计百分百不会选择对接微信。这样一来配合一个语音交互的核心特征，颠覆性的事情就出现了：

语音交互背后隐藏的各种应用具有唯一性。

我们很难想象这种语音交互方式：Alexa帮我用Whatsapp给马化腾留个消息，明天我不见他了。在语音交互中WhatsApp这类应用的标识很可能会被优化掉。如果Alexa还只是百万级、千万级DAU的应用时那这个特性还不关键，但如果它是10亿DAU的系统，那这个特性的影响就会被无限放大，也就说搜索、IM、电商很可能都只有一家，而不是像现在虽然少，但还有个1,2,3名。

小结

人工智能的道路其实会比想的还长一点，这不止受限于技术（此前的技术红利已经可以带来足够多的机会），也还受限于文化与认知上的冲突。至少在启动阶段和过去这些年形成的互联网经典打法有点格格不入。与此同时，他背后又会蕴含着足够强的颠覆性力量，诱惑确实足够强。这样看来2017注定会是一个在纠结中前行的年头。

本文系投稿稿件，作者：琢磨事；转载请注明作者姓名和“来源：亿欧”；文章内容系作者个人观点，不代表亿欧对观点赞同或支持。