人工智能实战场景爆发，百度AI竟能审核搜索广告？

百度百家 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

自陆奇空降百度一事宣布之后，外界对陆奇评论最多的一个词无疑是「科技界最有权势的华人」。确实，卡耐基梅隆大学助理研究员、IBM艾曼登研究中心研究员、雅虎搜索与广告技术集团高级副总裁，甚至微软集团全球执行副总裁都不足以说明他的重要性，引用微软集团总裁史蒂夫·鲍尔默的评价：「陆奇能够加盟微软的原因是，他是全世界运营搜索业务的最佳人选。」

2016年对于百度来说，是风波不断的一年，2017年伴随陆奇的到任，一方面，百度目前最核心的搜索与广告业务能否被二次激活，成为科技圈瞩目的焦点；另一方面一直被质疑无法短期变现的人工智能业务能否开辟另一片战场成为圈内外更为关注的重点话题。

另一边，同样作为站在潮头的推动者、改变者，阿里巴巴启动了大数据打假，致力于依托大数据和互联网技术，让电商打假更有力、更高效、更透明。而BAT中素来最具备技术基因的百度，对于其搜索广告平台的治理又将拿出什么样的秘密武器呢？

虚假广告屡禁不止，治理难点是违规词库

谈到百度，当然无法绕开搜索推广业务。过去一年百度经历的风波无一不与后者所牵涉的虚假广告有关。事实上，百度搜索推广从诞生伊始，与非法信息和虚假广告的斗争就从未停止过。百度统计数据显示，2016年，百度全年查处非法信息达16.9亿条，平均每分钟320条信息以上，每天处理违规广告量约1000万，禁止的违法词汇量超过30万。仅在Q3季度，百度就处理了风险账户3163个，包含处罚账户672例，一线自查账户2491例。

人工智能实战场景爆发，百度AI竟能审核搜索广告？

虚假广告屡禁不止有着多方面的原因，这些非法信息一部分来源于资质企业提交的非法推广信息，另一方面则是由不法分子通过灰色产业链生成，主要表现为假冒官网、形声字、变声词等。而导致治理困难的核心因素在于资质企业发布非法信息和违规词库建设的滞后性，尤其是后者，因为中文的复杂性，导致一个违规搜索词往往有数十种变体词，给人工审核造成了很大难度。

非法广告的发布，不仅侵害了网民的权益，更对作为平台方的百度造成了极大不良影响和利益损害。因此，如何从规则上和技术上规范、严控百度推广，不仅是网民、优质企业的需求，更是持续陷入舆论漩涡的百度推广急需要解决的问题。

百度出台准入规则，三重拳叫停虚假广告

事实上，百度面临的问题，也是世界范围内搜索引擎平台发展所遇到的重要阻碍因素。在这一背景下，百度公司于2016年8月公布《百度推广准入准则》，成为目前搜索行业内信息上线最严格的企业，同时推出四大风控体系，三重拳叫停虚假广告。

人工智能实战场景爆发，百度AI竟能审核搜索广告？

从公开的《百度推广平台治理报告》可以看到，出现在百度搜索结果中的每一条广告，均需经过四大风控系统层层过滤：

首先，在准入门槛方面，审核要求再次提高，除了十大禁区外，再度加强对限制性行业的资质审查，针对国内商业环境复杂，诚信系统不够完善等因素，设置了多维度身份验证，严防套牌、盗号等资质造价行为；同时利用人工智能秘密武器——百度文字识别技术（OCR）、仿冒证件检测技术（图像识别），对广告主身份进行二度排查；在此基础上，千人审核团队24小时在线对资质审查进行最后把关。

第二，对资质企业发布的广告内容进行风控审查。事实上，资质企业每日投放的海量广告，存在着严峻的违法违规及擦边球问题。新规范再次利用人工智能技术，对广告图像和文字同步进行审核。

最后，应对突发风险，打造全方位应急渠道。基于TM、spark等每天进行百亿级全网全库巡检，日处理400万+推广内容、站点，针对不法分子伺机作案的特点，小时级全网排查，5-10分钟迅速处理个案问题，助力遭遇诈骗、钓鱼的网民解决问题。

人工智能加持打假，进阶更好的搜索引擎

在这三记重拳中，最值得称道的是人工智能的引入。不仅在准入口得以实现信息的高效排查，更重要的是针对违规词及不断变化的辩体词，基于人工智能的全自动操作，实现了对推广广告各个环节的全自动核查和处理流程，一旦系统发现商户账户涉及违法违禁内容就会直接下线。同时百度还将深度学习和大数据深挖技术应用到推广客户违规信息的排查中来，以实时监控推广企业网站是否涉及到黑产操作，并不断检测百度搜索中的网站是否存在收集用户信息、泄漏用户隐私以及威胁到用户财产安全的其它恶意行为。

在具体操作方面，OCR识别和图像识别技术双管齐下，对广告主身份和广告内容进行实施甄别。2016年Q3期间，百度文字识别（OCR）基于最新的深度学习技术，以姓名识别精度99.67%，号码识别精度100%的优异表现，在国际文档分类与识别大会（ICDAR）最具挑战性的自然场景类文字识别任务中斩获五项冠军。而百度DeepImage图像识别技术在全球人脸识别最权威的国际评测FDDB与LFW中，均获得第一名成绩，领先于腾讯、FACE++、linkface等同行，几乎接近人脑水平，达到了99.77%的准确率。

目前百度已利用百度大脑AI通过提取页面中文字和图片信息构建机器识别模型，通过对变体词模拟、商标知识库、风险词挖掘三大违规行为的处理，对无行业许的医疗推广等违规进行严厉打击。同时借助百度独有的搜索引擎反作弊算法——绿萝算法：全面打击超链中介、出卖链接、购买链接等超链作弊行为。

同时还利用人工智能和大数据打造百度信誉体系，对存在信用问题的广告主绝不姑息。评级方法引入多维度信息，并联手权威第三方公司，以更真实的数据连通线上线下，杜绝非法信息的输出，保护信网民与广告主的利益。

根据百度新公布的打假成果信息，在人工智能和大数据加持下，2016年百度共下线2518家医疗机构、删除1.26亿条医疗广告、把360103个词汇关进搜索关键词黑名单、升级各行业广告审核策略45次、完成超过80万家企业的搜索信息认证、通过审核拒绝16.9亿条违法违规广告、对44451个品牌词进行搜索结果保护、完成3万于起网民保障申请受理。百度用这8个数字对过去一年打击虚假信息、守护互联网良性发展的战斗做出了最好的总结，同时也让网民和企业看到了百度治理非法信息、保护合规推广的决心和行动。

更可喜的是，百度在人工智能的军备竞赛中，充分挖掘了技术的可能性，将百度大脑这一未来前沿能力，有效应用在自身搜索引擎平台的治理和规范上，这无疑属于技术应用的一个场景。在广告审核中应用技术只是一个创新，但未来是无尽想象的空间，这也就能理解，为何百度将下一个十年得技术方向，瞄准了人工智能。

从前，百度在极大程度上改变中国网民的信息获取模式；未来，执人工智能之牛耳的百度，又将会带来哪些改变呢？对此，我们不妨拭目以待。

----------------------------------------------------------------------------------------------------------

李安嶙，互联网观察者，著名专栏作者，超级自媒体。他是阅读量超过10亿的专栏作者，文章见百度百家、新浪科技、网易科技、搜狐客户端、今日头条、一点资讯、虎嗅、钛媒体、界面新闻、蓝鲸TMT、艾瑞等国内数十家顶级专栏，文章转载与商务合作加个人微信号：lianlin8866