李明强:AI鉴黄师“看懂”图像迅速走红
“你的第一个产品,哪怕做得粗糙一点也没关系,不要想太多!”5年前,李明强带着腾讯高级副总裁张小龙的“临别赠言”,跃入创业的大潮中。共事多年的张小龙给他的建议是,“产品并不需要做得完美无瑕再拿出去。只要有客户,就说明是有需求的。”
1980年出生的李明强在腾讯工作了7年,先后参与QQ邮箱、微信等项目的开发,成了一名资深的项目经理和T4技术专家。“我离开腾讯时,公司只有几十个T4技术专家。但我在那里太久了,再不出去创业就折腾不动了。”2014年,他创办了国内最早将计算机视觉技术应用在互联网内容审核上的AI公司——图普科技。
“内容审查怎么不能做到?我就可以做!”
图普科技从“出生”时起,就打上了“鉴黄”的烙印。这源于曾经掀起舆论热议的“快播案”。快播CEO王欣在法庭上称:“快播最主要的功能就是播放,就像传统意义上的DVD,无法知道上传者是谁,更不知道视频内容是什么。用户上传什么种子,它就播放下载什么种子,它只是忠实地执行这个动作而已。”
李明强说:“内容审查在当时的确很难。我就想怎么不能做到?我就可以做!”
根据《全国人民代表大会常务委员会关于维护互联网安全的决定》的规定,互联网公司内容涉黄,有可能被以制作、复制、出版、贩卖、传播淫秽物品牟利罪定罪处罚。快播破产的结局让众多网络平台意识到,内容审核不仅是维护互联网环境的政策要求,更是关及自身生死存亡的要事。
如今,直播和短视频市场风起云涌,庞大的流量催生新产业的同时,审核难度也越来越大。据新华社报道,今年以来,“扫黄打非”部门加大工作力度。据统计,“净网2018”行动从1月到4月,各地共处置淫秽色情等有害信息175万余条,查办淫秽色情信息案件390余起。
被网友戏称高薪和“福利”兼具的神奇职业“鉴黄师”,在如此大体量的内容检测面前显得势单力薄。“培养一个鉴黄师至少需要两周。”李明强说,“一天总共8万多秒,去掉吃饭睡觉等时间,鉴黄师一天最多能看一两万张图片。人工审核难免会有错漏,还要考虑人员流动、不能实时监看等不稳定的因素。”
受到快播案的启发,李明强确立了用人工智能技术进行图片识别的战略,他带着新建的团队,在一周内做出demo(小样),在给机器提供大量数据的基础上,通过机器持续学习,确保系统甄别效能的更新和优化。
随后图普迎来第一个客户——迅雷。迅雷之前成立了自己的内容审核团队。“他们的做法是将违规内容和审核视频进行比对,将一样的部分筛去,但是机器并不理解这个东西是什么。”李明强说,“一个视频版本传播出去会有多个变种,分辨率不同、加个水印、字幕或者截取部分,就演变成完全不同的文件了。我们的创新点在于,我们的识别是基于图像的理解,真的能‘看懂’视频是否有色情内容”。
“我们在识别的结果上,会划线区分为确定和不确定部分。有的图片非常隐晦,它介于两者之间,系统的判定是不确定或者很模糊。因此我们也设立新的计费模式,只对于确定部分收费,不确定部分不收费或者少收费,打消客户的很多疑虑。”李明强解释,图普科技的准确率高达99%,对于系统无法识别或无法作出最终判断的内容,推送至人工审核。尽管还需要鉴黄师的助力,但已经极大地提高效率和降低人力成本。
目前,图普科技的AI每天的处理量超过10亿次,在云端设有几百个图像识别接口,相关的算法也落地到不同的行业里。
“每次尝试我都更兴奋,会有这一次要成功了的错觉”
任何成功都不是一蹴而就。在图普科技成长为“AI鉴黄师”之前,李明强有过一次失败的创业经历。
2013年,李明强尝试开发一个服装和鞋帽的搜索引擎,通过图片来了解用户喜好并推荐适合用户的款式。“在当时就能够完成识别图中衣物款式、颜色、纹理等一些当时看起来很有难度的事”,但初次创业不过一年便宣告失败。
李明强期望能从图片为切口,突破单一的纯文字搜索引擎模式,但高成本的流量和时间消耗难以承受。回顾过去的创业经历,运营工作太重是失败的主要原因。用户对于服装的偏好、对美的感受千差万别,需要进行大量的运营工作。
这成为李明强最头痛的事,“尽管我们尝试将每一次需求沉淀下来再去改进,但还是会有新的或者隐晦的需求,一次又一次遭受打击。依靠技术难以量化和把握,无法完成完整的商业闭环。”
“这是一次非常惨痛的创业经历。”从腾讯的高级技术专家,到事无巨细考虑每一步的创业老板,身份的转换带给了李明强极大的不适应感,“就像一觉醒来漂流在海面上,狂风暴雨,又不知道该往什么方向去走。”
当初,李明强带着几位伙伴一起离开腾讯着手创业。他形容“自己的兄弟特别单纯”,“他们就相信我这件事情能做成”。
搜衣引擎的失败给了李明强当头一棒。比起自己的挫败感,李明强对共同战斗的队友背负更深的愧疚。
“带着一帮兄弟,拿着投资人的钱花时间在这个地方,最后发现都是一些无效劳动。”那一次失败,让李明强损失了一半得力干将。他觉得,“失败就像一个坑,陷进去了就得爬出来。如何找到方向爬出坑最重要”。
“就是不断尝试。”李明强在接受中国青年报·中青在线记者采访时说,“每一次尝试我都更兴奋,会有这一次要成功了的错觉,但结果方向又不对,那就再来!”
每一次调整状态后,他又像打满了鸡血一般,迎接新的挑战,“这件事情一年做不成,我就做十年。因为我知道肯定是存在一条路的。”李明强终于找到了这条路,开创了国内人工智能图片识别内容审核的先河。
员工的学习时间计入工时——拿工资学习
“AI鉴黄师”迅速走红。参加了多场人工智能研讨会后,李明强发现,“只要一说我们的产品是AI鉴黄,之后再说到其他业务大家就都不注意听了”。
“后来想想我们本来就是互联网出身,能有这样的免费热点蹭,也没什么不好。 ”李明强介绍,如今图普科技三条生产线并行:互联网、商业智能、泛安防。鉴黄只是互联网生产线的一个小分支。今年图普科技在商业智能上持续发力,线下门店都开始尝试配备AI的自动导购机,例如通过摄像头来识别消费者的形象特征,随后根据算法在屏幕上显示推荐产品,在应用中增添很多趣味性的成分,“这实际上是我们做赋能型零售的破冰尝试。”
目前,图普科技总部设在广州,在北京、成都等地开设了分公司,160多人的团队中研发人员占70%。招到优秀的人是李明强最关心的事,他和程序员在工作之余“玩”出了5套谜题,以游戏的形式作为选拔人才的考卷。
“这一套谜题是用算法抠出图里的马里奥,这张海报的图标是《三体》里的鱼缸……”他甚至在公司开设解题课堂,定期讲解这些内容。他还设计了打卡学习系统,员工的学习时间计入工时——拿工资学习。
如今,李明强和公司成员沟通时,常常将“在用的过程中完善”这句话挂在嘴边。李明强坦言,“我一开始总想要把产品做完善再拿出去,反而越做越糟。张小龙的忠告是对的,产品就是应该在推出后根据需求迭代的。我们也正在不断更新产品,永远在路上。”
来源:中青在线 作者:黄畅 王聪聪
原标题:AI鉴黄师 “看懂”图像迅速走红|张小龙|识别|人工智能