人工智能的视频审核：“放下那段搞笑片，有事冲着AI来”

权威认证!图普科技通过ISO27001信息安全管理体系认证

本次通过「ISO27001：2013」认证，标志着图普已建立起一套完善、科学有效的国际化信息安全管理体系，具备保护信息化进程健康、有序、可持续发展的能力，覆盖内容审核、零售数字化、智能安防等业务应用。

넶902 2021-11-12
喜报！图普荣膺广州「未来独角兽」「高精尖」企业

由广州市科学技术局指导，广州市科技创新企业协会主办的《2021年广州“独角兽”创新企业榜单》正式公布，凭借核心AI技术及行业生态应用创新，在互联网/融媒体内容审核、新零售数字化、AIoT智能安防等领域的影响力，图普科技同时入选“未来独角兽”及“高精尖”企业。

넶772 2021-11-12
图普科技顺利通过工信局高质量发展资金，加快推动广东省数字化发展建设

针对商业线下空间和零售门店数字化应用，以及互联网直播场景的内容审核应用，均通过麒麟软件兼容性认证，符合广州市工业和信息化局对于国产化适配的严苛审核要求。

넶925 2021-05-18
图普科技「内容审核解决方案+语音识别产品」入选广州市信创产品资源池

图普科技在广州市工业和信息化局指导下，将各行业成熟的场景审核解决方案进行复制推广，响应广州信创产品资源池发展战略。同时，响应在十四五规划纲要，携手网络平台加强对音视频的内容审核管理，通过人工智能技术赋能内容审核，提高审核效率与精准度，维护文明健康的网络环境。

넶1178 2021-04-26

最新文章

无视频、不娱乐，视频审核要排队。

管理员说：“此山是我开，此树是我栽，要想从此过……”

机审、人审、再加举报审核。

一审、二审、三审、四审。

审核决定一个视频平台公司能不能活，也决定它会不会死。

话说，B站也曾被请去喝珍珠奶茶。

AI技术对于视频审核的意义，很大一部分是减轻人类审核的工作量。

视频，按其体量可被视为工业界最大的业务场景之一。

参考爱奇艺官宣每天大概产生的数量规模，主页频道的内容规模，上千。PGC内容。上万，UGC内容，上百万。

参考阿里巴巴资深算法专家王晓博公开演讲：“只要视频平台开放了UGC上传口，每天百万级数量级上传量，挡都挡不住。”

快手名场面，鼠年春节达3.2亿日活跃用户的峰值，牛年春节更加牛（多地倡导，原地过年）。

优质岗位常年空缺，视频审核大师广告文案如下（假想版）：

“一月3休，每周300小时强制工时，每天只需要工作到凌晨3点。”

如今，AI技术在“审核”环节用得最广，审核要求非常高，比如鉴黄。

如果AI看不懂视频，审核工作全部归人类，这是一桩严重违反《劳动法》的惨案。

视频平台都有审核中心，TikTok也曾设有海外审核中心，2020年5月在美国加州总部设立一个名叫“透明中心”的部门，实则是审核中心。这里都是劳动密集型办公，光靠人力不够。

审核大师手捏泰国船票，正准备收拾个人物品跑路，AI就上岗了，一插电，审核数量级从十万飙升到十亿。

弹幕飘过：“好开心，谢谢你。”

一、AI审核看不懂视频，就会“误伤”。

误伤什么，都不能误伤长腿美女。科学讲解现在开始，比如，某天，长腿美女的比基尼视频被低俗恶搞了，数个小时内上传量激增。广大网友到处求资源，“好人一生平安”。

热度过高，视频审核怎么办？“长腿美女比基尼专项整治工作小组”在一片祥和安宁的气氛中组建。

要么，把所有含有比基尼三点式泳装的相关视频都召回，一刀切。结果使得召回视频大部分是不相关的，把维密天使、海景Vlog、游泳教学、港姐选美的视频都错误召回了。

BGM播放：“哦漏，哦漏，哦漏漏漏漏。”

要么，用技术手段精准地找到不雅视频，再把不相关的给人力处理。

最后，清点全部召回的视频，评估有多少错的，多少对的。正确率越高，说明算法越精准。

快手审核负责人：“哦耶，哦耶，哦耶耶耶耶。”

视频审核也要对文本、语音、图像、视频等（不同种类的多媒体）进行统一搜索。

“跨界”从多种媒体中，找出长得像的作品，既能“查重”，还能打击“洗稿”。

比如，“六神磊磊”讲金庸的文字原稿，常常被“搬运”，改头换面，就成了“历史故事”短视频，还有一堆不明真相的群众点赞。

审核低效，速度就会很慢，热点流量的高峰来临，就无法处理。

快手审核大师说：“我终究没能飙得过那辆宝马，只能眼望它在夕阳中绝尘而去，不是引擎不好，而是脚蹬子坏了。”

再看看高德地图：“没有AI，就没有路了。”

于是，AI算法工程师狠狠心，训练人工智能“看懂”视频。

二、AI看懂视频是很难，关键在于看懂到什么程度？

比如，破格公主姚安娜在快手跳了一段现代舞。

AI读懂（字幕、弹幕、广告标语、标题），听懂（乐曲、歌词），看懂（姚安娜，她在跳舞，在家里跳舞）。

姚安娜情绪很积极，可惜，舆论情绪很负面。

评论一：“跳得好不好不说，有一种有钱人的自信。”评论二：“这水平，过年给亲戚表演的感觉。”

AI顺手完成一道附加题，搞懂了群众对公主跳舞的态度。

比起AI看懂破格公主姚安娜的照片，AI处理视频是关注整条视频的信息，不像传统方法关注的是图片（照片）的信息，视频信息量更大。

将二维图片信息升维了，增加了时间序列信息，既一脉相承，又有技术创（nan）新（ti）。

再比如，爱奇艺的AI技术如何看懂视频？

仔细看，在播放进度条横线的上方，AI画了波浪线，把视频里精彩的部分标注出来，叫做视频highlight。

AI能画出“潮涨潮落”，证明AI知道哪里是“高潮”，而且还有时间“印记。

问题一：为什么快手AI认识姚安娜？

人脸识别在警察叔叔那里抓嫌疑犯，在视频中就是识别演员，或者给演员换脸。

比如爱奇艺APP的“只看他”功能早已上线，爱奇艺等长剧场景非常需要，短视频业务里就不是刚需。

只看《如懿传》周迅的片段，只播放进度条中周迅的片段。计算机先把视频切分了，按段分析。

在长视频里，技术实现并不难，就是花多长时间找出来。

问题二：为什么快手AI读得懂视频里的字？

OCR一般用于发票信息识别，在软件中一键识别，发票号码，消费金额等信息，RPA机器人还能做到一键填入。

OCR来到视频的世界，不仅希望能看懂视频中的每个字, 也希望能理解它们的类型、重要性和逻辑。

姚安娜的视频只是其中一个，视频平台要管理亿级视频的“大仓”，系统要能给视频分类。

分类也是在理解的基础上进行。这里就不得不补一段“标签的历史”。

视频理解过去主要是标签，现在是颗粒度更细。标签分为，内容标签和类型标签。

内容标签是对文本、图文或者短视频等内容的表征。

表征，就是用一些关键词或者是短语来表达对应的内容是什么含义“萌宠”与“萌娃”就是两种不同的萌物。

内容标签，是根据内容生成标签，换句话说，有什么样的内容就有什么样的标签。标签的集合是开放的。

类型标签，是一个分类体系，就是把不同的内容分到不同的体系下面，这个分类体系是预先定义的，比如“影视”与“动漫”。

以前做到，软件快速为快手视频生成热门内容标签，解决快手视频关键词无法露出的问题，但对于细粒度结构分析则较少。现在，快手用视频理解技术关联，能把视频关联到相关视频。

快手后台审核人员做什么呢？他们忙着给访问量高的视频打标签，关联到热点。

姚安娜跳舞的视频，也会被打标签。

安防视频很多都是无声的（无拾音器摄像头），而娱乐视频里信息量很大，人脸、商品、物体、人物行为、地点、文字、歌词、对话、时间。

线索越多，难度越大，那怎么办？

答案：多模态联合建模，用好视频里一切可以利用的信息。

媒体内容包含多种形态，比如视频、图片、声音、文字等等。

技术小哥哥敲黑本：综合使用这些媒体形态的技术，叫做多模态技术。

AI媒体内容生产，就是自动、批量地生产这些不同模态的内容。从1970年代起步的多模态学习，英文全称 MultiModal Machine Learning (MMML)。

经历了多个发展阶段，现在全面进入深度学习的阶段。

图像、视频、音频、语义之间的多模态学习比较热门。

比如互联网大型视频平台，快手爱奇艺优酷腾讯，都会将多模态技术用于视频理解业务，可以加视频封面，视频抽帧，加文本信息融合，比如做视频分类，视频质量评估。

欢声笑语中，AI默默接手海量视频管理，撑起快手视频亿级估值。

三、AI技术处理图片是主流，AI处理视频，仍然力不从心。

在国内，算法推荐内容方面最典型的公司，是今日头条、抖音和快手。

几年前，2018爱奇艺世界大会上，CTO刘文峰说：“私人影院的观看时长因为有了智能推荐提高了15%。”这告诉我们推荐也是AI技术的基本功。

AI审核和推荐都及格了，但是，特效和剪辑，AI依然力不从心。

B站两个镇站之宝， “鬼畜”与“踩点”。

踩点之王“改革春分吹满地，中国人民真争气”。剪辑大师把赵本山台词拼出来，把对应的帧找出来，凑上画面，配上音效。弹幕飘过：“再来亿遍“停不下来”屏幕背后，笑出猪叫声。

在快手科技，多媒体内容理解部门（MultiMedia Understanding，MMU)，有一种工程师的岗位，叫做多模态内容创作算法工程师。

岗位职责上面写着：“对海量多媒体素材（如图片、视频、文本、音乐等）进行深入语义理解，在此基础上进行素材打散、内容匹配和智能创作，形成多样化高质量的内容，服务于智能广告生成、视频智能混剪等方向。对无监督学习、搜索、强化学习、GAN、图形学等方向有深入了解者优先。”

这一岗位，北京、杭州、成都都有。

巧了，《亲爱的数据》有一位朋友在快手做AI算法工程师，偷看了一眼“Offer Letter概览”，每个月基本薪资25000元，还不算公司估值对应的长期激励。

快手MMU张德兵在知乎中谈道：

“（MMU尝试的十个方向）未来可能会诞生一个AI，它可以借助全网的信息跟你沟通交流，模态不限。不仅能充分理解你，而且可以用最直观易懂高效的方式给你传递各类信息，潜在对于资讯、娱乐、教育、商业等众多行业都产生非常大的影响。”

与此同时，在字节跳动，智能创作图像组也做这个特效方向。

计算机眼里，视频中有很多“帧”，理解视频，从帧入手。

一个视频大概抽几帧，关键帧里有什么样的人物、场景、动作、情绪、服装、化妆、道具，将视频分解成为更小的颗粒去理解。

再说智能首图功能，几乎所有头部视频平台都有。

“封面”可以就是“一帧”。能做到输入一段视频用算法解析视频，输出视频封面，还可以给不同用户剪出定制封面。

游戏向多模态技术，拈花一笑。

腾讯多媒体实验室，开发了一套《使命召唤手游》视频智能剪辑工具，想推广到超大规模视频剪辑中。

技术也很硬核，有通用视频理解框架，还用到了时序动作分割与文字识别等技术。

腾讯游戏和快手有啥关系呢？游戏直播等来源于游戏的视频是快手等视频平台内容原料之一。

总之，视频审核，离不了AI。

AI技术想彻底搞定视频，难度非常大，现实场景比学术场景复杂的多。所以，放松一下，慢慢来吧。

日本社畜有一句话：“事情做不完就明天再做吧，运气好的话，明天死了就不用做了。”

最后，放下那段搞笑片，有事冲着AI来。

人工智能的视频审核：“放下那段搞笑片，有事冲着AI来”

权威认证!图普科技通过ISO27001信息安全管理体系认证

喜报！图普荣膺广州「未来独角兽」「高精尖」企业

图普科技顺利通过工信局高质量发展资金，加快推动广东省数字化发展建设

图普科技「内容审核解决方案+语音识别产品」入选广州市信创产品资源池