人工智能的视频审核:“放下那段搞笑片,有事冲着AI来”
-
权威认证!图普科技通过ISO27001信息安全管理体系认证
本次通过「ISO27001:2013」认证,标志着图普已建立起一套完善、科学有效的国际化信息安全管理体系,具备保护信息化进程健康、有序、可持续发展的能力,覆盖内容审核、零售数字化、智能安防等业务应用。
넶902 2021-11-12 -
喜报!图普荣膺广州「未来独角兽」「高精尖」企业
由广州市科学技术局指导,广州市科技创新企业协会主办的《2021年广州“独角兽”创新企业榜单》正式公布,凭借核心AI技术及行业生态应用创新,在互联网/融媒体内容审核、新零售数字化、AIoT智能安防等领域的影响力,图普科技同时入选“未来独角兽”及“高精尖”企业。
넶772 2021-11-12 -
图普科技顺利通过工信局高质量发展资金,加快推动广东省数字化发展建设
针对商业线下空间和零售门店数字化应用,以及互联网直播场景的内容审核应用,均通过麒麟软件兼容性认证,符合广州市工业和信息化局对于国产化适配的严苛审核要求。
넶925 2021-05-18 -
图普科技「内容审核解决方案+语音识别产品」入选广州市信创产品资源池
图普科技在广州市工业和信息化局指导下,将各行业成熟的场景审核解决方案进行复制推广,响应广州信创产品资源池发展战略。同时,响应在十四五规划纲要,携手网络平台加强对音视频的内容审核管理,通过人工智能技术赋能内容审核,提高审核效率与精准度,维护文明健康的网络环境。
넶1178 2021-04-26
无视频、不娱乐,视频审核要排队。
管理员说:“此山是我开,此树是我栽,要想从此过……”
机审、人审、再加举报审核。
一审、二审、三审、四审。
审核决定一个视频平台公司能不能活,也决定它会不会死。
话说,B站也曾被请去喝珍珠奶茶。
AI技术对于视频审核的意义,很大一部分是减轻人类审核的工作量。
视频,按其体量可被视为工业界最大的业务场景之一。
参考爱奇艺官宣每天大概产生的数量规模,主页频道的内容规模,上千。PGC内容。上万,UGC内容,上百万。
参考阿里巴巴资深算法专家王晓博公开演讲:“只要视频平台开放了UGC上传口,每天百万级数量级上传量,挡都挡不住。”
快手名场面,鼠年春节达3.2亿日活跃用户的峰值,牛年春节更加牛(多地倡导,原地过年)。
优质岗位常年空缺,视频审核大师广告文案如下(假想版):
“一月3休,每周300小时强制工时,每天只需要工作到凌晨3点。”
如今,AI技术在“审核”环节用得最广,审核要求非常高,比如鉴黄。
如果AI看不懂视频,审核工作全部归人类,这是一桩严重违反《劳动法》的惨案。
视频平台都有审核中心,TikTok也曾设有海外审核中心,2020年5月在美国加州总部设立一个名叫“透明中心”的部门,实则是审核中心。这里都是劳动密集型办公,光靠人力不够。
审核大师手捏泰国船票,正准备收拾个人物品跑路,AI就上岗了,一插电,审核数量级从十万飙升到十亿。
弹幕飘过:“好开心,谢谢你。”
一、AI审核看不懂视频,就会“误伤”。
误伤什么,都不能误伤长腿美女。科学讲解现在开始,比如,某天,长腿美女的比基尼视频被低俗恶搞了,数个小时内上传量激增。广大网友到处求资源,“好人一生平安”。
热度过高,视频审核怎么办?“长腿美女比基尼专项整治工作小组”在一片祥和安宁的气氛中组建。
要么,把所有含有比基尼三点式泳装的相关视频都召回,一刀切。结果使得召回视频大部分是不相关的,把维密天使、海景Vlog、游泳教学、港姐选美的视频都错误召回了。
BGM播放:“哦漏,哦漏,哦漏漏漏漏。”
要么,用技术手段精准地找到不雅视频,再把不相关的给人力处理。
最后,清点全部召回的视频,评估有多少错的,多少对的。正确率越高,说明算法越精准。
快手审核负责人:“哦耶,哦耶,哦耶耶耶耶。”
视频审核也要对文本、语音、图像、视频等(不同种类的多媒体)进行统一搜索。
“跨界”从多种媒体中,找出长得像的作品,既能“查重”,还能打击“洗稿”。
比如,“六神磊磊”讲金庸的文字原稿,常常被“搬运”,改头换面,就成了“历史故事”短视频,还有一堆不明真相的群众点赞。
审核低效,速度就会很慢,热点流量的高峰来临,就无法处理。
快手审核大师说:“我终究没能飙得过那辆宝马,只能眼望它在夕阳中绝尘而去,不是引擎不好,而是脚蹬子坏了。”
再看看高德地图:“没有AI,就没有路了。”
于是,AI算法工程师狠狠心,训练人工智能“看懂”视频。
二、AI看懂视频是很难,关键在于看懂到什么程度?
比如,破格公主姚安娜在快手跳了一段现代舞。
AI读懂(字幕、弹幕、广告标语、标题),听懂(乐曲、歌词),看懂(姚安娜,她在跳舞,在家里跳舞)。
姚安娜情绪很积极,可惜,舆论情绪很负面。
评论一:“跳得好不好不说,有一种有钱人的自信。”评论二:“这水平,过年给亲戚表演的感觉。”
AI顺手完成一道附加题,搞懂了群众对公主跳舞的态度。
比起AI看懂破格公主姚安娜的照片,AI处理视频是关注整条视频的信息,不像传统方法关注的是图片(照片)的信息,视频信息量更大。
将二维图片信息升维了,增加了时间序列信息,既一脉相承,又有技术创(nan)新(ti)。
再比如,爱奇艺的AI技术如何看懂视频?
仔细看,在播放进度条横线的上方,AI画了波浪线,把视频里精彩的部分标注出来,叫做视频highlight。
AI能画出“潮涨潮落”,证明AI知道哪里是“高潮”,而且还有时间“印记。
问题一:为什么快手AI认识姚安娜?
人脸识别在警察叔叔那里抓嫌疑犯,在视频中就是识别演员,或者给演员换脸。
比如爱奇艺APP的“只看他”功能早已上线,爱奇艺等长剧场景非常需要,短视频业务里就不是刚需。
只看《如懿传》周迅的片段,只播放进度条中周迅的片段。计算机先把视频切分了,按段分析。
在长视频里,技术实现并不难,就是花多长时间找出来。
问题二:为什么快手AI读得懂视频里的字?
OCR一般用于发票信息识别,在软件中一键识别,发票号码,消费金额等信息,RPA机器人还能做到一键填入。
OCR来到视频的世界,不仅希望能看懂视频中的每个字, 也希望能理解它们的类型、重要性和逻辑。
姚安娜的视频只是其中一个,视频平台要管理亿级视频的“大仓”,系统要能给视频分类。
分类也是在理解的基础上进行。这里就不得不补一段“标签的历史”。
视频理解过去主要是标签,现在是颗粒度更细。标签分为,内容标签和类型标签。
内容标签是对文本、图文或者短视频等内容的表征。
表征,就是用一些关键词或者是短语来表达对应的内容是什么含义“萌宠”与“萌娃”就是两种不同的萌物。
内容标签,是根据内容生成标签,换句话说,有什么样的内容就有什么样的标签。标签的集合是开放的。
类型标签,是一个分类体系,就是把不同的内容分到不同的体系下面,这个分类体系是预先定义的,比如“影视”与“动漫”。
以前做到,软件快速为快手视频生成热门内容标签,解决快手视频关键词无法露出的问题,但对于细粒度结构分析则较少。现在,快手用视频理解技术关联,能把视频关联到相关视频。
快手后台审核人员做什么呢?他们忙着给访问量高的视频打标签,关联到热点。
姚安娜跳舞的视频,也会被打标签。
安防视频很多都是无声的(无拾音器摄像头),而娱乐视频里信息量很大,人脸、商品、物体、人物行为、地点、文字、歌词、对话、时间。
线索越多,难度越大,那怎么办?
答案:多模态联合建模,用好视频里一切可以利用的信息。
媒体内容包含多种形态,比如视频、图片、声音、文字等等。
技术小哥哥敲黑本:综合使用这些媒体形态的技术,叫做多模态技术。
AI媒体内容生产,就是自动、批量地生产这些不同模态的内容。从1970年代起步的多模态学习,英文全称 MultiModal Machine Learning (MMML)。
经历了多个发展阶段,现在全面进入深度学习的阶段。
图像、视频、音频、语义之间的多模态学习比较热门。
比如互联网大型视频平台,快手爱奇艺优酷腾讯,都会将多模态技术用于视频理解业务,可以加视频封面,视频抽帧,加文本信息融合,比如做视频分类,视频质量评估。
欢声笑语中,AI默默接手海量视频管理,撑起快手视频亿级估值。
三、AI技术处理图片是主流,AI处理视频,仍然力不从心。
在国内,算法推荐内容方面最典型的公司,是今日头条、抖音和快手。
几年前,2018爱奇艺世界大会上,CTO刘文峰说:“私人影院的观看时长因为有了智能推荐提高了15%。”这告诉我们推荐也是AI技术的基本功。
AI审核和推荐都及格了,但是,特效和剪辑,AI依然力不从心。
B站两个镇站之宝, “鬼畜”与“踩点”。
踩点之王“改革春分吹满地,中国人民真争气”。剪辑大师把赵本山台词拼出来,把对应的帧找出来,凑上画面,配上音效。弹幕飘过:“再来亿遍“停不下来”屏幕背后,笑出猪叫声。
在快手科技,多媒体内容理解部门(MultiMedia Understanding,MMU),有一种工程师的岗位,叫做多模态内容创作算法工程师。
岗位职责上面写着:“对海量多媒体素材(如图片、视频、文本、音乐等)进行深入语义理解,在此基础上进行素材打散、内容匹配和智能创作,形成多样化高质量的内容,服务于智能广告生成、视频智能混剪等方向。对无监督学习、搜索、强化学习、GAN、图形学等方向有深入了解者优先。”
这一岗位,北京、杭州、成都都有。
巧了,《亲爱的数据》有一位朋友在快手做AI算法工程师,偷看了一眼“Offer Letter概览”,每个月基本薪资25000元,还不算公司估值对应的长期激励。
快手MMU张德兵在知乎中谈道:
“(MMU尝试的十个方向)未来可能会诞生一个AI,它可以借助全网的信息跟你沟通交流,模态不限。不仅能充分理解你,而且可以用最直观易懂高效的方式给你传递各类信息,潜在对于资讯、娱乐、教育、商业等众多行业都产生非常大的影响。”
与此同时,在字节跳动,智能创作图像组也做这个特效方向。
计算机眼里,视频中有很多“帧”,理解视频,从帧入手。
一个视频大概抽几帧,关键帧里有什么样的人物、场景、动作、情绪、服装、化妆、道具,将视频分解成为更小的颗粒去理解。
再说智能首图功能,几乎所有头部视频平台都有。
“封面”可以就是“一帧”。能做到输入一段视频用算法解析视频,输出视频封面,还可以给不同用户剪出定制封面。
游戏向多模态技术,拈花一笑。
腾讯多媒体实验室,开发了一套《使命召唤手游》视频智能剪辑工具,想推广到超大规模视频剪辑中。
技术也很硬核,有通用视频理解框架,还用到了时序动作分割与文字识别等技术。
腾讯游戏和快手有啥关系呢?游戏直播等来源于游戏的视频是快手等视频平台内容原料之一。
总之,视频审核,离不了AI。
AI技术想彻底搞定视频,难度非常大,现实场景比学术场景复杂的多。所以,放松一下,慢慢来吧。
日本社畜有一句话:“事情做不完就明天再做吧,运气好的话,明天死了就不用做了。”
最后,放下那段搞笑片,有事冲着AI来。