市面上有很多非常成熟的内容审核的云服务产品,比如阿里云、腾讯云服务等。一些非此领域的公司,如果要对本身产生的内容进行审核,往往会对接一些成熟的第三方产品。
第三方审核产品功能简介
市面上的审核媒资,主要是文本、图片、音频和视频。一,相关技术简介;二,第三方的审核产品的通用配置规则和接入流程。
相关技术简介
【文本审核】:对于文本的处理主要是采用了NLP(自然语言处理)技术,将语句通过语法分析、情感分析、词向量分析等技术进行识别和归类,再与平台本身的素材库进行比对,返回匹配的结果。比如涉政内容识别、广告内容识别、垃圾内容识别等。
【图片审核】:图片审核有两种审核方式,一是通过图片的MD5与素材库中的MD5进行比对从而获得审核结果,二是通过CNN(卷积神经网络)技术进行特征提取、各部分特征汇总以及产生分类器从而预测识别来进行审核。
【音频审核】:音频的处理,是先通过ASR(语音识别)将音频经过降噪、断句处理成文字,然后再通过文本审核对其进行处理。
【视频审核】:视频审核实则是通过抽帧技术,对视频进行抽帧频率的设定,然后对视频中的图片进行图片审核。或者对视频的MD5与素材库已有的MD5进行比对从而获得审核结果。视频中的音频审核同上。
第三方审核产品
审核平台往往会在签约后提供对应的后台系统和API接口,包括如下的内容:
【后台系统】:
模版配置模块:根据不同的审核规则,配置不同的审核模版。
黑白名单:可以将审核平台没有检测到的素材加入黑名单或者白名单进行特殊处理。
内容模块:对请求的内容和结果进行记录和查询。
【API接口】:
审核接口
结果通知
查询接口
公司接入第三方时,先在第三方后台配置对应的模版和审核规则,后续通过三方提供的API接口进行审核的调用。以上就是第三方审核产品主要提供的服务。
审核中台的搭建
审核公司的模版会提供接入文档。仔细调研文档,或者和第三方的产品或者技术支持对接审核流程,确定流程。比如云点播的视频,需要先进行视频的上传后,才能进行对应的审核,而且审核是以任务的形式进行审核的。定型的规则,可以中台系统进行处理,如果基于业务规则不同,那么就讲规则交由业务系统进行处理。
审核中台的意义
随着公司业务高速发展,逐渐有很多内容需要过审,又由于这些审核需求需求高度相似,重复的开发建设,导致复用性低、产研资源浪费。于是产品化的提供一个审核中台服务是非常有必要的。
审核系统的搭建
所谓大中台小前台。中台作为业务服务的提供方,不需要过度依赖业务,而是需要不断为新业务提供能力支持。所以主要考察的是产品的抽象整合能力。
在调研了公司业务需求和第三方审核功能后,确定了整体的业务流:
从审核中台出发,搭建审核后台系统,应包括以下模块:
系统分为两部分,一是配置模块,二是内容模块。
配置模块
业务配置:针对每种接入的业务,需要进行对应的配置,比如业务本身审核的平台规则,请求第三方审核的策略配置。还有审核员审核的时候领取规则的配置等。
账号角色配置:针对系统的操作人员,配置不同的角色范围和业务范围。比如某审核员只能审核业务ABC对应的内容,此处可以进行配置。
参数配置:系统产品规则的一些灵活配置项。
内容模块
设计的时候是按照漏斗设计了两个池子,一个是机审池,另一个是机审完如果需要人审进入人审的池子。尽管两个数据池内容有所差异,但具体的展示并无明显差异。都包括:
审核状态:审核中、通过、驳回,具体根据公司业务来设计。
驳审核依据:此处可以按照平台规则进行抽象出一套模版,如涉政,涉黄,涉暴等。也可以直接采用第三方结果进行展示。
操作:大致的操作包括领取,审核,释放,可能还会涉及到分配。
数据报表
数据报表部分主要是对审核内容进行统计,可以进行后续的算法优化或者人员审核效率的考量标准。
以上就是基于第三方服务,公司内部的审核中台搭建的具体实例。
业务如何对接审核
拿做过的评论审核进行举例。
我们公司的审核之前是没有接入内容审核的,都是审核员全部过一遍。后来由于量逐渐起来以后,业务方要求接入内容审核。于是我在思考如何基于现有业务和内容审核系统进行融合。使现在的系统变化最小,同时完成业务方的审核要求。举个简单的审核流程图为例:
总的来说,就是要:
确定这个业务,是先发后审,还是先审后发。考虑到用户评论是个实时操作,所以做的是先发后审。
是否需要进行机审或者人审,审核策略是什么样的。因业务团队要求,我们的评论机审过后,还需要进入人审。如果 N分钟没有拿到机审结果,评论按照机审通过进行处理,后续进行人审复审。
当拿到机审结果后,业务系统就可以对评论进行操作了,比如说评论回复等。此处不再赘述业务系统对评论本身的操作功能。
业务系统是否反复接收审核处理。比如说评论,会对机审和人审同时响应并修改评论状态,业务系统也必须在拿到机审结果以后再对评论进行后续操作。诸如此类也都是业务系统接入内容审核系统时需要说明的。
以上就是审核中台搭建以及业务接入的完整链路。