【互联网潜规则（二）】敏感词屏蔽

前言

全文约1800字，阅读需3分钟。

最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。不止是弹幕噢~

什么是敏感词汇？

Q：哪些词算是敏感词汇？

A：敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他。（网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查看https://pan.baidu.com/s/1o8xtX1K。如果失效了，请关注我的公众号乱入花间化绿叶，回复“敏感词”）

Q：哪些地方容易出现敏感词？

A：所有传播的信息都需要，发送这些垃圾信息的人或者团队被称为“垃圾虫”。

敏感词不仅出现在社区论坛、IM聊天、影音娱乐等的评论或上传信息区域，还隐藏在头像、昵称和签名这种地方，需要全面鉴别。

Q：哪些地方需要屏蔽？

A：平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方式分为同步过滤和异步召回。

比如弹幕的鼻祖——B站，为了保持弹幕的质量，它还需要屏蔽一些刷屏的、内容尴尬的弹幕，这些内容不算敏感，只是让人不喜欢。更有甚者，用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽，同时，在视频右边还有专门的弹幕栏，也就是说，我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示：

怎么屏蔽不良信息？

Q：目前的技术怎么进行屏蔽？

A：综合说来，技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾对此分了三类：垃圾发现、垃圾识别、垃圾处理。（以下综合易盾和joylnwang的博客整理而成。）

Q：垃圾发现和垃圾识别有什么区别？

A：不穷的新垃圾（需要学习），垃圾识别是根据原有的垃圾库来识别（需要更新）。

Q：垃圾发现（针对新垃圾）的技术实现是怎样的？

A：①用户举报：主要是指用户在使用产品过程中遇到不良信息，于是进行投诉。

为了保证投诉的效果，我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做，同时还需要建立科学的举报分类，不仅方便用户选择，还能极大地帮助反垃圾训练特征样本，综合来做才能有更好的效果。

②内容聚合：主要是通过判断内容的相似性，从而确定是否为垃圾信息。

就文本来说，相似度分为两个层面，第一是基于编辑距离的文本相似度计算，这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数，来计算两段文字的相似程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本往往能获得不错的效果，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。

第二个层面涉及到自然语言处理的相关知识，需要在原始文本中切分出有意义的Term，然后对于两篇文章的Term集合，运算得出文本的相似程度。复杂性上要高于前者，但在处理长文本的方面有优势，而且更有可能从意义的角度识别出相似的文本族。（来源http://blog.csdn.net/joylnwang/article/details/6831565）

③蜜罐系统：主要是针对专业的垃圾虫团体。

通常垃圾虫都有特定的工具协助，而这些工具大多会分析页面元素并进行调用。

如果在页面中埋伏一些“蜜罐”，正常的用户无法看到这些入口，但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题，只有程序才会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人，都可以被判断为非正常的用户。

Q：垃圾识别是指什么？

A：①特征匹配：主要是基于已有垃圾特征进行匹配。

对文本来说，建立敏感词库就可以直接屏蔽相关词句，同时，对于文字的变种比如简转繁、加空格、形近字、音近字，都可以有效识别。

对图片来说，主要是MD5、鲁棒哈希、Sift特征识别等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清后面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）

总之，这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等，基本囊括了所有的不良图片。

②模型匹配：主要是基于机器学习，可以在没有具体特征样本库的情况下识别内容的分类。

音频文件也通过大量语料学习能把语音转换成文本，然后进入文本匹配过程。

视频则通过截图的方式转换成为图片识别。

③规则匹配：也叫模式匹配，分为正则表达式、多模式匹配算法、基于元数据的定制等。

百度里的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则：同IP下5分钟内发送内容相似度超80%的封禁1小时。

Q：垃圾操作是怎么操作？

A：①基础处理：删除内容，封禁内容，封禁用户，删除用户，封禁IP，封禁设备等常规手段。

②隐蔽操作：普通的屏蔽操作容易被垃圾虫感知，当他们发现被屏蔽时，会想办法来“破解”反垃圾，故需要进行隐形屏蔽。

比较常见的做法有：垃圾发送接口返回成功，但实际仅用户自己可见。例如直播中的弹幕，进行虚拟展示，仅用户自己可见，其他人都看不到。

③后续操作：每天把删除的垃圾内容汇总到内部分拣平台，由专业人员进行分析和对数据的分拣标记，完成各种模型以及规则的升级。

以上内容可解决大部分的敏感内容屏蔽问题，如有疑议，可在评论区回复，欢迎一起探讨~

全文完。【互联网潜规则（一）】作弊与反作弊，链接是//www.greatytc.com/p/d24633e411ee

最后编辑于：2017.12.08 07:58:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 207,113评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,644评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,340评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,449评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,445评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,166评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,442评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,105评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,601评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,066评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,161评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,792评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,351评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,352评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,584评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,618评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,916评论 2赞 344