内容审核怎么做「维度分析」

互联网 2023-02-15 16:03:45

今天给大家普及一下内容审核怎么做「维度分析」相关知识，最近很多在问内容审核怎么做「维度分析」，希望能帮助到您。

对于资讯类产品和内容内产品来说，内容审核是必不可少的环节之一。借助人工智能的发展，可以让机器替代一部分审核工作，但由于内容的复杂性，人工审核必不可少，而且还有其他需要考虑的点。这篇文章，作者为我们讲解内容审核的方式与流程，希望能对你有所帮助。

何为内容审核？

简单来说就是：对用户在社交平台上上传、发布或共享的内容（文字，图片，音频，视频）进行审查。

其主要目的是对低质庸俗的内容进行过滤筛选，从而生产高质量的内容、防止降低用户体验、保持良好的内容调性。

而在这个过程中，平台会对于内容有一个专业的标准作为参考，这个时候有一个很大的问题就是人工筛选效率低，而且成本大。

所以很多内容平台采用了算法进行过滤，通过人工和算法的有效结合来提升效率。

经过过滤后的内容基本上能保证无害，即使质量不高，但也不存在风险问题。这时企业就会面对选择是先发后审还是先审后发：

“先发后审”：即用户先发表UGC内容，再经过审核；“先审后发”：即用户提交UGC内容后，先经过审核，审核通过后才能发表上线。

“先发后审”和“先审后发”的适用场景：

“先发后审”：适用于对发表内容时效性要求较高的场景，如阅读、听歌等场景下的用户评论，此时用户发表评论更多出于即兴，因此从用户的角度考虑，希望自己发表的评论能够马上看到成功、有效。比如：网易云音乐评论。“先审后发”：适用于在社区、论坛、新闻平台等场景下发表文章、观点、讨论等，此时对于平台方来说需要对内容负责、并构建权威性，因此通常要审核后才能发表。比如：抖音、人人都是产品经理。一、审核方式

不管是什么内容的审核，都应该包含以下四个基础模块：机器审核、人工审核、用户投诉审核、结果复审。

1. 机器审核

是按照制定好的规则或机器学习算法对内容进行审核.

通常，成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除，难以判断是否有问题的会被标注，进入人工审核程序。

2. 人工审核

虽然用户投诉审核和结果复审大多时候也是人工审核，但这里所说的人工审核，特指审核机器无法判别的内容，通常占平台内容数量的比例不超过5%.

但对于一些大型的内容平台，绝对数量已经很多了。在内容爆炸的时代，我们看到许多平台在全国都有多个审核中心，每个审核中心的员工数量都成千甚至上万。

3. 用户投诉审核

是前两者的弥补，有很多违规内容以前没有出现过;所以不在规则可以过滤的范围内，或者非常隐蔽，规则难以严格过滤。

用户的投诉是发现新问题的重要渠道。通过知乎的危机事件，我们更应该重视对投诉的审核，并及时据此对机器审核做出补充。

4. 结果复审

通常采取抽查方式，比如通过复审机器删除的内容，看规则或算法是否过于严格；比如通过查看人工删除和通过的内容，看员工的工作是否按要求执行；比如通过内容的整体巡查，看是否存在新的问题未被注意到。

二、审核流程

具体流程，以下图为例：

先过机器审核，机器审核通过或不通过；对机器审核不通过的，再进行人工复审；对机器审核通过的，再进行人工抽样审核。三、审核的四个维度

这里一般都是对四个维度进行审核，关键字审核，用户发布次数限制，重复内容过滤和白/黑名单用户。

1. 关键词审核

词语过滤的环节，关键词主要分为三类：

1）禁止关键词

只要匹配到这个词，内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词，比如明确的色情、邪教以及广告的专属关键词。

2）审核关键词

这是最常见的关键词种类，只要匹配到就会自动进入后台进行审核，文章中的关键词会被高亮并罗列出来，有助于审核人员快速判断。审核关键词也应该尽量是专属关键词，以防止太多内容被拦截到后台。

3）替换关键词

在许多平台，我们会在文中看到莫名的号或字母缩写*，这可能不是文章作者写的，而是这个词被系统自动替换。平台不希望出现这个关键词，但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语，都有可能被自动替换。

当然，管理员在添加关键词时，很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤，比如在关键词内加一个空格，系统就难以匹配到。

所以，一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字，x 是忽略的字节数。在Discuz!网站后台有明确说明，如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “axsxxs” 等等。

对于中文字符，若使用 GBK、Big-5 版本，每个中文字符相当于 2 个字节；若使用 UTF-8 版本，每个中文字符相当于 3 个字节。

另外，关键词还可以支持正则表达式，来匹配具有一定模式的关键词。比如”/1d{10}([^d] |$)/”（不包括引号）用来匹配手机号码。正则表达式的内容过多，大家有兴趣可以搜索学习一下。

2. 用户发布次数限制

主要限制一名用户无限制地发送评论。

对这种情况可以设置同一用户一分钟内最多发送一条评论；一小时内最多发送10条评论，一天最多发送三十条评论，评论次数如果超出时则弹出toast“发言太多累了吧，请休息下”的提示。

其实这个限制上线后，发现发广告的人会不断注册新号来规避这个问题，后续可以考虑再加上。新用户需注册多长时间才可发布评论，或需绑定手机号才可以发布评论这些严格的条件。

3. 重复内容过滤

这种一般都是对于发广告的。

对比时去掉除汉字外的任何符号，如“抖丶音”、“快aabb手”，对比时用“抖音”“快手”；将评论与同一用户上条评论作对比，10个汉字以上的若与其中一条重复率达70%（20,60%；30，50%）则弹出toast“请不要发布重复内容”；同时将评论仅与评论库最近发布50条的评论作对比，20个汉字以上的若与其中一条重复率达80%则机审失败（30,70%；50，60%）；

在对比重复内容时一定要去掉一些无关的符号。因为很多小广告喜欢加空格，逗号这些。他们也通常备用好几条文案，可以将评论库的拿出来对比；这样也可以规避他们换号，换文案的问题。

4. 白名单用户，黑名单用户

白名单用户、黑名单用户需要有个可编辑的后台，可随时增减；若同一用户一天内机审失败的评论超过10，则自动列入黑名单。

白名单的用户不受发布次数限制，但内容需要检查广告词、敏感词、屏蔽词，如果一天内发布的评论超过10条机审失败，也自动列入黑名单。列在黑名单的用户发布评论时，弹出toast“您暂时无法发布评论”或机审直接失败。

最后补充下，其实没有对IP进行限制是因为在公共区域的wifi好像IP是一样的，尽管非常希望处理掉垃圾评论这一问题，但我还是希望在不影响到普通用户的前提下。

以上基本是一个内容审核都需要了解的点了。

本文由 @咩咩咩原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

内容审核怎么做「维度分析」

相关阅读

推荐文章

推荐

内容审核怎么做「维度分析」

抓住用户痛点的电商文案「电商文案在营销中的作用」

效率高的文案「怎么提升文案水平」

亚马逊怎么选款「亚马逊备选产品」

盲盒抽奖是不是真的「微博抽奖的奖品没发货怎么办」

质量控制科普之\\「质量体系审核内容」

去柬埔寨捞金「柬埔寨西港房地产骗局」

掌握六一文案规则还怕写不出好的文案吗「6.1文案」

电商新营销模式「电商实效营销」

大厂都是996吗「年轻人有哪些副业可以做」

猜你喜欢

热门