大数据垃圾分类「如何自动识别垃圾」

互联网 2023-03-01 10:23:50

今天给大家普及一下大数据垃圾分类「如何自动识别垃圾」相关知识，最近很多在问大数据垃圾分类「如何自动识别垃圾」，希望能帮助到您。

编辑导语：大数据时代之下，信息繁杂多样，其中也充斥着大量的假话和谬论。怎么在纷繁复杂的信息里面，去伪存真，需要我们有一定的思辨能力，去识别信息中的垃圾信息。而如何识别辨别这些垃圾信息呢？本篇文章分析了如何识别垃圾信息的方法，感兴趣的话一起来看看吧。

短视频、短信息时代蒸蒸日上，改变了公众话语的内容和意义，政治、宗教、教育、体育、商业和任何其他公共领域的内容，都日渐以“短娱乐”的方式出现，并成为一种文化习惯。

但是这些容易传播的短视频、短信息，大量充斥着假话和谬论。

基思·斯坦诺维奇说，伪科学的传播所造成的代价是巨大的。怎么在纷繁复杂的信息里面，去伪存真，帮助自己解读判断，需要我们有一定的思辨能力，去识别信息中的垃圾信息。

一、如何识别垃圾信息？1. 大话、空话；让人不知所云

在表达中使用一堆假大空的词汇，每个词你都认识，组合在一起也仿佛说得都对，但是就是不知道对方在说什么。比如各种黑话指南：

2016年：资本寒冬、护城河、上半场、下半场、brief、知识付费、赛道、黑科技、网红、闭环。2017年：赋能、边界、共享经济、消费升级、新物种、互联网金融、ICO、区块链。2018-2019 年：打法、优化、下沉、社交电商、壁垒、流量池、组合拳、心智。2020-至今：抓手、Web 3，去中心化、底层逻辑、第一曲线、第二曲线。

并不是说只要有这些词汇，就是垃圾信息。而是表达者通过一顿组合，让你不知道所云，只有空话的，肯定是垃圾信息。比如：

这次 Campaign 我们要以价格为抓手，横向打通品类覆盖，还要提高内容可复制性，注重投放颗粒度，覆盖消费升级到下沉市场的全域流量，发力打出一套组合拳。

看完之后，一脸问号，他在说啥？

向飙说：“社会生活里有很多问题都是老问题，一定要把老问题吃透。不要制造新的词汇，没有太大的意思”。

2. 缺失的信息

之前文章《如何正确读数和更优决策》，讲了一个关于缺失数据做决策的故事。赛车队成员需要决定是否要参与一场重要的比赛。依据之前的经验，24 场比赛中有 7 场汽车引擎出现故障，故障情况和天气温度之间的关系如下图：

图片来源于《成长边界》

团队里面大部分人的判断都是要参赛。但是当我们把缺失的比赛数据补齐时，我们看到：

图片来源于《成长边界》

40华氏度引擎出问题的概率很高，参赛的结果可想而知。赛车队故事背后是 NASA 真实的案例。1986 年，在一次火箭发射事件中，NASA 的高层基于部分数据，对于密封火箭助推器一个连接处的 O 型圈失效可能性做出了判断。最终结果是，剧烈燃烧的气体直接从连接处冲向外部，“挑战者号”在升空 73 秒后就爆炸了，7 位宇航员全部丧生。

当有人和你阐明数据和观点的时候，你可以思考以下几个问题：

谁在告诉我这些他们是如何知道的这些信息里面还有什么，还有哪些信息没有表露出3. 错把关联当因果

还有一类经常被大家搞错的是，误把关联关系当作因果关系。

多年前，台湾地区有一个研究表明，家用电器的数量和避孕工具的使用最相关。但是你应该不会有这样的想法，在高中发放免费的烤箱以解决青年早孕的问题。因为这两个变量存在相关，但是没有因果关系。

比如你发现汽车儿童座椅销量变高，同时婴儿出生数量也在变高，是一个正相关的关系。但是不能说，因为儿童座椅销量变高了，所以导致婴儿出生率变高。这是逻辑是谬论。

导致两个变量之间产生误导性关联的第三变量，有时候很容易看出来。比如，冰淇淋卖得越多，溺水就越多。是因为吃冰淇淋的人很多，游泳的人也很多，所以溺水的人才很多。

我们在研究一个现象的时候，会带着自己的预设偏见理解为，两个相关因素是因果关系。而相关关系之所以产生，可能是因为这两个变量都与某个甚至尚未被测量的第三变量相关。

读数据的时候，当我们看到相关关系，需要继续提问或者反思，背后的原因是什么，是否还有其他可能性。

4. 小心平均值和中位数

平均数代表一个样本的平均水平。但是当你在查看平均值的时候要留意，样本里面是否有极值（极大值，极小值这些 outliers），如果有的话，平均值就会不准。此外，如果你的样本小，也容易产生更多极端的值。这个时候用中位数更合适。如下图：

图片来源于 B 站公开课程

5. 正确理解 p 值

什么是 p 值？

我们来说一个故事。假设你是一个律师，现在法官要审判一起杀人案件，而你的辩护人被指认谋杀。但是案发时，你当事人在蛋糕房里面做蛋糕，并不在案发现场。现在你要为他辩护。

庭上法官拿出 DNA 检测报告表明，案发现场凶器上的 DNA 和你当事人 DNA 完全吻合。所以你的当事人才被指认。

作为律师你说，“等一等，法官你确定 DNA 匹配不是巧合？”

法官说，“当然，DNA 匹配概率是百万分之一。你的当事人是凶手无疑。”

你说，“别急，我们来画一个图。百万分之一的可能性表达的是所有人群里面，错误识别的可能性。但是我们这里应该要看的是，识别出来的结果里面，被误识别的可能性。”

图片来源于 B 站公开课程

“虽然对于整体样本来说，检错概率很低，为百万分之一。但是在判断为凶手的结果里，总共 5 个人，只有 1 个是真正的凶手，其他 4 个都是误判，只有 20% 的正确率。没有办法判断我当事人就是凶手。”

这则小故事告诉你不能绝对相信 p 值。因为 p 值不是用来告诉你假设的正确性的。而是用来告诉你，在整个群体中检测错误的可能性有多大。

所以对于一个很低的 p 值，不要认为这事就肯定成立了。

6. 误导性坐标轴（misleading axes ）

数据可视化可以降低看数据的难度，但是在数据以图表的方式呈现出来之后，我们也需要去关注一些细节。因为图表会给出一些诱导性的表达方式，影响我们判断。比如误导性坐标轴（misleading axes ）。

以下图为例，作者给你看的图是这样的，我们会快速认为，yes 和 no 的比例是 5/5 开。但是细看我们会发现，这两个分类左边的 y 轴并不一样，根本不是 5/5 开的关系。

图片来源于 B 站公开课程

7. 操作箱尺寸

图表也可以操控每个箱子的尺寸大小来表达他想要的意思。比如下文是华尔街一篇臭名昭著的报道。这张图乍一看中间部分的 y 值最大。

图片来源于 B 站公开课程

但是当我们放大横坐标的时候仔细一看，会发现，横坐标根本不是等分的。从最开始的每 5k 一个间隔，到后面 5百万一个单位。

图片来源于 B 站公开课程

8. 过度装饰

过度装饰的图被称作 data visulization ducks。ducks 原意是用在建筑领域指过度装饰的建筑。图表也是如此，好的图表不要过度装饰，过度装饰反而会失去了他本来想要表达的内容。因为 ducks 会阻碍信息的交流。

（假新闻 & 过度装饰）图片来源于 B 站公开课程

（画个人形，读数反而变得很困难）图片来源于 B 站公开课程

（视觉注意力都被大汉堡和苏打水抢走了）图片来源于 B 站公开课程

（用嘴型来表达家庭的财务安全度）图片来源于 B 站公开课程

（非要用栅栏表达房屋价格，让人看不懂）图片来源于 B 站公开课程

（过度装饰 & 误导性坐标轴）图片来源于 B 站公开课程

9. 科学的可复制和可重复性

‍你看到的信息能否被复制和重复，这也是结论是否科学的一个重要判断因素。要将一个研究发现认定为确凿的科学事实，它的可重复性至关重要。因为科学理论的一个重要定义就是可证伪性。

可证伪性标准声明，一个理论要有用，对其所做的预测必须是具体的。它在告诉我们哪些事情会发生的同时，必须指出哪些事情不会发生。如果不会发生的事情确实发生了，我们就得到了一个明确的信号，这个理论有问题。

越具体的预测在被证实后，给我们的触动越大。预测越具体，越精确，有可能证伪它的观察现象就越多。

只有当一个理论并不试图预知一切，而是做出具体的预测，提前告诉我们世界上会发生什么具体的事情时，该理论才会进步。

所以伪科学/信息的另外一个特征就是不可证伪。不管怎么解释它，都对的。

这些不可证伪理论有着巨大心理吸引力，其奥秘在于它们解释一切的能力。预先知道无论发生什么，你都能理解它，不仅给你一种掌握知识的感觉，而且更重要的是，给你应对这个世界所需要的情绪上的安全感。

但是这种安全感是以知识发展的停滞为代价的。比如我们常常沉迷的占星、星座解释、通灵术等。

二、最后

Steven Pink 说过：活着好过死亡，健康好过疾病，富足好过匮乏，自由好过胁迫，幸福好过苦难，知识好过迷信和无知。

在这个不确定性极高的后疫情时代，多多提高自己对信息的辨别能力，更好的生活，从驳斥垃圾信息开始。

参考资料：

《大数据时代，如何识别 bullshit》，https://www.bilibili.com/video/BV13E411s74P?spm_id_from=333.337.search-card.all.click

《The social dilemma》2020 on Youtube, https://www.youtube.com/watch?v=rvg0eY_Ls4Y

《成长边界》

《这就是心理学》

#专栏作家#

圈圈，微信公众号：lovepm，人人都是产品经理专栏作家。专注企业级知识管理、知识沉淀领域。

本文由 @圈圈原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

大数据垃圾分类「如何自动识别垃圾」

相关阅读

推荐文章

推荐

大数据垃圾分类「如何自动识别垃圾」

homepod停产后为什么涨价了「homepod停产会出第二代吗」

连云港免税店官网「江苏有免税店吗」

福州跨境电商交易会「福州近期的展销会」

速卖通如何运营一个店铺「亚马逊开店攻略」

比较全的电气符号大全「电气文字符号大全」

网络直播带货骗局「跨境宝骗局」

BV十大经典款「bv经典款」

每日优鲜市场定位「每日优鲜社区团购」

江苏连云港发货「年关将至万事忙」

猜你喜欢

热门