大数据凭什么改变我们的生活「大数据改变了什么」

互联网 2023-04-07 09:49:43

今天给大家普及一下大数据凭什么改变我们的生活「大数据改变了什么」相关知识,最近很多在问大数据凭什么改变我们的生活「大数据改变了什么」,希望能帮助到您。

闫青 | 火石CTO&联合创始人,原国双数据挖掘团队负责人,原百度高级开发工程师,Oschina开源项目委员会委员,苹果WWDC、GoogleI/O特邀嘉宾。

活动:2016年8月10日 莲创CEO说 举办第三期微信群公开课,邀请嘉宾闫青分享【DT时代,大数据如何颠覆世界】,笔记侠作为合作方,经活动方和演讲者审阅授权发布笔记。PPT来自嘉宾。

笔记:笔记侠 赵帝 深度好文:3497字 | 5分钟阅读

笔记侠按

在DT时代以“他”为中心,以服务大众、激发生产力为主的技术,让别人更强大,开放和承担更多的责任,而大数据无疑是DT时代的核心。那么什么是大数据,大数据的处理流程又是如何的?各行各业中关于大数据的应用又是如何的?关于大数据的隐私问题又该是如何的?

全网首发完整笔记

我今天的讲解大致分三个部分:

第一,简单陈述大数据的概念;

第二,简单介绍大数据的处理流程;

第三,各行各业中大数据的应用。

一、大数据概念

这张图表示全球存储的数字信息,随着时间的增长,数字存储信息也会高速增长,这种比例也会越来越高。相对比这种传统的笔记、报纸这种传统媒体的介质存储方式越来越少。

我这里列了一些存储的一个单位,大家可能不是很明白,我这里做一个简单的举例吧,比如我们如果存储1024TB的数据的话,可能需要24层楼的机房,那么相对如果存储1024PB的数据可能就需要240层楼这样一个机房。

从图上可以看出,全球数字信息存储的总量是非常非常大的,而且还以高速的方式在成长。

这是我从网上找到的一张大数据市场产值的一个图,我们从这个图中可以看出整个大数据市场的产值还是非常大,而且增长空间也非常大。

这个大数据市场产值主要包含三个方面:第一是以Hadoop和Spark为代表的大数据软件,第二是大数据硬件,第三是大数据服务。

什么是大数据呢?总结成一句话:大数据技术是指从各种各样海量类型的数据中快速获取有价值信息的技术。

就如这张图所示,大数据技术是指从各种各样海量类型的数据中快速获取有价值信息的技术。

大数据有四个特点:

1、数据体量特别大,从TB到PB或者EB、ZB。

2、数据类型特别多,只要是信息,只要是存储在数字介质上的一种信息我们都可以把它当作一种要处理都数据。

3、价值密度低。

以视频为例,我们要监控一段视频的整体性能,可能取的整个视频三十分钟,我们每秒取一次数据,那么这三十分钟内我们就取了N多数据,但是可能是在二十九秒、三十秒,这个视频出现一次卡顿,我们要的数据可能就是这一次卡顿的数据,因为我们监控的就是视频的播放性能。因此数据的价值密度低。

4、处理速度快。

这是建立在以我们当前的技术和硬件条件为基础的一个载体上,我们有处理大数据的一个硬件和像Hadoop,它可以超高速处理PB甚至ZB级的数据。

二、大数据的处理流程

大数据技术的核心其实就是数据处理,单纯的数据处理是一个纯技术问题。

以做菜为例

我们要做一道菜,首先需要采集相应的食材,采购渠道包括去蔬菜地直接采摘或者去菜市场购买。

同样的,我们要处理数据也要先有数据,也就是收集数据。比如我们要分析一个app的维度,我们可能会通过SDK的方式去收集使用这个app用户的一些信息,包括用户的地理位置信息,用户打开的时间,以及用户打开这个app的一个时长等等。

又如,我们想分析一个网站的用户分布,我们可能也会收集用户访问,访问用户的一些IPC。通过IPC分析用户的一些地理位置,再去给所有访问的用户做这种标签,进而分析出这个网站所有用户的一个区域分布。

同样,跟买菜一样,我们可以直接去数据库读取数据,也可以通过SDK等方式动态采集这些数据。采集时我们还需要做一个处理,比如可能需要洗净、削皮、切片等等一些操作。

同样,对我们采集的数据可能也是包含一些杂质污染物的,是需要清洗的,那我们通过数据清洗可以把一些错误的、异常的数据清洗掉。

等我们采集到了食材以及对食材做了一个初步的加工,我们就可以开始烹饪了。同样的,数据也是这样,我们作了数据清洗后,就可以进入到一个数据处理的流程。

我们可能通过一些搭配、煎炒和调味就可以做出一道色香味俱全的菜,对于数据也是。我们可以通过对数据的深加工,比如结合一些特定的算法,使用Hadoop这种软件以及结合我们一些业务需求,然后通过高配置这些硬件,对我们采集到数据做深加工。

做完深加工后是相应的输出,对于食材,我们其实就可以装盘,供大家品尝。但对于数据,也是这样,我们做完数据的一些处理和加工后就可以使用了。这种使用对于我们用户来说,可以通过编报表、文件、直接输出的方式,直观看到这些数据。

对于程序来说可能直接通过各种方式以参数、函数的方式导入,计算机会自动执行相应的一些操作。

我们可以总结一下大数据处理的一个流程:

总之包含三部分:

数据收集,我们要处理数据,要做数据分析,肯定要有数据。数据收集方式是多样的,既可以读取已经结构化缓存存入数据库的数据,也可以读取或者转换一些非结构化数据,比如网络日志、图片、文档等类似的。

有了数据后需要对数据进行清洗,才能直持久化存储。存储后可以根据业务需求定义数据处理流程。数据经过处理后,就可以入到多维度的一个数据仓库中。

我们可以根据需求对已经处理完的数据进行多维度的数据分析,然后抽取所需数据。

抽取到的数据可以以报表的形式分发给用户,还可以做一些精细化的分析。比如,运营人员根据数据做分析判断,医生根据数据分析做一些这疾病预测等。

大数据和海量数据的根本区别在于数据分析的一个思维。我们之前说的海量数据是对于一些类似理解为结构化数据的,比如石油生产过程中产生的数据,政府部门运营过程中产生的与民生相关的数据。这些数据能以很好的结构化存储,因为它的内容和表意都比较明确。

大数据从数据采集角度讲,就是可以做任意数据的一个关联,我可以采集任一点上的数据,对数据进行一个深度处理,处理完后可以任意关联两个数据,使任意两点的数据的都可以产生一个关系。

三、各行各业中大数据的应用

举一个大数据的案例。

这张图是大数据在各行业的一个应用潜力的价值。

排名首位的是信息产业,因为它和大数据是高度关联的,就是技术的输出方;第二是金融保险,金融保险有着巨大的数据需要分析;第三是批发贸易;第四是政府。

举个例子

这是关于在线市场营销的案例,也是我们当时给一个保险行业在线网站做的一个营销数据分析的系统。

其实对于这种比较传统的在线网站,其实困扰的问题主要有几个点:

在哪找好的一个推广渠道,

我需要知道用户最关注什么样内容,

用户转化过程中,为什么会流失,以及更多其它一些问题。

基于用户样的需求,我们做了一个相应的数据分析的系统。通过深度采集这些数据,经过分析,可以输出帮助用户找到最好的一个渠道,帮助用户做出一个最好的内容,帮助用户提高用户的一个转化率,进而提升ROI的一个过程。

第一步,数据采集,我们只需要在它的网页端嵌入我们的SDK,嵌完SDK,用户在这个网站上的所有操作,后台都可以检测到,这就是我们所拿到的第一手资料,供我们后期做数据分析所用。

做数据分析我们知道百度应该是一个最好的渠道,其二是GOOGLE。

第二部分,我们帮它做了一个热力图,我们对他进行了一个页面的切分,整个页面其实分了很多部分,用户点击多的或者用户喜欢的,我们会通过数据分析展示出来,帮助这个广告主更好地做一个决策。

我们通过用户行为的数据,分析了在购物和注册过程中转化率到底如何?怎么优化这个转化率?比如这个注册信息特别多用户可能觉得特别烦,是否可以简化?购物过程中购物流程是否可以优化?通过流程的优化使用户的体验会更好,进而提高的转化率。

我们基于采集到的用户一些数据信息,可以分析出用户是从哪里来的,了解用户的地理位置及分布。

他们能更好地制定一些报表,然后轻易做一些数据的导入和导出。

大数据在我们的各行各业都是有深度的应用,比如说下面这张图。

数据在行业中的应用的越来越广泛,比如电影其实都是需要渲染的,之前每渲染一分钟可能就需要上千台机器、可能需要一两个月,现在通过云计算、大数据的方式,可能渲染一个一分钟的电影镜头就缩短成了一秒或者两秒。

电力企业也是一样的,会通过大数据实时做数据的监测和预测,让我们更好、更方便做这种电力的调度。政府也会通过大数据分析,对网站的设置、栏目的配置等做一些更改。比如我之前的公司就帮三千多家政务网站做这种数据分析,最有名的应该就是中国政府网,就是由他们做数据分析得出的。

医疗中更是有着比较广泛的应用,现在的基因工程以及疾病的预测分析和每个病人的手术方案等等,可能都会用到大数据。

其实说大数据,大家可能觉得没有任何隐私,因为我们只要上网,个人所有的数据对所有人是公开的、是可以采集的。现在大数据跟隐私没有一个比较好的解决方案或者法律规范。

因为对于我们每个人的数据,其实现在在黑市上是有交易的,也就是说,通过一个电话号码或者通过一个人的姓名等这种个人用户的属性信息,可以查询到他的很多信息。比如可以查询到这个人的银行流水,这个人的家庭信息以及这个人工作信息,还有这个人之前加过哪些qq群,他推出过哪些歌曲等等。

因此,我们个人能做的,就是尽力把自己一些比较隐私的或者保密的数据保管好,不要泄露出去。

大数据解决了我们生活中的很多问题,但是大数据真的是一本万利,可以解决所有的问题吗? 我觉得这需要辩证看待,因为大数据是一种技术,既然是技术,它肯定是有它不足的一方面,因为设计或业务系统的不同,它不可能表现出大数据完全正确,我们在使用中也需要辨别。

不要听到任何是大数据的东西都觉得是对的。

谢谢大家!

微信后台回复“笔记侠”获得:

500位商业大咖的600篇演讲笔记

22篇读书笔记&干货版图书

笔记侠出品的电子笔记书

主办方 | 莲创CEO说:莲创公社旗下第一微课品牌,专注做创业者实战经验深度共享平台,每周三晚八点微信群直播开讲,与一位CEO、高管面对面,让你get各种CEO必备技能,发愿邀请100位CEO分享见识和经历,联系笔记侠免费领取听课名额 or 申请做主讲。

[招贤纳士]

新媒体合伙人|总编辑|编辑|主笔

产品经理|新媒体运营|技术运营|电商运营|活动运营

商务BD|平面设计|漫画师|文案策划

简历请发至[email protected]关注笔记侠(微信ID:Notesman),查看精彩笔记

李善友丨傅盛|余晨丨龚焱丨徐新丨 阎焱丨俞敏洪丨李丰|蔡文胜丨段永朝丨罗振宇|罗胖|吴伯凡|宗毅|吴声|伊光旭丨李欣频|王东岳...

合作伙伴:混沌研习社|创业邦|领英中国|36氪|腾讯|京东|正和岛|中欧|微链...