第六章 大数据

大数据的定义:

要想真正理解大数据,我们首先需要了解一些历史背景。在 2001 年左右,Gartner 就大数据提
出了如下定义(目前仍是关于大数据的权威解释):大数据指高速 (Velocity) 涌现的大量
(Volume) 的多样化 (Variety) 数据。这一定义表明大数据具有 3V 特性。

简而言之,大数据指越来越庞大、越来越复杂的数据集,特别是来自全新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。

大数据的 3V 特性

大量 (Volume) 大数据的 “大” 首先体现在数据量上。在大数据领域,您需要处理海量的低  
密度的非结构化数据,数据价值可能未知,例如 Twitter 数据流、网页或移动应用点击流,以
及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数
百 PB。
高速 (Velocity)   大数据的“高速”指高速接收乃至处理数据— 数据通常直接流入内存而非写
入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时
评估和操作,而大数据只有具备 “高速” 特性才能满足这些要求。
多样化 (Variety)   多样化是指可用的数据类型众多。通常来说,传统数据属于结构化数据,能
够整齐地纳入关系数据库中。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如
文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。

大数据的价值和真实性
在过去几年里,大数据的定义又新增加了两个 "V":价值 (Value) 和 真实性 (Veracity)。

首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,只有真实、可靠的数据才有意义。

如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。

目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。

然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
以上资料来自oracle


ok,接下来小白的思考就是怎么把大数据和自己的项目结合起来。
根据前面的经验,小白需要多维度的数据,这正好符合了大数据中的多样化 (Variety)。你看小白需要恋爱对象的图像信息,文本信息,声音信息,并据此丰富模型输入的维度。
这么多数据在当今这个时代,我们可以很方便的从各种社交应用上获得到。这符合了大数据的大量 (Volume)与高速 (Velocity)性。
通过我们的模型运算,获得准确的预测能力。这就满足了大数据的价值 (Value) 和 真实性 (Veracity)。
so:小白的项目就是一个典型的大数据应用。
之前小白的项目,所有数据都是由使用者提供的,使用者提供了照片,提供了iq,eq测试的结果。
现在小白借助大数据要玩把更神奇的,只要用户输入身份id,就能够完成匹配预测。而要完成这个想法,就需要大数据,这么多数据如何获得呢?
BTW:

因果律是最基本、最底层的逻辑规律。
但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。问题是世界上万事万物之间的联系是很复杂的,现实情况下的因果关系通常都是“多因果关系”,也就是事物之间的相互作用是多因多果的。我们无法分析清楚复杂的、非线性的因果关系,故而将这些多因果关系称之为是“相关关系”。
大数据提倡关注“相关关系”,关注“是什么”而不是“为什么”,这并非是对『因果关系』的否定,反而是对客观世界真相的承认与接纳——承认世界是复杂的,联系紧密的。同时也是站在一个更实用的立场上,专注于具体问题的解决或做出更优的决策。

就要借助爬虫了!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,030评论 5 464
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,198评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 144,995评论 0 327
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,973评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,869评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,766评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,967评论 3 388
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,599评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,886评论 1 293
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,901评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,728评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,504评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,967评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,128评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,445评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,018评论 2 343
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,224评论 2 339