大数据的定义:
要想真正理解大数据,我们首先需要了解一些历史背景。在 2001 年左右,Gartner 就大数据提
出了如下定义(目前仍是关于大数据的权威解释):大数据指高速 (Velocity) 涌现的大量
(Volume) 的多样化 (Variety) 数据。这一定义表明大数据具有 3V 特性。
简而言之,大数据指越来越庞大、越来越复杂的数据集,特别是来自全新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
大数据的 3V 特性
大量 (Volume) 大数据的 “大” 首先体现在数据量上。在大数据领域,您需要处理海量的低
密度的非结构化数据,数据价值可能未知,例如 Twitter 数据流、网页或移动应用点击流,以
及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数
百 PB。
高速 (Velocity) 大数据的“高速”指高速接收乃至处理数据— 数据通常直接流入内存而非写
入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时
评估和操作,而大数据只有具备 “高速” 特性才能满足这些要求。
多样化 (Variety) 多样化是指可用的数据类型众多。通常来说,传统数据属于结构化数据,能
够整齐地纳入关系数据库中。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如
文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
大数据的价值和真实性
在过去几年里,大数据的定义又新增加了两个 "V":价值 (Value) 和 真实性 (Veracity)。
首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,只有真实、可靠的数据才有意义。
如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。
目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。
然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
以上资料来自oracle。
ok,接下来小白的思考就是怎么把大数据和自己的项目结合起来。
根据前面的经验,小白需要多维度的数据,这正好符合了大数据中的多样化 (Variety)。你看小白需要恋爱对象的图像信息,文本信息,声音信息,并据此丰富模型输入的维度。
这么多数据在当今这个时代,我们可以很方便的从各种社交应用上获得到。这符合了大数据的大量 (Volume)与高速 (Velocity)性。
通过我们的模型运算,获得准确的预测能力。这就满足了大数据的价值 (Value) 和 真实性 (Veracity)。
so:小白的项目就是一个典型的大数据应用。
之前小白的项目,所有数据都是由使用者提供的,使用者提供了照片,提供了iq,eq测试的结果。
现在小白借助大数据要玩把更神奇的,只要用户输入身份id,就能够完成匹配预测。而要完成这个想法,就需要大数据,这么多数据如何获得呢?
BTW:
因果律是最基本、最底层的逻辑规律。
但只是过去人们习惯了对因果律的“简化”理解——人们绝大多数时候提到因果关系其实都只是在说“单因果关系”。问题是世界上万事万物之间的联系是很复杂的,现实情况下的因果关系通常都是“多因果关系”,也就是事物之间的相互作用是多因多果的。我们无法分析清楚复杂的、非线性的因果关系,故而将这些多因果关系称之为是“相关关系”。
大数据提倡关注“相关关系”,关注“是什么”而不是“为什么”,这并非是对『因果关系』的否定,反而是对客观世界真相的承认与接纳——承认世界是复杂的,联系紧密的。同时也是站在一个更实用的立场上,专注于具体问题的解决或做出更优的决策。
就要借助爬虫了!