大数据有多少数据?
一个公平的问题。每个企业都在谈论大数据,但这个术语在常用时是难以理解的,非常模糊。当然,这意味着要处理大量数据,但企业一直在努力处理大量数据。目前对“大数据”的重视不仅仅是对“大量数据”的关注。认识到我们对构成大量数据的看法多年来实际上已经发生了变化,这是有启发性的。五十年前,我为农业部做一个人口研究项目,预测美国各地的人口迁移。
对于这个项目,我们在24年和1950年的两次美国人口普查中,每个县都有1960张打孔卡。这些卡片包含有关与每个县相关的出生、死亡和移民等人口普查数据。在那个时代,这确实是非常大的数据。算一下,这是超过12兆字节的数据。备份数据需要所有这些穿孔卡的第二个完整副本!我们使用的第一代大型计算机没有操作系统,使用真空管。它花费了2万美元,但它只有2k的主内存。没有更高级的编程语言,只有机器代码。处理所有这些穿孔卡架花了很长时间。当时,这是很多数据!这说明,在实际意义上,“大数据”往往是任何级别的数据,以扩展您的处理能力。在现实世界中,大数据是情境性的,相对于公司有效处理它的运营能力。
大数据的特征。对于大数据,讨论总是转向三个V——体积、速度和变异。[1] 我们也可以为价值添加第四个 – V。
数量是大数据最明显的方面。今天,企业正在为所谓的艾字节时代做准备。艾字节是十亿字节 - 而泽字节不能落后(一万亿字节)。在存储方法和技术进步的推动下,通过利用数据来寻求竞争优势似乎永无止境。速度描述了数据到达存储的速度。现代网络对这种到达率产生了深远的影响,简化了与数据源的连接并优化了各地的数据流。互联网应用程序、自动传感器和非常描述的设备正在以惊人的速度生成数据。多样性可能是当今大数据最令人困惑的方面。这是指企业数据仓库中存在现代数据的无数格式。数据管理的大部分历史都涉及管理定义明确的结构化数据。但今天的相关业务数据大多是高度非结构化的,通常是机器生成的,并且经常是自由格式化的文本。至少可以说,组织和评估它很复杂。价值涉及及时性和准确性等因素。如果及时提供数据以供使用,则显然更有价值。准确性对于数据的可靠性和最终可信度至关重要。但是,早期获得的良好估计通常比后来收到的更准确的答案要好。因此,这些因素在评估数据价值时相互作用很重要。