什么是大数据，为什么如此重要？- 雪兽软件

文章发表于2020-12-08 10:21:59，归属【科技前沿】分类，已有8703人阅读

大数据是组织收集的结构化、半结构化和非结构化数据的组合，这些数据可以用于信息挖掘，并用于机器学习项目、预测建模和其他高级分析应用。

处理和存储大数据的系统已经成为组织中数据管理体系结构的一个共同组成部分。大数据的特点往往是3V：Volume(海量)，Velocity(速度)，Variety(多样性)。在许多环境中数据量大，存储在大数据系统中的数据类型多种多样，以及数据生成、收集和处理的速度。 2001年，Meta Group Inc.的分析师Doug Laney首次发现了这些特征；Gartner在2005年收购Meta Group之后进一步推广了这些特征。最近，其他几个Vs被添加到大数据的不同描述中，包括准确性、价值和可变性。
虽然大数据并不等同于任何特定数量的数据，但大数据部署通常涉及TB(TB)、PB(PB)大小级别，随着时间的推移捕获的数据甚至EB(EB)。

大数据的重要性

公司利用其系统中积累的大数据来改善运营，提供更好的客户服务，根据特定的客户偏好创建个性化的营销活动，并最终提高盈利能力。利用大数据的企业比那些没有大数据的企业拥有潜在的竞争优势，因为他们能够做出更快、更知情的业务决策，只要他们有效地使用数据。

例如，大数据可以为公司提供对其客户的有价值的洞察力，这些洞察力可用于完善营销活动和技术，以提高客户参与度和转化率。

此外，利用大数据使公司变得越来越以客户为中心。历史和实时数据可用于评估消费者不断变化的偏好，从而使企业能够更新和改进其营销策略，并更好地响应客户的欲望和需求。

大数据也被医学研究人员用来识别疾病危险因素，并被医生用来帮助诊断个别患者的疾病和状况。此外，来自电子健康记录(EHRs)、社交媒体、网络和其他来源的数据机构提供关于传染病威胁或爆发的最新信息。在能源行业，大数据帮助石油和天然气公司确定潜在的钻井地点并监测管道运行；同样，公用事业也使用它来跟踪电网。金融服务企业使用大数据系统进行风险管理和市场数据的实时分析。制造商和运输公司依靠大数据来管理他们的供应链和优化交货路线。政府的其他用途包括应急、预防犯罪和智慧城市举措。

大数据的例子

大数据来自无数不同的来源，如业务交易系统、客户数据库、医疗记录、互联网点击流日志、移动应用程序、社交网络、科学研究存储库、机器生成的数据和在物联网（抽签）环境中使用的实时数据传感器。数据可能以原始形式留在大数据系统中，或者使用数据挖掘工具或数据准备软件进行预处理，以便为特定的分析用途做好准备。

以客户数据为例，可以使用大数据集中的信息进行分析的不同分支包括以下内容：

比较分析。这包括检查用户行为指标和观察实时客户招聘，以便将一家公司的产品、服务和品牌权威与其竞争对手进行比较。
社交媒体的倾听。这是关于人们在社交媒体上对某一特定企业或产品所说的话的信息，这些信息超出了在民意调查或调查中可以传递的内容。这些数据可以通过观察不同来源围绕特定主题的活动来帮助确定营销活动的目标受众。
市场分析。这包括可用于使新产品、服务和倡议的推广更加知情和创新的信息。
客户满意度及情绪分析。收集到的所有信息都可以揭示客户对公司或品牌的感觉，如果可能出现任何潜在问题，如何保持品牌忠诚度，以及如何改进客户服务工作。

分解大数据的特征

量是大数据最常被引用的特征。大数据环境不需要包含大量数据，但大多数情况下需要包含大量数据，这是因为数据被收集并存储在其中。 Clickstreams、系统日志和流处理系统是通常持续产生大量大数据的来源之一。

大数据还包括各种各样的数据类型，包括：

基于结构化查询语言(SQL)的数据库和数据仓库中的结构化数据)；
非结构化数据，例如在Hadoop集群或NoSQL数据库系统中保存的文本和文档文件；
以及语义结构数据，如web服务器日志或来自传感器的流数据。

所有不同的数据类型都可以存储在数据池中，数据池通常基于Hadoop或云对象存储服务。此外，大数据应用程序通常包括多个数据源，否则可能无法集成。例如，一个大数据分析项目可能试图通过关联过去的销售数据、返回数据和该产品的在线买家评审数据来衡量产品的成功和未来的销售。

速度是指大数据产生的速度，必须进行处理和分析。在许多情况下，大数据集是实时或近实时更新的，而不是在许多传统数据仓库中进行的每日、每周或每月更新。大数据分析应用程序摄取、关联和分析传入的数据，然后根据总体查询给出答案或结果。这意味着数据科学家和其他数据分析师必须对现有数据有详细的了解，并对他们正在寻找的答案有一定的了解，以确保他们得到的信息是有效的和最新的。

随着大数据分析扩展到机器学习和人工智能(AI)等领域，管理数据速度也很重要，在这些领域，分析过程会自动在收集到的数据中找到模式，并利用它们产生洞察力。

大数据的更多特点

从原始3V的角度来看，数据准确性是指数据集的确定性程度。从社交媒体平台和网页等多个来源收集的不确定的原始数据可能会导致严重的数据质量问题，这可能很难确定。例如，一家从数百个来源收集大数据集的公司可能能够识别不准确的数据，但其分析师需要数据谱系信息来跟踪数据存储的位置，以便他们能够纠正问题。

糟糕的数据导致不准确的分析，并可能损害业务分析的价值，因为它可能导致高管对整个数据的不信任。在大数据分析应用程序中使用之前，必须对组织中不确定数据的数量进行核算。 IT和分析团队还需要确保他们有足够的准确数据来产生有效的结果。

一些数据科学家也为大数据的特征列表增加了价值。如上所述，并非所有收集的数据都具有实际的业务价值，使用不准确的数据会削弱分析应用程序提供的洞察力。重要的是，各组织在使用大数据分析项目之前，必须采用数据清理等做法，并确认数据与相关业务问题有关。

可变性也经常适用于大数据集，这些大数据集比传统的事务数据不那么一致，可能具有多种含义，或者以不同的方式从一个数据源格式化到另一个数据源-这些因素使处理和分析数据的努力进一步复杂化。一些人将更多的特征归因于大数据；数据科学家和顾问已经创建了7到10个特征的各种列表。

大数据是如何存储和处理的

处理大数据速度的需要对底层计算基础设施提出了独特的要求。快速处理大量和多种数据所需的计算能力可能会压倒单个服务器或服务器集群。组织必须将足够的处理能力应用于大数据任务，以达到所需的速度。这可能需要数百或数千台服务器，这些服务器可以分发处理工作，并在集群架构中协作操作，通常基于Hadoop和Apache Spark等技术。

以具有成本效益的方式实现这种速度也是一项挑战。许多企业领导人不愿投资于广泛的服务器和存储基础设施，以支持大数据工作负载，特别是那些不运行24/7的工作负载。因此，公共云计算现在是承载大数据系统的主要工具。公共云提供商可以存储千兆字节的数据，并将所需的服务器数量扩大到足以完成大数据分析项目。业务只支付实际使用的存储和计算时间，云实例可以关闭，直到再次需要为止。

为了进一步提高服务水平，公有云提供商有：

阿里云
腾讯云
亚马逊EMR（以前的弹性地图减少）
微软Azure HDInsight

在云环境中，大数据可以存储如下：

Hadoop分布式文件系统(HDFS)；
低成本的云对象存储，如亚马逊简单存储服务(S3)；
没有SQL数据库；
关系数据库；

对于希望部署房地内大数据系统的组织，除了Hadoop和Spark之外，常用的Apache开源技术还包括以下内容：

YARN是Hadoop的内置资源管理器和作业调度器，它代表了另一个资源谈判者，但通常被简称为单独；
地图低代码编程框架，也是Hadoop的核心组件；
Kafka是一个应用到应用的消息传递和数据流平台；
基于数据库；
SQL-on-Hadoop查询引擎，如Drill、Hive、Impala和Presto。

大数据挑战

除了处理能力和成本问题外，设计大数据体系结构是用户面临的另一个常见挑战。大数据系统必须根据组织的特殊需要量身定做，这是一项DIY事业，需要IT团队和应用程序开发人员从所有可用的技术中拼凑出一套工具。与数据库管理员(DBA)和专注于关系软件的开发人员相比，部署和管理大数据系统也需要新的技能。

这两个问题都可以通过使用托管云服务来缓解，但IT经理需要密切关注云的使用情况，以确保成本不会失控。此外，迁移内部数据集和处理工作负载到云通常是组织的一个复杂过程。
让数据科学家和其他分析师能够访问大数据系统中的数据也是一个挑战，特别是在包括不同平台和数据存储组合的分布式环境中。为了帮助分析师找到相关数据，IT和分析团队越来越多地致力于构建包含元数据管理和数据谱系功能的数据目录。数据质量和数据治理也需要成为优先事项，以确保数据集是干净的、一致的和正确使用的。

大数据采集的做法和规定

多年来，公司对从客户那里收集的数据几乎没有限制。然而，随着大数据的收集和使用的增加，数据误用也随之增加。那些经历过个人数据处理不当或成为数据违法行为受害者的相关公民呼吁制定有关数据收集透明度和消费者数据隐私的法律。

对侵犯个人隐私的抗议导致欧洲联盟通过了《一般数据保护条例》(GDRP)，该条例于2018年5月生效；它限制了组织可以收集的数据类型，并要求个人同意或遵守收集个人数据的其他特定合法理由。 GDP R还包括一项被遗忘的权利条款，允许欧盟居民要求公司删除他们的数据。

虽然美国没有类似的联邦法律，加州消费者隐私法(CCPA)旨在让加州居民更多地控制公司收集和使用他们的个人信息。 CCPA于2018年签署成为法律，计划于2020年1月1日生效。此外，美国政府官员正在调查数据处理做法，特别是收集消费者数据并将其出售给其他未知用途的公司的数据处理做法。

大数据分析的人性化一面

最终，大数据的价值和有效性取决于负责理解数据和制定适当查询以指导大数据分析项目的工作人员。一些大数据工具满足了专门的利基，并使较少的技术用户能够在预测分析应用程序中使用日常业务数据。其他技术——比如基于Hadoop的大数据设备——帮助企业实现一个合适的计算基础设施来处理大数据项目，同时最小化对硬件和分布式软件技术的需求。

大数据可以与小数据形成对比，这是另一个不断发展的术语，通常用来描述数据的体积和格式可以很容易地用于自助服务分析。一个常用的区分方法：“大数据是机器的，小数据是人的。”