大数据时代简析
发布时间:2022-10-17 11:23:07 所属栏目:大数据 来源:
导读: 随着全球信息量的爆炸式增长,“大数据”成为近几年的热点研究对象,本文将 基于已有研究文献,并加之最新研究进展、应用成果,从“大数据”的概念、大数据的分析 方法、大数据已应用的成功
|
随着全球信息量的爆炸式增长,“大数据”成为近几年的热点研究对象,本文将 基于已有研究文献,并加之最新研究进展、应用成果,从“大数据”的概念、大数据的分析 方法、大数据已应用的成功案例、大数据的挑战与展望等多方面进行全面的深入探讨。 【关键词】大数据;关系数据管理技术;MapReduce 技术;HDFS; 引言1.1 大数据产生背景 在科学研究、计算机仿真、互联网应用、电子商务等诸多应用领域,数据量 正在以极快的速度增长,数据爆炸发生在可以想到的所有设备、应用程序及个体 的各个层级上。根据Gartner 公司的研究,全球信息量每年的最低增长率为59%, 其中有15%是结构化数据,其余的则由复杂的数据类型组成。最近的一份报告显 示,大数据将带动2012 年全球280 亿美元的IT 支出,到2016 年这个数字将超 过2300 亿美元,2300 亿美元几乎是葡萄牙全年的国内生产总值。并且根据预测, 数据量在未来10 年内会增长44 倍,但与此同时IT 专职人员的数量仅会增长1.4 倍。与此同时,在数据呈爆炸性增长的趋势下,IT 还不得不承受节约相关资源 及预算的重大压力。 整个网络体系架构将面临革命性改变。最早提出“大数据” 时代已经到来的机构是全球知名咨询公司麦肯锡。 大规模数据主要有以下几个主要来源 :(1)传感器数据(sensordata): 分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据。即便对这 些数据进行过滤,仅保留部分有效数据,长时间累积的数据量也是非常惊人的;(2) 网站点击流数据(click stream data):为了进行有效的市场营销和推广,用户在 网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户 存取模式进行仔细的分析,从而提供更加具有针对性的服务;(3) 移动设备数据 (mobile device data):通过移动电子设备包括移动电话和PDA、导航设备等,我 们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的 分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统;(4) 射频 ID 据(RFIDdata):RFID 可以嵌入到产品中,实现物体的跟踪。一旦RFID 得到广泛 的应用,将是大量数据的主要来源之一。 1.2 大数据概念 维基百科、数据科学家以及一些研究机构和相关厂商,均提出过大数据的概 念,虽未形成统一的定义,但是通过分析不同概念发现,它们之间都存在一个共 识,即:大数据的关键是在种类繁多数量庞大的数据中,快速获取信息。 大数据 主要有以下四个特征(4V)。 容量大(VolumeBig)。数据量已经从 TB(10 12 字节)发展至 PB 多样性(VariableType)。数据类型繁多,愈来愈多为网页、图片、 视频、图像与位置信息等半结构化和非结构化数据信息。 生成速度快(VelocityFast)。数据流往往为高速实时数据流,而 且往往需要快速、持续的实时处理;处理工具亦在快速演进,软 件工程及人工智能等均可介入。 价值高(ValueHigh)。以视频安全监控为例,连续不断的监控流中, 有重大价值者可能仅为一两秒的数据流;360 全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。 大数据分析技术随着数据生成的自动化以及数据生成速度的加快,需要处理的数据量急剧膨 胀,为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入 的分析,而不仅仅是形成报表。下面介绍三种主要的大数据分析技术关系数据管 理技术(RDBMS)、MapReduce 技术以及关系数据管理技术和MapReduce 的混合架 2.1关系数据管理技术 关系数据管理技术(并行数据库)起源于20世纪80年代,经过了将近40年的 发展,成为了一门成熟的、同时仍在不断演进的分析技术。 关系数据管理技术的 主流应用包括OLTP 应用、OLAP 应用以及数据仓库等。SQL 语言作为存取关系数 据库系统的语言得到了标准化,经过不断扩充,其功能和表达能力不断增强。其 主要采用shared-nothing结构 ,将关系表在节点间横向划分,并且利用优化器对执行过程进行调度和管理,其目标是高性能和高可用性。 2.1.1 关系数据管理技术的优势 并行数据库的最大优势在于性能 这主要得益于数据库界近几十年的研究成果——许多先进的技术手段及算法, 如索引、数据压缩、物化视图、结果缓 共享、优化的数据连接等。但是在大数据时代,如前言所述, 数据移 动的实现方式将影响其性能。 并行数据库通过SQL 向外提供数据访问服务,SQ 因其简单易用的特点而被广泛使用。因此, 大多BI 工具都支持基于标准SQL 的数据交互方式,使得关系 数据库能较好地兼容当前多数BI 工具。某些数据库, 如IBM DB2 还针对一些BI 工具进行了优化。但在大数据分析面前, SQL 接口面临巨大挑战。SQL 的优势源 于其对底层数据访问的封装, 但封装在一定程度上影响了其开放性。而且并行数 据库提供的用户自定义函数大都是基于单数据库实例设计的, 从而不能在机群 上并行执行, 也即意味着传统的实现方式不适合大数据的处理及分析。 而且, 并行数据库中实现用户自定义函数往往需要经过复杂的系统交互,甚至要熟悉 数据库的内部结构及系统调用等, 从而难以使用。 2.1.2 关系数据库的局限 关系数据管理技术在大数据时代将丧失互联网搜索这个机会,其主要原因是 关系数据管理系统的扩展性遇到了前所未有的障碍大数据时代,不能胜任大数据分析的要 求。关系数据管理模型追求的是高度的一致性和正确性,在扩展性、容错性、成 本、对异构环境的支持等几项上有所欠缺,当然其最大问题仍旧是扩展性。 面向超大数据的分析需求,纵向扩展(scale up)系统,即通过增加或者更 换CPU、内存、硬盘以及扩展单个节点的能力,终将遇到瓶颈;横向扩展(scale out)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并 行执行,才是经济的解决办法。使用大规模集群实现大数据的管理和分析,需要 应对的挑战很多,其中,系统的可用性摆到了重要的位置。 总结而言,关系数据管理技术扩展性有限 主要因为如下几点:(1)并行数据库软件级容错能力较差。并行数据库基于高端硬件设计, 并且假 设查询失败属于稀有事件。因此当查询失败时, 一般采取重做查询的方式。而在 大规模机群环境下, 查询失败将会变为一个普通事件。 极端情况下, 并行数据有 可能出现不停重做查询的局面; (2)并行数据库对异构硬件的支持非常有限, 且对于处理较慢的节点反应敏感, 容易出现“木桶效应”。完全基于同构硬件搭建大规模机群在现实中是较难实现 的。因而, 对异构硬件的支持能力影响了其扩展性; (3)并行数据库若做到大规模可扩展, 其代价将会较高( 需基于高端硬件来保 证可靠性, 需购买昂贵的软件系统) 从而限制了其扩展性;(4)根据CAP理论 在分布式系统中,数据一致性( Consistency 、子网可分解性(Netwo rk Part 不可同时兼得,选择其中任两项, 便会损害另一项。并行数据库追求的是数据一致性和系统 的可用性, 从而影响了它的扩展能力。 (5)基于并行数据库实现的传统数据仓库借助于外围工具( ET 工具、OLAP产品、BI 报表工具、统计分析软件等) 来完成数据的预处理和分析展现任务, 致其数据处理及分析过程涉及大量的数据迁移和计算,分析延迟往往较高。 2.2 MapReduce技术 MapReduce技术是Google公司于2004年首次提出,作为面向大数据分析和处 理的并行计算模型,立刻引起了工业界和学术界的广泛关注。 与传统数据仓库和 分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和 非结构化数据。数据量在TB 和PB 级别,在这个量级上,传统方法通常已经无法 处理数据。MapReduce 将分析任务分为大量的并行Map 任务和Reduce 汇总任务 两类。Map 任务运行在多个服务器上。目前部署的最大集群有4000 个服务器。 本文中主要是基于MapReduce的开源实现Hadoop为主而进行介绍。 Hadoop分布式文件系统(HDFS) 是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各 种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实 标准。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器 之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上, 是传统存储构架的一个颠覆性的发展。 2.2.1 MapReduce技术适合处理的任务 (1)复杂的数据:业务数据不能适合行列的数据库结构。数据可能来源于多种格式:多媒体数据、图像数据、文本数据、实时数据、传感器数据等等。 当有新 的数据来源时,可能会有新的数据格式的出MapReduce可以存放和分析各种原始 数据格式。 (2)超大规模数据:很多公司仅仅因为数据存放成本过高就放弃了很多有价 值的数据。新的数据来源使得问题更为严重,新的系统和用户带来比以往更多的 数据。Hadoop 的创新构架使用低成本的常规服务器储存和处理海量的数据。 (3)新的分析手段:海量复杂数据分析需要使用新的方法。新的算法包括自 然语言分析、模式识别等。只有Hadoop 的构架才能方便高效地使用新的算法来 处理和分析海量数据。 MapReduce程序的具体执行过程如下所示: 2.2.2 MapReduce技术的核心优势 (1)高度可扩展,可动态增加/削减计算节点,真正实现弹性计算;(2)高容错能力,支持任务自动迁移、重试和预测执行,不受计算节点故障 影响; (3)公平调度算法,支持优先级和任务抢占,兼顾长/短任务,有效支持交 互式任务; (4)就近调度算法,调度任务到最近的数据节点,有效降低网络带宽; (5)动态灵活的资源分配和调度,达到资源利用最大化,计算节点不会出现 闲置和过载的情况,同时支持资源配额管理; (6)经过大量实际生产环境使用和验证,最大集群规模在4000个计算节点。 MapReduce 并行计算过程 2.2.3 MapReduce应用场景 (1)视频分析和检索:使用HadoopMapReduce算法,将存放在视频图片库中 的海量数据并行分析检索,并可以将分析结果实时汇总,以提供进一步的分析及 使用。MapReduce算法使得原来需要几天的分析计算缩短到几个小时,如果需要 甚至可以通过添加服务器的方式线性增加系统的处理能力。新的算法,比如数字 城市中的车牌识别、套牌分析、车辆轨迹分析等应用,都通过MapReduce算法部 署到服务器集群中。 (2)客户流失性分析:风险分析需要在不同数据的海量数据中使用模式识别 技术寻找出具有风险倾向的个体或公司。海量数据的存储、搜索、读取和分析都 是需要高计算能力和高吞吐量的系统来实现。使用MapReduce算法可以将复杂的 计算动态地分布到服务器集群中的各台服务器上并行处理,可以通过服务器的线 性扩充轻易突破计算能力的瓶颈,解决海量数据高性能计算的问题。某运行商将 所有的通讯记录实时导入到HBase中,一方面通过HBase提供实时的通讯记录查询 功能,另一方面通过MapReduce分析用户的历史通讯录以识别出优质客户,当他 们的通讯量显著减少时,意味着这些用户可能已转移到运行商,从而可以采取特 定优惠措施留住这些用户; (3)推荐引擎:推荐引擎工具用于找出物品之间的相关性,然后推荐给用户 相似的物品,从而达到进一步吸引用户,提高用户粘性的目的。 某购物网站采用 MapReduce 分析大量用户的购买记录,计算购买记录间的相似性,从而找出商品 间的相关度。然后以商品为索引列出相关的其他商品。在用户购买了某一个商品 后,网站根据分析结果推荐给用户可能感兴趣的其他商品。由于用户的购买记录 是海量数据,要在特定时间内及时得到分析结果,必需采取MapReduce 的方法对 购买记录进行并行统计和汇总。 2.3 关系数据管理技术和MapReduce的混合架构 事实上,基于关系数据管理技术和MapReduce实现的数据仓库系统都不是大 数据分析的理想方案。目前大量研究已着手将两者结合起来,期望设计出兼具两 者优点的数据分析平台——关系数据管理技术和MapReduce的混合架构 构又可分为三类:并行数据库主导型、MapReduce主导型、MapReduce 和并行数 据库集成型( 下表对3 种架构进行了对比分析) 大数据应用成功案例3.1 大数据带来的价值 (1)利用大数据特征,借助云计算等有效工具,深度挖掘流量与数据价值,可 帮助运营商实施好流量经营,减轻管道化风险,发扬“云-管-端”的智能管道 的威力。 (2)多业务环境下掌握用户体验效果尤为重要,可从海量用户数据中深度分析、 挖掘出用户的行为习惯和消费爱好,以实施精准营销及网络优化,掌控数据增值 的“金钥匙”。 (3)掌握好大数据的存储、分类、挖掘、快速调用和决策支撑,并应用于企业 的日常运营、维护及战略转型中,成为企业可持续发展、维持竞争优势的当务之 急与重要途径。 (4)充分利用对大数据的分析、挖掘,可帮助找到隐蔽性极强的APT之类的安 全威胁,助力信息安全部门找到应对新型安全威胁的有效途径。 (5)通过对公共大数据的分析、挖掘与利用,可减少欺诈行为及错误数据的负 面作用、追收逃税漏税及刺激公共机构生产力等,帮助政府节省开支。例如英国 政府即通过此途径节省大约330亿英镑/年。 3.2 成功案例 大数据是当今IT行业最火爆的词汇,管理学界和财经媒体也对其推崇备至, 认为大数据是信息技术改变商业世界的杀手应用,但是关于大数据成功案例的报 道却出奇地少,以下是遴选出来的四个成功挖掘大数据商业价值,提升生产力, 获得高ROI回报的企业案例 3.2.1TXU Energy——智能电表 有了智能电表,供电公司能每隔15分钟就读一次用电数据,而不是过去的一 月一次。这不仅仅节省了抄表的人工费用,而且由于能高频率快速采集分析用电 数据(产生大数据),供电公司能根据用电高峰和低谷时段制定不同的电价,TXU Energy就利用这种价格杠杆来平抑用电高峰和低谷的波动幅度。 例如,TXU Energy打出了这样的宣传口号:亲,晚上再洗衣服洗碗吧,晚上用电不要钱。实 际上,智能电表和大数据应用让分时动态定价成为可能,而且这对于TXU Energy 和用户来说是一个双赢变化。 3.2.2 T-Mobile 移动运营商T-Mobile在多个IT系统中整合了大数据应用,对客户交易和互动 数据进行综合分析,更准确地预测客户流失率。通过将社交媒体数据和CRM和计 费系统中的交易数据进行综合分析,T-mobile在一个季度内将客户流失率降低了 一半! 3.2.3 US Xpress US Xpress部署了一系列的运输大数据应用,采集上千种数据类型,从油耗、 胎压、卡车引擎运行状况到GPS信息等,US Xpress甚至从司机们抱怨该系统的博 客中收集数据,并通过分析这些数据来优化车队管理、提高生产力、降低油耗, 每年节省了数百万美元的运营成本。 3.2.4 Mclaren’s F1 racing team(麦克拉伦一级方程式车队) 麦克拉伦车队通过汽车传感器在赛前的场地测试中实时采集数据,结合历史 数据,通过预测型分析发现赛车问题,并预先采取正确的赛车调校措施,降低事 故几率并提高比赛胜率。 大数据面临的挑战(1)运营商带宽能力与对数据洪流的适应能力面临前所未有的挑战,管道化压 力化解及“云-管-端”的有效装备也均面临新挑战 (2)大数据的“四V”特征在数据存储、传输、分析、处理等方面均带来本质变化。数据量的快速增长,对存储技术提出了挑战;同时,需要高速信息传输能力 支持,与低密度有价值数据的快速分析、处理能力。 (3)海量数据洪流中,在线对话与在线交易活动日益增加,其安全威胁更为严 峻;而且现今黑客的组织能力、作案工具、作案手法及隐蔽程度更上一层楼,典 型的有APT(Advanced Persistent Threat,高级持续性安全威胁)。 (4)大数据环境下通过对用户数据的深度分析,很容易了解用户行为和喜好, 乃至企业用户的商业机密,对个人隐私问题必须引起充分重视。 (5)大数据时代的基本特征,决定其在技术与商业模式上有巨大的创新空间, 这将对可持续发展起关键作用。 (6)大数据时代的基本特征及安全挑战,对政府制订规则与监管部门发挥作用 提出了新的挑战。 大数据研究展望综合已有研究可以总结知,目前还有如下几个研究方向比较重要,且其研究 还较少涉及: (1)多维数据的预计算 。 MapReduce更多针对的是一次性分析操作. 大数 据上的分析操作虽然难以预测, 但传统的分析, 如基于报表和多维数据的分析 仍占多数。因此, MapReduce 平台也可以利用预计算等手段加快数据分析的速 度。基于存储空间的考虑( 可以想象, 在爆炸数据之上计算数据立方体需要付出 昂贵的存储空间代价) MOLAP是不可取的, 混合式OLAP( HOLAP) 应该是 MapReduce平台的优选OLAP 实现方案。具体研究如: 基于MapReduce框架的 高效Cube 计算算法; 物化视图的选择问题,即物化哪些数据; 不同分析操作的物化手段( 比如预测分析操作的物化) 及如何基于物化的数据进行复杂 分析操作( 如数据访问路径的选择问题) (2)各种分析操作的并行化实现。大数据分析需要高效的复杂统计分析功能的支持。IBM 将开源统计分析软件R 集成进Hado op 平台[ 42] 增强了Hadoop 统计分析功能。但更具挑战性的问题是,如何基于MapReduce框架设计可并行化 的、高效的分析算法. 尤其需要强调的是, 鉴于移动数据的巨大代价, 这些算法 应基于移动计算的方式来实现。 (3)查询共享。MapReduce 采用步步物化的处理方式, 导致其I/ 代价及网络传输代价较高。一种有效的降低该代价的方式是在多个查询间共享物化的中间结 甚至原始数据,以分摊代价并避免重复计算。因此如何在多查询间共享中间 结果将是一项非常有实际应用价值的研究。 (4)用户接口。如何较好地实现数据分析的展示和操作, 尤其是复杂分析操作 的直观展示。 (5)Hado op 可靠性研究。当前Hadoo 采用主从结构,由此决定了主节点一 旦失效, 将会出现整个系统失效的局面。因此, 如何在不影响Hadoop 现有实现 的前提下, 提高主节点的可靠性, 将是一项切实的研究。 (6)数据压缩。MapReduce 的执行模型决定了其性能取决于I/ 和网络传输代价。并行数据库和MapReduce 基于压缩数据的性能时,压缩技术并没有改善Hado op 的性能。但实际情况是, 压缩不仅可以节省空间, 节省I/ 可以利用当前CPU的多核并行计算能力, 平衡I/ 和CPU的处理能力, 从而提 高性能。比如并行数据库利用数据压缩后, 性能往往可以大幅提升。此后, 究成功地利用压缩技术提升了Hadoop的性能。 但这些研究都基于各自的存储模 而非Hadoop的默认存储模式( 行存模型) 。因此, MapReduce 上的压缩是 一个尚待研究的重要问题。 (7)多维索引研究。如何基于MapReduce 框架实现多维索引, 加快多维数据的 检索速度。 总结随着全球数据爆炸式的增长,大数据时代已经来临,本文从大数据的产生背 景、来源引出大数据的重要性与必然性,面对庞大的数据量,要想从中获得有用 信息并加以有效分析与处理,这对目前的技术与工具都提出了很大的挑战。面对 大数据深度分析的挑战,传统的关系数据管理技术(并行数据库)在扩展性方面 遇到了巨大的障碍,无法胜任大数据分析的任务,而以MapReduce为代表的非关 系数据管理和分析技术以其良好的扩展性、容错性和大规模并行处理的优势而在 数据分析的诸多领域和关系数据管理技术展开了竞争,并且随着技术的进步与大 数据分析的要求,出现了并行数据库与MapReduce混合架构以期更好的实现大数 据的分析处理。 由此,大数据的商业价值日渐突出,备受关注,且在不少行业都在发挥着其 巨大的影响。但是,在大数据面前,仍旧有着很长的路要走,迫使我们要不断发 现存在的缺陷并加以解决,从而更好的让大数据为社会服务。 (编辑:草根网_安阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330473号