大数据,这项具有解决庞大复杂任务能力的新技术,被喻为创新、竞争和生产力的新前沿。在此前的一次国际电信联盟(简称国际电联)大会上,各方认为大数据通过比其他来源的数据更低的成本提供实时信息,在促进发展方面具有巨大潜力。
大数据前景可期
几乎与数据或商业信息相关的任何事物都可以被称为“大数据”,大数据的流行似乎与云计算带来的热潮相契合。其中现有产品被重新命名为“具备云功能的”,整个组织可以在一夜间转移到“云”。
大数据的能力也使得来自物理、计算机科学、基因组学和经济学等不同领域的研究人员兴奋不已。这种新的分析能力可望在较短的时间和空间内分析更多的数据,令相关方在横跨金融、卫生和研究的各个领域作出更好更快的决策。
2013年年初震撼了欧洲几个国家的一件食品丑闻证明了大数据在解决危机方面的能力。该丑闻涉及欺诈、错误标签和不符合标准的供应链管理的网络等环节。这不是第一起食品丑闻而且肯定不会是最后一起。对于有成千上万条分支和数百个供应商的全球餐饮连锁企业来说,监控每种成分的来源和质量几乎是不可能的。然而,现在数据可用性和先进的实时分析提供了尽早发现(或者更好地是阻止)违规现象的一种方式。通过数据分析,揭露了导致丑闻的事件并加以解决。这一事件凸显了对于多方、多层面、国际系统数据管理的前景和挑战。
全球每天都会累积数十亿条独立数据,其来源包括供应商数据、交货单、餐厅地点、雇佣记录、 DNA记录、来自国际刑警组织的国际罪犯数据库中的数据,还有如位置登记之类的客户投诉和用户生成内容,以及社交媒体网站上的短信、照片和视频。从这些海量异构数据中提炼出真知灼见需要确定相关的数据项,发现它们之间的模式,以得出准确的、全面的和可操作的结论。
大数据的四大特点
虽然没有确切的定义,但目前有四个共同特点有助于描述大数据——数据量、速度、多样性和准确性。
数据量可能是大数据分析最引人注目的亮点。例如在医疗卫生领域,基于大量人口范围对治疗的有效性进行评估所产生的结果要远比在100例患者的数据集上所做的同样分析更为可靠。虽然形容词“大”并没有量化,但据估计,在当今世界中90%的数据是在过去的两年中创建的,机器和人类都为数据增长作出了贡献。
决策的速度——从数据输入到决策输出所花的时间是一个关键因素。新的技术能够实时或近实时地处理庞大的数据量。这提高了组织应对市场变化、客户喜好改变或欺诈行为迹象的灵活性。速度和紧密的信息反馈途径是一些行业获得竞争优势的关键部分,对于金融业务市场中的高频交易者尤为如此。
多样性是大数据的杂乱的现实。文字、传感器数据、通话记录、地图、音频、图像、视频、点击流、日志文件和其他各种信息需要时间和精力整理成适合的形式来处理与分析。系统分析多种来源数据的能力是至关重要的,因为这样可以产生靠单独分析一种类型的数据所无法获取的深层次信息。
评估数据的准确性的能力对于为重要决策构建基础是必不可少的。大数据集反映了数据项中不一致、不完整、不明确和延迟等不确定性。这种变化的不确定性水平必须被纳入决策过程中。因此,一个系统需要能力来区分、评价、权衡或排列不同的数据集以保持准确性。
行业应用初露锋芒
在医疗行业中,数据是记录个别病人病情和所给予的治疗的关键。随着医学影像存档以每年20%至40%的幅度增加,到2015年,预计平均每家医院每年将产生665TB的医疗数据。医疗领域大数据分析的应用在多个方面有着众多的用途,无论是在研究还是实践方面。例如,服务于慢性病患者的远程病人监护系统可以减少预约医生、到急诊处就诊和住院时间,提高护理目标,并防止一些长期并发症。
对病人特点、治疗结果和费用的大型数据集进行分析,可以帮助确定最有效的临床及具成本效益的治疗应用。此外,分析全球疾病模式,以在早期阶段确定病情发展趋势不仅是公共健康危机管理的一项关键任务,同时也能使制药和医疗部门对其产品的未来需求进行建模,作为决定研发投资的基础。
大数据的一个突出例子是为解决宇宙奥秘所做的工作。距国际电联总部仅几分钟车程,欧洲核子研究组织(CERN)是世界上目前已知的最大型的实验基地。五十多年以来,CERN一直在处理其研究基本粒子和它们相互作用力的实验所产生不断增长的数据流。在大型强子对撞机(LHC)方面,为满足储存、分发和分析每年产生的高达30 PB数据的需要,2002年全球LHC计算网格诞生,提供全球计算机中心分布式网络。很多CERN的数据是非结构化的,只表示已经发生了某些情况。世界各地的科学家正在合作构建、重建和分析发生了何种情况及其原因。
手机会留下可被用于交通建模的痕迹,这在缺乏其他与运输有关的数据时特别有用。例如,为了支持交通规划以减少科特迪瓦阿比让的交通拥堵,电信供应商Orange提供了含有25亿条在5个月时间内5亿用户之间的本地通话和短信交换记录的匿名数据集。同样,韩国电信帮助首尔确定最佳的夜间巴士路线。其结果是,七个夜间巴士路线已被添加到这个城市原先的计划中。
在更大的地理范围内,手机数据有助于人员流动模式分析,这对于危机管理具有重要价值。
在电信领域,网络分析功能帮助运营商优化他们的路由网络设施,在其造成任何损害之前预测故障和瓶颈。综合的实时网络深层信息和完整的客户档案可以带来增值,实现量身定制的服务,增加收入机会,同时吸引并留住客户。网络分析还是检测并减轻拒绝服务攻击的重要手段。
政策制定者应考虑隐私和安全
数据保护的两个基本原则是数据避免和数据最小化,这与大数据在促进跟踪人员移动、行为和偏好,以及以前所未有的精度预测个人行为(往往未经个人同意)方面的能力形成鲜明对立。举例来说,电子健康记录和实时自动定量(人佩戴传感器用来监测)可能是实现处方药物或饮食和健身计划流程化的重要步骤。但是,许多消费者认为这些数据是非常敏感的。
大量的手机通话记录,即使是经过匿名化,剥离了所有个人信息,仍能用来创建用户指纹,这与地理定位或登录等其他数据结合,可能会暴露个人的身份。
随着个人数据和全球数字信息量的增长,访问和使用这些信息的实体数量也在增长。必须保证个人数据的正当使用,包括符合既定的用途并遵守相关法律。
网络安全是一个密切相关的问题。需要重新评估大数据的威胁和风险,采取相应的技术解决方案。现在审查信息安全政策、隐私导则和数据保护行动的时机已经成熟。
新数据的重要来源,如来自移动蜂窝网络,尤其是来自社交网络服务,能够补充官方统计数据。然而,世界电信/ ICT指标研讨会(WTIS)指出了一些有关使用大数据的机密性和隐私问题。WTIS鼓励监管机构研究制定大数据如何产生、利用和储存的导则。国家统计局与其他相关机构合作,应该审视大数据所带来的机会,同时在官方统计基本原则框架内应对大数据在质量、准确性和隐私方面目前面临的挑战。
标准体系日渐成熟
实现业界和消费者提出的大数据目标需要多个系统与技术的相互协作。
标准界已经推出了几项大数据举措和工作组。2012年,云安全联盟建立了大数据工作组,其目的是为以数据为中心的安全和隐私问题确定可规模化的技术。该工作组的调查预计将明确大数据安全性和保密性的最佳做法,同时也为行业和政府采用这些最佳做法提供指导。
2012年6月,美国国家标准和技术研究院(NIST)举办研讨会,启动了其大数据活动,并于2013年推出了一个公共工作组。NIST的工作组计划通过在大数据分析技术和技术基础设施的定义、分类、安全参考架构和技术路线图方面达成共识,来支持大数据的安全和有效利用。ISO/IEC JTC1的数据管理和交换标准委员会(SC32)发起了对下一代分析和大数据的研究工作。万维网联盟(W3C)已针对大数据的不同方面成立了若干社群团体。
国际电联电信标准化部门(ITU-T)目前正在研究独立基础设施要求,其现有工作领域包括光传输和接入网络、未来的网络功能(如软件定义网络)、多媒体和安全等。ITU-T正在从需求和功能方面研究云计算与大数据之间的关系。ITU-T X.1600建议书《云计算安全架构》针对安全威胁提出相应解决技术,以及所描述的威胁解决技术的未来标准化,这些标准化预计将与大数据使用情况相结合。此前的一篇技术跟踪系列报告中主张使用隐私增强技术,作为实施“通过设计来保护隐私”原则的一种手段,这对于大数据应用当然是非常关键的。
国际电联已经加快其在提高电子医疗应用互操作性方面的工作,如健康数据的交换和个人健康系统的设计等领域。考虑到个人和可佩戴的“医疗连接”和健康产品的蓬勃发展,标准化可以使智能腕带与不同厂家的智能手表之间安全地交换数据(不受供应商或制造商的限制)。大数据分析将能够整合从不同设备采集的数据流,并准确得出结论以采取对健康有利的行动。
ITU-T H.265建议书使其效能加倍,有望成为网络上领先的视频编解码器。考虑到多媒体在上网总流量中所占的显著份额,数字图像、音频和视频数据将是大数据所密切关注的领域。
开放数据运动正在新兴经济体以及高度工业化国家走向成熟。对于所面临的一系列的互操作性和政策挑战,现在应该是国际电联与其成员内外众多开放数据领域的领先者共同合作,迎接并推动开放数据进程的机遇。从标准的角度看,这可能包括制定数据报告要求,以及公布、传播和透露数据集的机制。
(本文摘自国际电联电信标准化局的Martin·Adolph撰写的技术跟踪报告《大数据:今日的大问题,明日的平常事》)