日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行业的应用。
正如云计算等等已经为我们所用多年的技术和实践名词,大数据概念如今已经越来越流行。日益增强的存储能力和日益下降的存储成本,以及不断改善的数据分析能力,共同促进了大数据在越来越多的企业和行业的应用。
科学分析员、金融分析师和制药公司利用令人难以置信的大数据集来探寻复杂的难以置信问题的答案已经很有些年头了。大数据集,尤其是结合其他相关的信息加以分析,往往能够揭示出隐藏很深的模式和关系。
于复杂之中寻简单
作为NYSE科技公司全球市场数据部的产品经理,Seth Payne一直对客户与合作伙伴们分析每天产生的海量的市场交易、报价和订单簿数据的方式感到印象深刻。
在销售方,许多年来,客户们都试图通过数据分析来探索可循的模式和关系来帮助确定投资组合经理们来建立长期的投资策略。在购买方,客户们也在开采更即时的数据,把他们视为一种新的资产。一些大学在数据发掘上也已经有十多年历史了。无论是在何种案例下用于何种用途,客户们都需要技术来处理和分析大量而“笨重”的数据。
各种各样的技术已经被采用以满足这些各种各样的需求。对于历史分析,高性能的数据仓库,如1010DATA、ParAccel、EMC等供应商都有非常不多的工具。与数据库不同,数据库都是为简单存储和检索而设计,而数据仓库则是经过优化以利于进行分析。复杂的事件处理器,如One Market Data、KDB和Sybase等都能为高频率和其他算法的交易者们提供快速强大的对横跨金融市场的各种市场活动进行分析的能力。
这些技术现在已经被部署到了其他的新行业里。如Tableau和Microstrategy等供应商所提供的商业智能工具就能对非常庞大而复杂的数据集进行处理。在较低的程度上,甚至微软的Excel都已经通过新架构的数据透视表进行重组改进后可以处理单个sheet内数十亿行的数据了。
但是,只有在分析师的方向正确,并对大数据分析的模式和关系至少有一个总体的思路的前提下,大数据才能显现出价值。
你是否需要大数据
大数据适合你的公司吗?这是每一个准备挖掘大数据价值的公司必问的第一个问题。首先从了解你有哪些可用数据集开始。例如分析20年来的股票收盘价格,那就不需要大数据系统。这种规模相对较小的数据集,使用SQL甚至更简单的Excel就可以了。
但是大型的无序的未分类的数据,如金融交易、产量记录和天气数据,就需要大数据分析来理清关系,从混乱中揭示出规律、趋势和模式,达到只有结构化系统化分析才能看到的直观结果。
作为开始,先制定一个相对简单的假设并使用大数据分析系统来进行测试。分析的结果应该能够揭示出能引出更深远更复杂问题的信息。
大数据在云中
PaaS和IaaS的迅速普及与大数据的崛起有着显而易见的关系。PaaS让公司够灵活的扩展他们所需的各种能力同时降低成本,而IaaS则让快速部署额外的计算节点成为可能。二者相结合,让企业可以几乎瞬间就获能获得强大的计算和存储能力。
例如,纽约的一家大型对冲基金就使用了计算节点和存储集群,来对全美国产权投资市场当天的交易/报价活动进行分析,他们的分析所使用的数据集通常都在压缩后10-12G,并且还在稳定增长。通过分析,市场数据经理可以精确的规划他的能力需求。在有时候数据量特别多的情况下,市场数据经理们就可以通过在集群中部署更多的虚拟机节点,就可以确保即使是无比庞大的数据量也能正常分析,而不会像常规情况下因为计算资源短缺而造成分析工作延误。
云计算的灵活性使得资源可以按照需求来进行部署,因此企业也就不必为了偶尔才需要的巨大资源需求量而浪费金钱购买硬件。
云计算并不总是适合大数据
虽然云计算给予了极大的灵活性,并降低了整体运营成本,但它并不适合所有的大数据用例。
例如,低延迟的实时数据分析,例如聚合Twitter推文,可能就需要寻找其他的方法。在处理实时数据时,云无法提供无延迟的计算性能,这也就会导致结果不能足够及时(毫秒级)。在未来几年内,虚拟化技术应该能适应这些超低延迟的使用案例的需要,但目前还没有。
云计算的巨大灵活性和超强计算资源的供应让大数据分析变得更大众化。随着技术的不断前进,许多企业要面临的问题都在于如何从大数据中获取价值,以及如何利用云计算来实现这一过程。