Hadoop和大数据存储:克服科学项目的挑战

04.06.2015  12:30
    安德鲁?沃菲尔德是乔霍数据公司的首席技术官,也是英属哥伦比亚大学计算机科学副教授。以下是安德鲁对大数据存储持有的一些观点和看法。

  大约两年前,安德开始与世界500强企业的技术人员一起探讨如何使用ApacheHadoop和Spark的工具来处理各组织机构的大数据。安德专门拜访了一些大企业,因为他相信这些企业拥有庞大的部署措施,精密的分析应用程序,以及处理规模巨大的数据具有优势的团队。

  作为企业基础设施启动的首席技术官,他想了解这些大规模的大数据部署项目与现有的企业IT整合的情况,特别是从存储的角度,并准备感受其痛点所在。

  经过调查发现,大型的安装项目很少,这令人感到奇怪。具有数千个计算节点的项目只有两个案例,另外,安德鲁发现大多数的大型组织机构使用大数据的工具有一些类似的特性:

  许多小型大数据集群
  
  当问到大数据的拥有者,比如说上传了一个人员名单,其中的每个人的名字在集群列表中历经了8~12个节点。那些企业所有者和首席信息官们对此称之为“分析蔓延”。他们意识到,这些小型的大数据集群的蔓延其实是他们公司内部传播速度加快了。

  非标准安装,即使标准公布
  
  那些知名的大数据工具产品,特别是Cloudera公司和Hortonworks公司的产品,都广泛部署在这些小集群中,因为这些工具做了伟大的工作,将一系列分析工具结合到一个单一的记录和管理环境中。有趣的是,这些工具通常作为一个基准,而其他的工具都是手工安装的。例如,通过自定义的ETL(提取,转换,加载)从现有的企业数据源取出数据,这是很常见的。因此又添加了一些新的分析引擎(H2O,Naiad,以及几个图形分析工具),不包括一些标准的工具。而围绕大数据的软件生态系统变化得如此之快,开发商都在积极尝试新事物,并扩展延伸其他的工具,而这些工具难以形成一个单一的中央集群来部署和维护。

  效率低下和重新改造
  
  无论是大型项目还是小型项目,其分析环境通常从采用自己的机架和交换机的传统IT中分离出来,并被部署成为一个完全独立的孤岛。从企业存储中批量复制出来的数据进入HDFS中运行处理,然后其结果从HDFS拷贝回到企业存储中。而独立的计算基础设施正在部署运行分析工作,这样浪费了效率,并使得投资运营成本翻倍增长。最后,在业务连续性还会有一些问题例,如集群的可用性和数据的保护,比如安装在多个物理站点中的物理重复簇中会执行完全相同的计算。

  建立大数据的方法不止一个
  
  安德鲁指出,有些事情不一定是错误的,这一点很重要:企业在探索大数据工具的早期阶段,这样的事情发生是有道理的。然而,由于这些工具开始开花结果,成为业务逻辑的关键部分,其业务需求变化快。,安德鲁与分析集群的业主以及传统业主有过很多对话,他们对于大数据的状态,通常描述其为“一个科学项目”;这的确是一种表征分离集群部署专案的一种方式,并一定是消极的。

  由于这一切的结果,如今企业IT团队面临的最重大的挑战之一是如何有效地支持这些“科学”的大数据工具,同时还要具备传统基础设施服务(通常是更好的理解)的自信和成熟。大数据产品除了要高效和负担得起以外,还要成为一个可靠和可重复的产品。如今,IT组织通过大数据工具进行存储、虚拟主机、数据库,以及提供相关基础设施服务。

  从科学项目到数据科学产品
  
  那么人们该怎么做?有一点要明确的是,这不是简单地选择适当的大数据分配的问题。大数据软件堆栈和动手开发实践的自然流动性不会很快改变。

  大数据科学项目如何转化成可行有效的解决方案,供应商会从企业部署这些解决方案中得到更多的反思。这种供应商提供基础设施解决方案的转化正在发生,并且相当迅速的,可以弥补网络规模的方法和传统数据中心架构之间的差距。

  安德鲁表示,让不同规模的公司进一步利用大数据来拓展业务,并且更好地了解和服务客户,他渴望看到这些变化。 来源: