我们要用100%的精力来解决1%的问题

数字有机体大数据处理平台

海量存储、秒级处理速度

系统简介

按照教科书式的解释,大数据(Big Data)具有四个特性,即体量大、价值密度低、数据类型多样和处理速度要求高。 这四个特性的综合影响对数据的输入、存储、传输和处理带来以下难题:

1)数据不再是集中产生和输入,而是由分散的主机并行的产生和输入系统。这就要求系统具有分布式并行输入输出能力。

2)不仅要海量存储,还需要充足的并行读取带宽。现在的SAN系统已经可以提供上P级的存储容量, 但是要提供满足P级数据并行处理的读取带宽则是困难的事情。

3)数据和处理融合的难题。如果数据处理和数据存储分离,则处理时必然需要大 量传输数据,显然现有的网络无法提供大数据处理需要的充足带宽。因此,必须让数据存储和处理紧密的结合在一起。

4)数据的多样性要求系统具有灵活的数据处理方式。单纯的关系数据库、NoSQL数据库、并行计算环境或者文件大数据分析环境无法满足数据多样性的需求。

5)秒级的数据处理速度。过长的数据处理延迟使得大数据分析的价值降低。

显然这些难题已经超出了传统系统的处理能力,增对这些问题,数字有机体系统按照数据组织的两种方式,即文件和数据库, 分别给出解决方案。基于文件的大数据解决方案针对非结构化数据, 基于数据库的解决方案针对结构化数据。而且两者可以集成使用,共同应对各种应用问题。

主要功能

1)基于文件的非结构化数据处理

该方案由数字有机体文件系统和数字有机体远程过程调用(DOSRPC)实现。数字有机体文件系统具有以下功能和特性:

  • 系统由大量分散分布的,用高速网络互连的节点构成。每个节点既是计算设备也是存储设备。
  • 整合分布在系统中的各节点上的存储设备,形成统一的存储池,满足大数据处理海量存储的需求。
  • 为各计算设备提供传统文件系统的共享文件服务,简化共享数据访问的复杂度。
  • 提供高扩展性,系统可根据规模扩展,存储容量不存在瓶颈问题。
  • 提供分布式并行输入输出,系统的每个节点都可作为文件系统入口读写文件,存取数据,不存在输入输出瓶颈。
  • 具有文件分块存储功能,支持超大文件的存储,单个文件大小不受单一存储设备容量的限制。
  • 具有多副本存储功能,副本数量和位置可控。
  • 自动处理节点故障,包括自动增减副本,调整副本位置,以及屏蔽故障节点等。
  • 无需共享存储设备。

DOSRPC具有以下优势和特点:

  • 自动按照文件以及文件分块的情况分解任务并智能调度任务。
  • 利用远程过程调用机制,将计算任务转移到存储节点上执行,避免大数据传输问题,提升数据处理效率。
  • 在系统所有节点上协同执行任务,缩短任务执行时间。
  • 智能地处理系统各种故障,使数据处理能够继续完成。
  • 支持多RPC联合执行(即一个RPC处理的结果以文件的形式传递给下一个RPC,多个RPC间是流水线关系),以并行流水线的形式提升处理效率。
  • 提供检查点机制,通过保存的检查点文件可以恢复DOSRPC调用的执行,应对调用发起节点故障的情况。
  • 以成熟的远程过程调用(RPC)编程模型为接口,易于掌握。
  • 具有程序生成器和任务执行监视器等,易于使用。
  • 支持多个DOSRPC调用并行执行。

2)基于数据库的结构化数据处理

数字有机体工作库提供结构化数据的大数据处理支持。它在数据库管理系统内部内置大数据查询引擎,不仅支持单表查询的分布式并行执行,还支持多表连接查询的分布式并行执行。数字有机体工作库在大数据方面的功能和特性如下:

  • 支持数据表水平分片。
  • 无需共享的存储设备。
  • 数据表分片可分布在大量节点上,支持逻辑表的海量数据存储。
  • 数据表分片本身支持多副本复制,副本数量和位置可控。
  • 系统自动根据查询语句和表分片情况分解执行任务,将任务并行地在分片存储节点上执行。
  • 不仅支持单表查询的分布式并行执行,也支持多表连接查询的分布式并行执行。
  • 系统自动处理和屏蔽故障节点,使查询在有节点故障时仍然可以继续执行。
  • 系统的每个节点都是访问入口,都可进行所有数据操作,支持分布式并行输入输出,没有入口瓶颈。
  • 每个数据表分片都可独立直接的访问,从而提升数据写入性能。
  • 支持多个用户并行执行查询。
  • 具有良好的扩展性,可通过重新分片扩展分片数量,通过增加服务器可以分散副本的存储,以便支持更多用户的并行操作。

应用领域

在许多实际应用中,同时存在着非结构化数据和结构化数据的处理需求。单纯针对某类数据的解决方案并不能很好的满足需求。例如,Hadoop系统对非结构化数据能够有效的处理,但是对海量结构化数据则难以处理。当其应用到舆情分析系统时,难以利用预先抽取结构化数据的方式加快分析速度。预先抽取的结构化数据只能保存在另外的关系数据库中。如果不预先抽取结构化数据,则每次都盲目的对原始的非结构化数据进行分析,不仅系统开销大,而且分析处理的响应时间长,无法满足应用需求。但是,当预先抽取的结构化数据的数据量很大时,普通的关系数据库又难以满足查询速度需求。因此,必须将结构化数据和非结构数据的大数据处理整合在一起。


因此,数字有机体大数据处理平台可以适用于各种类型的大数据处理环境,满足各种应用的需求。