数字有机体大数据处理平台

海量存储、秒级处理速度

系统简介

按照教科书式的解释，大数据（Big Data）具有四个特性，即体量大、价值密度低、数据类型多样和处理速度要求高。这四个特性的综合影响对数据的输入、存储、传输和处理带来以下难题：

1）数据不再是集中产生和输入，而是由分散的主机并行的产生和输入系统。这就要求系统具有分布式并行输入输出能力。

2）不仅要海量存储，还需要充足的并行读取带宽。现在的SAN系统已经可以提供上P级的存储容量，但是要提供满足P级数据并行处理的读取带宽则是困难的事情。

3）数据和处理融合的难题。如果数据处理和数据存储分离，则处理时必然需要大量传输数据，显然现有的网络无法提供大数据处理需要的充足带宽。因此，必须让数据存储和处理紧密的结合在一起。

4）数据的多样性要求系统具有灵活的数据处理方式。单纯的关系数据库、NoSQL数据库、并行计算环境或者文件大数据分析环境无法满足数据多样性的需求。

5）秒级的数据处理速度。过长的数据处理延迟使得大数据分析的价值降低。

显然这些难题已经超出了传统系统的处理能力，增对这些问题，数字有机体系统按照数据组织的两种方式，即文件和数据库，分别给出解决方案。基于文件的大数据解决方案针对非结构化数据，基于数据库的解决方案针对结构化数据。而且两者可以集成使用，共同应对各种应用问题。

主要功能

1）基于文件的非结构化数据处理

该方案由数字有机体文件系统和数字有机体远程过程调用（DOSRPC）实现。数字有机体文件系统具有以下功能和特性：

系统由大量分散分布的，用高速网络互连的节点构成。每个节点既是计算设备也是存储设备。
整合分布在系统中的各节点上的存储设备，形成统一的存储池，满足大数据处理海量存储的需求。
为各计算设备提供传统文件系统的共享文件服务，简化共享数据访问的复杂度。
提供高扩展性，系统可根据规模扩展，存储容量不存在瓶颈问题。
提供分布式并行输入输出，系统的每个节点都可作为文件系统入口读写文件，存取数据，不存在输入输出瓶颈。
具有文件分块存储功能，支持超大文件的存储，单个文件大小不受单一存储设备容量的限制。
具有多副本存储功能，副本数量和位置可控。
自动处理节点故障，包括自动增减副本，调整副本位置，以及屏蔽故障节点等。
无需共享存储设备。

DOSRPC具有以下优势和特点：

自动按照文件以及文件分块的情况分解任务并智能调度任务。
利用远程过程调用机制，将计算任务转移到存储节点上执行，避免大数据传输问题，提升数据处理效率。
在系统所有节点上协同执行任务，缩短任务执行时间。
智能地处理系统各种故障，使数据处理能够继续完成。
支持多RPC联合执行（即一个RPC处理的结果以文件的形式传递给下一个RPC，多个RPC间是流水线关系），以并行流水线的形式提升处理效率。
提供检查点机制，通过保存的检查点文件可以恢复DOSRPC调用的执行，应对调用发起节点故障的情况。
以成熟的远程过程调用（RPC）编程模型为接口，易于掌握。
具有程序生成器和任务执行监视器等，易于使用。
支持多个DOSRPC调用并行执行。

2）基于数据库的结构化数据处理

数字有机体工作库提供结构化数据的大数据处理支持。它在数据库管理系统内部内置大数据查询引擎，不仅支持单表查询的分布式并行执行，还支持多表连接查询的分布式并行执行。数字有机体工作库在大数据方面的功能和特性如下：

支持数据表水平分片。
无需共享的存储设备。
数据表分片可分布在大量节点上，支持逻辑表的海量数据存储。
数据表分片本身支持多副本复制，副本数量和位置可控。
系统自动根据查询语句和表分片情况分解执行任务，将任务并行地在分片存储节点上执行。
不仅支持单表查询的分布式并行执行，也支持多表连接查询的分布式并行执行。
系统自动处理和屏蔽故障节点，使查询在有节点故障时仍然可以继续执行。
系统的每个节点都是访问入口，都可进行所有数据操作，支持分布式并行输入输出，没有入口瓶颈。
每个数据表分片都可独立直接的访问，从而提升数据写入性能。
支持多个用户并行执行查询。
具有良好的扩展性，可通过重新分片扩展分片数量，通过增加服务器可以分散副本的存储，以便支持更多用户的并行操作。

应用领域

在许多实际应用中，同时存在着非结构化数据和结构化数据的处理需求。单纯针对某类数据的解决方案并不能很好的满足需求。例如，Hadoop系统对非结构化数据能够有效的处理，但是对海量结构化数据则难以处理。当其应用到舆情分析系统时，难以利用预先抽取结构化数据的方式加快分析速度。预先抽取的结构化数据只能保存在另外的关系数据库中。如果不预先抽取结构化数据，则每次都盲目的对原始的非结构化数据进行分析，不仅系统开销大，而且分析处理的响应时间长，无法满足应用需求。但是，当预先抽取的结构化数据的数据量很大时，普通的关系数据库又难以满足查询速度需求。因此，必须将结构化数据和非结构数据的大数据处理整合在一起。

因此，数字有机体大数据处理平台可以适用于各种类型的大数据处理环境，满足各种应用的需求。