海量结构化数据和非结构化数据的存储、管理和处理是“大数据”时代核心问题之一。能否解决这个问题直接关系到“大数据”系统的成败。数字有机体大规模存储及管理系统使这个问题的解决变得简单。
数字有机体大规模存储及管理系统整合文件系统和数据库系统的功能,向用户提供统一的数据存储、查询、处理和管理接口;整合广域网络上的各种存储资源,向用户提供统一的数据存储服务;整合分散存储在广域网上的大量数据和文件,向用户提供虚拟的、简单的本地化接口。通过这些手段,数字有机体大规模存储及管理系统使得海量结构化数据和非结构化数据的存储、管理和处理变得很简单。
数字有机体大规模存储及管理系统是面向全球的数据系统,它力求聚合分布在全球的大量服务器、存储设备、网络等的力量,解决各种海量数据的存储、管理和处理问题。
数字有机体大规模存储及管理系统的功能结构如图1所示,其主要功能是:
- 海量存储设备组织与管理
组织和管理分布在网络上的海量存储资源,提供存储空间分配与回收、用户配额管理等功能。
- 统一数据访问接口
向用户提供本地化的、透明的统一数据访问接口,使用户可以像访问本地数据一样访问结构化和非结构化数据。
- 分布式事务处理
提供结构化数据处理的分布式事务支持,使结构化数据处理更加简单。
- 分布式查询优化
实现高效的分布式查询优化,提升查询效率。
- 数据可分块存储
把大数据文件分割成若干小文件,实现文件的并行IO。
- 智能数据复制和迁移
实现智能数据复制和迁移,提升数据读取效率,提高数据可用性。
- 大规模并行数据处理支持
提供数字有机体远程调用开发库,实现类似Map/Reduce的大规模并行数据处理支持。
数字有机体大规模存储及管理系统可以用于各种需要海量数据存储和处理的应用场景。例如互联网媒体服务、大规模视频监控、大数据分析系统等。