海量数据高效检索解决方案

1. 背景

随着大数据的迅猛发展,数据资源以海量、多样的形式迎面扑来,企业越来越认识到大数据的重要性,开始对公司的数据资源进行整合、利用。但由于企业对于这些资源的IT系统建设多样,导致所产生的数据格式不一,规模巨大,存储方式各异,所以如何将价值数据从多样的存储数据库中检索出来,统计分析出有价值、有意义的信息和规律成为问题关键,而对于大多数企业来说,其对于大数据的检索效率达不到大数据的发展要求,甚至是企业需求,对大数据高效检索有待解决。

2. 面临问题

目前企业在大数据的检索方面主要面临如下问题:

信息孤岛

一堆堆大数据仅能为企业提供基本需求,不能与产业互联网的业务逻辑和商业逻辑高效结合,成为无法流动的一个个信息孤岛。

检索统一化精准度低、反馈速度慢

由于数据的海量及多源异构问题,传统的关系型数据库查询引擎和文件系统无法直接完成对数据资源的高精度、统一检索,对于检索的反馈速度较慢,实时性较差。

多种数据源并行检索效率低

目前,数据资源的存储系统种类较多,一个企业可能涉及到多类型的数据库的管理,而对于这些多样式的数据源进行并行检索,难度系数较大,较难做到高效、并行检索。

在线扩展性能低

目前对大数据的检索,很难满足系统的硬件等资源的在线扩展,对于完成整个系统性能的提升具有一定难度。

3. 解决方案

赛思针对目前大数据行业的检索问题,设计了赛思一体化检索引擎。该引擎基于MPP架构的数据查询,采用赛思iDriller海量文件实时处理系统的核心技术,后端支持与各种数据源的对接,具备对大规模数据的高效率检索功能,前端通过标准结构与协议支撑各种业务应用。引擎主要设计查询规划、缓存、引擎调度及元数据调度四个功能模块,支持快速、高并发式的、交互式SQL查询分析;兼容Hadoop存储平台,提供标准的SQL 、ODBC接口和JDBC接口,可与多种类型数据源进行对接;支持在线性能扩展。赛思一体化检索引擎方案的逻辑架构图,如下图所示:

赛思一体化检索引擎系统,包括4个主要模块:

查询规划模块

主要接收前端业务系统交付的查询任务,并制定查询策略,包括需要调用的引擎、缓存的分配、元数据信息的访问等一系列的规则。规则可实现分组聚合、多表关联、全文检索、精确检索、模糊检索等快速、高并发式的、交互式SQL查询分析等多样式检索方式。

缓存模块

在查询过程中缓存历史、结果等数据内容,用户可以指定需要缓存结果集的查询语句,配置结果集缓存所使用的内存大小,以提高查询的速度和效率。

引擎调度模块

负责调度查询引擎,将查询任务分配到各个引擎,以及各引擎、节点之间的协调工作。

元数据调度模块

负责整个系统中对元数据的管理。该模块设计多种数据库接口,如传统关系型数据库Oracle、NoSQL,SQL on Hadoop框架下的Hive、Impala及全文检索引擎Sphinx、Lucene等全文检索引擎等多类型数据存储系统接口,以保证对多种类型数据源进行调度。

4. 应用效果

对异构数据统一检索

满足用户对传统关系型数据库表内容查询,支持对管理非结构化数据的数据仓库引擎的统一检索,此外,还支持对文本数据类型的全文检索。

多种数据源同时接入

支持传统关系型数据库、Hadoop环境下数据查询引擎及全文检索引擎的接入,并且可以由上层统一对多个数据源同时进行检索。

高效率查询性能

在数据量级高达数十亿、甚至百亿以上时,检索性能远超传统关系型数据库,在数据记录高达千亿规模时,查询性能仍可实现秒级响应;可并行查询,充分利用当前多核CPU的并行计算能力,提高系统的可扩展性;此外,通过结果集缓存,将某些查询结果进行存储,遇到相似检索,用户可直接获取结果,提升反馈速度。

在线性能扩展

用户可根据业务需求,在线进行节点扩展,通过扩展硬件资源,完成整个系统性能和资源的提升,有效降低用户在建设初期的资本投入。

赛思一体化检索引擎,能够屏蔽底层物理技术架构特性,实现在大数据混存情况下的跨平台、多样式高效检索,提升以检索精准度为基础的检索速率,解决了目前所存在的检索效率低、在线扩展难的问题,夯实了检索的质与速的基础,使大数据不再形成孤岛,真正做到“大数据变现”,为企业决策提供支持。

总部电话:86-010-82270056   传真:86-010-82075018

总部地址:北京市朝阳区霞光里8号承冀诚大厦二层

技术培训

大数据课程

工信部认证

人力资源服务

关于赛思信安

招贤纳士

联系我们