数据资源中心解决方案
1. 背景
传统数据应用模式往往以功能为驱动,根据功能模块构建基础架构,数据资源由于业务系统的分离而出现分布离散、数据多样化的现象。而传统以业务系统为中心模式下建设的数据管理系统,在需要对多元化数据进行综合处理的今天,已经不能满足应用需求。
2. 面临问题
目前企业在大数据时代下面临的主要问题有:
业务系统独立建设,形成较多信息孤岛,数据资源离散分布,无法对数据进行统一管理和利用;
传统模式下建设的数据管理系统,无法在大规模多元化低质量数据的环境下,对数据进行融合处理,和准确的分析挖掘。导致无法充分利用已有数据的价值;
采用传统的按照业务重复建设数据系统的方式,导致大量系统资源浪费,对数据的综合处理能力疲软,系统整体使用效率低;
基于上述问题,因此迫切需要将传统企业各业务系统的数据资源汇集到一个统一的数据资源中心,对企业数据进行统一管理。
3. 解决方案
赛思股份公司凭借在大数据行业的经验以及赛思股份公司自有产品体系,可将企业各业务系统数据资源整合到一个基于大数据环境下的数据资源中心,对企业所有数据资源进行统一管理。
赛思数据资源中心建设囊括了数据资源的采集整合、存储管理、分析挖掘、数据共享、容灾备份等全生命周期的各个流程;具备多源异构数据的整合能力、高效的统一检索能力、深度的分析挖掘能力、以及系统安全运行的保障能力;是向上提供数据、服务、资源支撑的高效率统一平台。
数据资源中心整体业务流程
数据整合。数据整合流程主要完成多源异构数据的ETL过程,包括从数据源中抽取数据、数据格式的转换、数据内容的清洗、将数据加载至存储系统等过程。
数据存储。主要完成对数据的分类存储功能,按照不同数据类型与不同的业务需求,将数据分类存储至不同的存储引擎中。
数据管理。主要包括对数据的高效检索、数据服务的外接、以及系统数据的运行维护。
数据分析。数据分析系统包含多种数据分析算法,通过建模工具创建分析模型,对数据进行分析挖掘,最后将分析结果进行可视化的展示。
数据共享。通过在数据共享标准规范下,通过目录管理、数据交换等功能,完成数据资源中心数据与其他系统之间的数据共享功能。
数据容灾。通过同步或异步传输的方式完成数据远程容灾,通过HA、服务控制机制完成服务的远程容灾,通过策略控制中心完成对整个容灾服务的核心管控。
4. 应用效果
4.1 多源异构数据统一资源池
大数据资源中心支持PB级规模的数据存储,具备多源异构数据融合能力,实现了结构化、半结构化、非结构化等多种数据资源的统一池化管理。可同时支持多个业务系统同时使用系统中的数据。
4.2 高效率大数据系统
单中心可以支持300节点以上的大规模的大数据计算集群。存储容量可达PB级;
千亿级数据记录检索速度可达秒级响应;
分析系统的算法不少于9类,总量不低于30个。包括分类、聚类、关联规则、回归、降维、进化、推荐/协同过滤、向量相似度、集合扩展等算法类别;
基于以上技术能力,可对大规模的数据资源,进行采集、存储、管理、分析、挖掘、可视化展示等数据全生命周期流程的一站式高效率综合处理。
4.3 数据价值深度挖掘
大数据数据资源中心,具备深度的数据分析挖掘能力。基于系统对数据资源的统一整合与管理,能够充分的利用资源池中的数据进行全面的分析挖掘,更大化的体现数据价值。
4.4 弹性化系统设计,支持在线灵活扩展
采用SOA设计,模块化的设计理念,基于Hadoop集群建设的大数据资源中心,支持系统软硬件资源的平滑扩展,具备灵活的资源分配能力。应对突发情况或有新的应用需求时,可以在线地对系统进行调整、扩展,灵活分配资源。