国家档案馆大数据智能应用平台案例介绍
1. 项目概述
档案馆承载着国家发展的历史,随着时代的发展,如何收集各类档案信息资源,不断丰富和完善“中国记忆”,更好的分享和利用“中国记忆”,使档案资源真正发挥其自身价值,是档案管理部门亟待解决的问题。
为此,国家档案局档案科学技术研究所启动了“国家开放档案信息资源管理与共享利用综合系统建设项目”,通过构筑国家开放档案信息资源管理与共享利用综合平台,最大限度的与各级档案馆及社会公众共享资源,方便其通过平台便捷的获取各类信息资源。
2.需求分析
基于档案馆的管理现状、系统现状及业务特点,对项目需求进行详细分析:
建成国家开放档案信息资源管理与共享利用综合系统,整合全国50个国家综合档案馆的开放档案信息资源、目录及原文数据达100万条,并建立部分热点档案专题库。
建设一个全国中心,建设6个分中心、与中央云中心的系统进行集成。实现分布式档案信息资源存储利用,以满足海量档案数据存储、数据分发、数据检索及分析、数据备份的需求。
提供全国分布式系统的统一管理和监控系统、能够自动分发、部署、升级、审计、维护,授权等一站式管理。
对档案数据进行全生命周期安全防护,系统实现7*24小时的连续运行,年平均年故障时间小于1天,数据库平均恢复时间小于1小时;系统故障实时提示并且系统平均恢复时间小于4小时。
3.解决方案
3.1 解决思路
针对国家档案馆的需求,以赛思分布式数据仓库(iDiller)为核心、结合赛思大数据集成、赛思数据资源安全服务总线、赛思大数据运维管理等产品,共同形成国家档案馆的解决方案。
3.2 拓扑架构
在一期项目建设基础上,将全国建立 6 个分中心与中央云中心的系统进行集成,实现分布式档案信息资源存储利用,以满足海量档案数据存储需求。在此基础上实现跨数据中心的全文检索及分析挖掘功能。
如上图所示,系统共包含一个中央云中心(上级)集群和六个地方分中心(下级)集群在内的七个分布式数据存储子集群,不同数据中心间的数据可以跨数据中心流动。中央云中心包括虚拟机集群、交换机及防火墙;每个地方分中心均有存储服务集群、虚拟集群、交换机及防火墙,分中心可通过安全通道将数据上传到中央云中心,中央云中心也可以将数据下发到地方数据中心,最终实现中央云中心与地方分中心的数据交互。
3.3 逻辑架构
本项目的建设对于全面整合档案数据资源,提升我国整体档案产业发展起到关键性促进作用,通过新技术的引入,进一步增强档案业务的服务能力。
按照上述档案馆大数据智能应用平台建设总体架构,系统主要包括网络通信层、逻辑处理与数据中心层、表现层、业务应用层等,档案数据可通过网络通信层完成数据由用户终端及采集终端的数据采集;数据进入到逻辑处理与数据中心层,通过逻辑处理层的规范化处理后,存入数据中心进行统一存储管理;系统提供对外的表现层,包括电子商务、多媒体平台、档案展示等多项服务;另外,系统也提供规范化的接口,实现业务应用及外部系统的无缝对接,通过面向用户、面向档案馆、面向政府及企业三个角度提供数据服务,实现档案数据资源的共享。
4.实施效果
1) 实现了对档案信息的智能检索
本系统借助赛思信安大数据解决方案,扩充了对档案信息的多类型、高效率、跨信息源的智能检索功能。
2) 实现了档案资源跨地区共享和数据的全面整合
本系统实现了分布在全国各个档案馆的数据统一整合,形成了档案馆的一体化管理,极大的提升了信息的分享能力和充分发挥了档案资料的使用效率,充分满足各级档案馆数据实时交互的共享需求。
3) 建设了分析预测平台、实现了档案关联分析、提升用户的应用能力
实现复杂预测及决策分析,助力档案业务应用能力提升。对业务分析系统提供多种关联统计分析功能,以及海量结构化和非结构化档案数据的分布式统一存储与集中管理,提升用户的应用能力和档案资产的应用场景。
4) 提高了数据的安全可靠性
建立了全国的统一用户管理机制,设定了权限控制机制和设计机制,确保任何时候都清楚谁在看、谁看过、谁能看的规范。同时系统设立了多中心机制,多中心之间数据互备、数据多副本保存、数据异地容灾,避免了单点故障和单城市故障,提高了数据的安全性和可靠性。