高校异构数据集成方案设计

高校异构数据集成方案设计
2022-11-02 14:57 人民日报 编辑:张振山

随着高校信息化建设进入深水区,如何整合不同来源的数据并在统一平台上使用,成为当前高校大数据管理平台建设面临的重大挑战。文章提出了一种基于消息传递的异构信息接入及标准化处理的方法和相应的软件架构。

异构数据集成方法

数据集成是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。异构数据源主要有自治性、分布性和异构性三个特征。目前,对异构数据资源进行集成和管理的方法主要有模式集成和数据复制。

模式集成是人们最早采用的数据集成方法。其基本思想是,在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据源的数据。

全局模式描述了数据源共享数据的结构、语义及操作等。用户直接在全局模式的基础上提交请求,由数据集成系统处理这些请求,转换成各个数据源在本地数据视图基础上能够执行的请求。模式集成方法的特点是直接为用户提供透明的数据访问。由于用户使用的全局模式是虚拟的数据源视图,一些学者也把模式集成方法称作虚拟视图集成方法。典型的模式集成方法包括联邦数据库和中间件集成。

数据复制是指将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的一致性、提高信息共享利用的效率,也被称为实体化方法。最常见的数据复制方法就是数据仓库法。其体系结构可以划分为客户端、数据仓库和数据源三部分。数据仓库需要有效的数据加载和增量式更新维护等技术。

系统设计与实现

大数据平台架构

高校大数据平台一般由数据源、数据层、应用层三层架构组成。数据源层全面感知学校的人员、设备、资源及各业务系统产生的数据信息。数据层将通过各类网络采集来的异构信息进行全面集成和汇聚。

应用层主要为用户提供个性化的服务,如教学、科研、管理等各类应用,实现辅助决策、按需服务。据图1可知,数据接入及标准化系统位于数据层,主要实现各类异构系统数据适配、转换、共享等工作,起到前方的异构系统与后方数据汇聚平台联通的桥梁作用,提供给上层用户透明的访问和使用,仿佛在访问一个数据源一样,为学校的数据治理、分析决策及数据挖掘提供数据支撑。

图1 面向高校的异构系统集成架构

数据接入及标准化系统由通用数据采集适配器和数据适配中间件构成,主要实现消息格式适配、消息数据格式转换、消息传输功能。其功能描述如下:

消息格式适配,通过通用数据采集适配器对用户提供协议适配界面,通过该界面,设置需传递消息的数据格式,便于适配器进行解析及转换。消息数据格式转换,主要将获取的消息内容转换成标准格式的数据形式。消息传输,与异构系统建立消息通道,获取该系统的消息内容,并分发给分布式数据总线。

数据采集适配器

通用数据采集适配器为用户提供界面化的工具,实现了对数据采集端点的有效配置。数据端点配置包括数据源(数据来源)配置和数据订阅者(数据去向)配置。通用数据采集适配器实现数据的接入转发、状态监测、信息路由、链路管理等。数据适配中间件为用户提供界面化操作,实现转换规则配置及输入数据的解析及格式化。转换规则配置包括数据源的数据格式配置,数据订阅者的数据格式配置,以及它们之间的数据转换规则配置。

通用数据采集适配器基于管道或过滤器架构设计,包括通用数据采集适配配置工具及通用数据采集适配服务。总体设计如图2所示。

图2 数据采集适配器总体设计

数据采集适配器主要接收数据生产者发送过来的数据信息,为每一个外部系统分配一条管道,通过不同的消息通道处理不同种类的信息,采用推模式对消息进行处理。将转换为标准格式的信息分发给数据订阅者(包括数据库中间件)。

信息路由模块根据消息类型完成消息的路由。数据分发子模块将消息转发到相应的订阅者。链路管理模块管理链路的连接、关闭、异常信息,在生产者与订阅者之间建立连接关系。异常信息处理模块处理异常信息。数据适配接口模块进行消息聚合及分解,同时调用数据适配中间件进行消息处理。数据映射关系管理模块管理信息生产者和消费者通道。运行状态监控模块查看各个通道状态信息,并统计生产者和订阅者的数量。

通用数据采集适配配置工具主要包括数据源配置、订阅者配置、运行状态监控、日志查看及系统数据审查等功能。

数据采集适配服务对业务数据的处理包括数据接收、格式化及分发。根据通用数据采集适配器的业务数据处理配置,包括数据直接透传、异构数据标准化供内部订阅者进行订阅、标准数据个性化供特定订阅者进行订阅。

通信组件与数据生产者、数据订阅者建立通信链路,保存识别该链路的ID。信息路由子模块接收到通信组件发送过来的数据信息,并将信息分发到各个子模块。如果出现Accept、Connect、链路Error、心跳等,就将该消息发送到链路管理子模块。

业务数据消息如果未经转换就路由到数据适配接口子模块,由适配接口子模块对消息进行分包及聚合,获取消息的数据结构,并调用数据适配中间件完成数据解析,将结果返回给消息路由子模块。数据分发子模块接收到信息路由子模块发送过来的数据信息,通过向数据映射关系管理子模块获取订阅者信息,并将发送任务发送到通信组件,由通信组件完成信息的分发。

数据适配中间件

数据适配中间件采用责任链设计模式完成该中间件总体构建。消息传输系统按照层设计模式分为四个层次,包括消息传输、数据表示、数据类型、数据结构,数据适配中间件实现后三个层次的消息转换。按照分层的设计模式理念,层与层之间是相互不干扰,只是通过接口实现层与层之间的通信,包括中间件配置工具及数据适配服务。中间件配置工具为用户提供界面化操作,数据适配服务负责对输入的数据进行解析并格式化。

数据适配中间件配置工具组件启动后通过添加或修改数据格式,输入相应格式数据的属性参数,系统输出对应XML格式的配置文件。数据适配服务读取相应的配置文件,包括数据格式、类型、转换规则,建立规则责任链,对读入的数据进行解析获取数据类型,并转换为新的数据结构。数据解析支持每秒500条以上。

结 语

本文根据校园应用系统中数据资源的结构特点提出了一个灵活性强、易扩展的数据接入及标准化系统,以实现异构数据源的集成,为高校大数据平台的建设打下基础。通过异构数据接入及标准化系统,将一卡通消费数据、门禁刷卡统计数据、教学科研数据等标准化,为各类应用系统进行分析研判提供了统一的访问接口和数据标准。

该系统的优势在于,可以使用可定制格式频繁的、可靠的、实时的传输数据,并保证了源应用与目的应用的松耦合。该系统在百兆网速内,高网络负载下可稳定运行,支持二进制、文本数据格式之间的相互转换,对相应数据字段进行标准化。支持二进制、文本数据格式配置,支持TCP、UDP网络传输协议。兼容各种网络传输采集(WebService、HTTP、TCP、UDP、RS232/485),兼容关系型数据库和非关系型数据库。可以根据需要,扩展更多的数据格式及标准化函数。


相关阅读