付天新,张清华,刘诚斌,辛力春
(北京农业职业学院,北京 102442)
随着信息技术的不断发展,社会智慧化进程不断加快,图书馆也逐渐由“数字”迈向“智慧”。智慧图书馆这一概念最早由芬兰奥卢大学图书馆的艾托拉提出,他认为“智慧图书馆”是一个不受空间限制并且能够随时被感知的移动图书馆[1]。与传统图书馆注重馆藏、数字图书馆注重读者不同,智慧图书馆更加注重技术,结合与运用智能化技术,全面整合图书馆内外信息资源,通过感知、捕捉、记录、挖掘数据、分析读者需求来提供更加智慧的服务[2]。然而,在信息技术高速发展的时代下,图书馆的智慧化服务面临着一系列挑战,面对丰富的信息资源和广泛的读者类型,现有服务模式与不同用户多样需求之间的矛盾日益突出[3]。为了更好地服务用户、了解和满足用户需求、提供个性化、精细化服务,图书馆将用户画像这一理念和技术引入到智慧图书馆的建设中,并已应用到图书馆的智慧化服务领域。本文以智慧图书馆为研究主体,以用户画像的可视化表达为研究主题,结合可视化表达的场域内容,研究在大数据视域下能够快速支持图书馆用户画像可视化构建与表达的智能系统,提高用户画像场景化精准服务与智能表达能力,为图书馆更好地实现智慧、精准、快速的服务与创新奠定基础和提供借鉴。
交互设计之父 Alan Cooper 在1998 年首次提出用户画像的概念,他指出用户画像是现实生活中真实用户的虚拟代表,是建立在真实数据之上的目标用户模型[4]。根据关注用户侧重点不同,研究学者通常通过信息标签刻画用户特征,反映用户全貌;
通过用户需求挖掘用户典型特征,辅助产品设计;
通过用户行为洞察用户偏好,提供智能服务[5-6]。随着图书馆用户画像研究的不断深入,用户画像已经成为实现图书馆智慧化的新理念、新技术和新模型。
高校图书馆领域的用户画像构建与应用离不开数据的支撑。数据是图书馆用户画像构建的基础,也是精准刻画用户特征、真实表达用户需求、直观洞察用户偏好和行为的关键。以往研究学者通常从数据运行特征的角度入手,将高校图书馆用户画像数据划分为静态数据和动态数据两大类,并将其进一步细化为自然属性数据、行为偏好数据、情境与环境数据、网络社交数据、实体联系数据等子类来描述其数据体系[7-9]。为了更好地整合高校信息资源,深入融合图书馆(综合门户、移动图书馆、虚拟图书馆、数字图书馆系统、机构库系统)、教科研(科研系统、教务系统)、信息中心(一卡通、门禁系统、统一身份认证平台)、行政机构(教师管理系统、后勤保障系统)以及公共开放服务等系统平台数据,本文突破传统图书馆资源对构建用户画像的数据限制,从高校整体出发,构建包含图书情报、科研、教务、机构、保障和情境在内的六维高校图书馆用户画像数据体系。数据体系以“校园一卡通”中的用户基础信息为关联纽带,关联图书馆用户画像数据体系中的6类数据,并分层表达个人、群体、资源等不同类别的用户画像,构建应用的数据群集(见图1)。
图1 高校图书馆用户画像可视化构建数据体系
国内图书馆用户画像在理论应用、模型构建、系统研究、实践运用与服务创新等诸多方面积累了大量的研究成果。信息技术的发展与大数据时代的到来给图书馆用户画像研究带来了新发展和新内容。以大数据技术为底座,以微服务架构为核心,通过建立用户画像可视化框架,深度融合图情、教务、科研、保障、学工等多个机构部门数据,不断挖掘信息资源、创新业务场景、构建画像模型、表达画像面貌,进而形成面向高校全域、统筹利用、统一接入、数据共享的可视化构建框架(见图2),实现高校图书馆数据、系统、资源与服务的有机整合。高校图书馆用户画像可视化构建与表达框架采用4层体系结构,将大数据环境中的基础设施、数据资源、平台组件以及应用服务分层组织、规划与设计,环环相扣,灵活自如。
图2 大数据视域下高校图书馆用户画像可视化构建总体框架
基础层(IAAS层)是构建框架的基础。提供存储、计算、网络与虚拟化等资源和核心服务与计算能力。
数据层(DAAS层)是构建框架的“原材料”。通过ETL技术对来自高校全域、多源、异构的信息资源进行采集、清洗、加工转换与加载,实现结构复杂、标准不一、分散零乱、语义模糊的多源异构数据的整合与统一。数据层建立统一数据访问引擎,提供支持 Oracle、SQL Server、MySQL、Hive、MongoDB以及接口服务等灵活多样的数据访问策略,实现数据模型的封装,进而为高校图书馆用户画像可视化构建提供统一、规范、一致的数据环境。
平台层(PAAS)采用微服务的架构设计,以Hadoop生态、Spark、Kafka等大数据技术为平台底座,向下承接数据层,加载与传输数据;
向上支撑构建耦合度低、灵活通用的可视化组件集和模型库。
应用层(SAAS)采用画像树表、图表、热词云图、书面报告和可视化展板等可视化表达的呈现形式,有效融合计算机的计算能力和人的认知能力,通过灵活、直观的可视化用户界面,将大规模复杂逻辑实现和可视化呈现封装在组件之中,用户通过简单地拖拽和参数配置,即可完成用户画像的自动生成与表达,并面向个体、机构、系统等提供服务。
大数据视域下高校图书馆用户画像可视化构建与表达融合教育教学、科学研究、智慧服务等多项要素,利用大数据时代用户画像技术在智慧图书馆领域的技术优势,不断挖掘用户真实需求和潜在需要,不断探索创新应用场景,不断提高用户粘度与系统智慧化,进而提供更加精准的、智能的信息服务。从用户画像可视化构建流程的视角,大数据视域下高校图书馆用户画像构建可划分为数据获取、数据预处理、数据挖掘、标签提取与数据可视化5个阶段[10]。从用户画像可视化构建的技术实现视角,高校图书馆用户画像可视化构建与表达的智能系统(以下简称“智能系统”)主要包含数据采集、数据管理、模型运算与数据计算、数据可视化四大功能模块。各模块既紧密联系又彼此独立,模块之间的交互遵循统一数据与服务标准,各模块的功能不仅可以在平台内部使用,也可以集成对接符合统一数据与服务标准的第三方数据和系统,使得平台灵活、智能。
数据采集是构建用户画像的基础,精准、全面的数据采集是用户画像能够精准挖掘用户需求的前提[11]。数据采集实现结构复杂、标准不一、分散零乱、语义模糊、跨系统、跨机构的异构数据的融合与处理,是智能系统数据来源的唯一入口。数据采集模块集成统一数据访问引擎(DataStore),支持丰富的数据形式,提供支持各种数据库(Oracle、MySQL、Hive等)、文件、API接口服务等数据访问与读取策略,提供批处理采集和实时数据采集两种模式。数据采集通过任务管理、清洗规则、数据加载、执行监控等功能实现从“源库”到“目标库”的清洗、转换与加载,并通过统一数据访问引擎访问与读取数据,通过设置清洗规则和转换策略,对数据进行过滤、去重、更正、剔除、补充和脱敏,实现数据归约,达成多源异构数据的高效整合[12]。
数据管理以Hadoop生态及Spark技术为基础,对数据采集、清洗、转换后加载至“目标库”中的数据资源进行统一的管理与维护。数据管理包括数据资源目录管理、元数据管理、数据稽核与质量管理、数据仓库管理等功能。
1.建设数据资源目录
摸清数据资源家底、明确各类数据的来源、内容、质量、权限与更新要求等数据特征,构建高校图书馆用户画像数据目录体系和管理分类体系。
2.建立元数据管理
对元数据分类及术语进行维护管理,提高数据使用的标准化与可用性,使组织混乱、难于应用的零散数据变为标准统一、井然有序、具有价值的资产。
3.建立数据稽核与质量管理
对数据进行质量管控,形成包含数据采集、预处理、比对、分析、预警、通知、修复在内的完整数据质量管控链条,实现数据的完整性和一致性检查,提升数据质量。
4.建立数据仓库管理
按照数据仓库的分层思想,将数据分为3个层次进行组织管理,即ODS(Operational Data Store,数据运营层)、DW(Data Warehouse,数据仓库层)和DM(Data Market,数据服务层)。ODS存储与管理的是采集数据,采集数据是经过ETL处理、清洗、转换后得到符合标准、具有业务含义的“纯净数据”,存储在Oracle、SQL Server、MySQL、Hive等数据库建立的数据仓库中,并利用Kafka、Spark流式处理技术保持数据的持续更新与同步。DW数据存储与管理的是宽表数据。宽表数据承上启下,向下对接ODS,面向某一主题域进行不同维度的数据汇总、公共指标计算。向上对接DM,构建面向主题和场域应用的主题库和标签库。DM数据存储与管理的是场域数据集(主题库、标签库、数据集市),这些数据大部分是来自于DW层中具有维度信息的各类宽表数据,数据内容本身不再具有明细数据,是数据挖掘或模型运算后直接应用于画像可视化表达与呈现的结果数据,具有高度的主题性和决策指导价值。
模型运算与数据计算是智能系统的核心功能,是以数据仓库中的采集数据、宽表数据为基础,通过数据挖掘技术实现图书馆用户画像构建的重要途径。模型运算与数据计算内置涵盖分类、回归、聚类等4大类30余个小类的模型组件,提供从数据源选择、数据合规性检测、模型环境参量配置、模型构建与执行、模型评估等全流程、一站式的可视化构建功能,并在分布式内存计算和分布式离线计算的支持下,完成模型的构建、训练与验证。模型运算与数据计算实现模型与数据算法的封装,将各类模型算法抽象成为可操作性、独立的图形组件,构建人员按照模型—数据的构建过程搭建工作流程,通过拖拽模型—数据图形组件、建立模型—数据关系、配置模型—数据环境参量、触发模型—数据执行,完成数据模型运算与数据计算。全流程、可视化、一站式的模型运算与数据计算让用户画像构建过程像搭积木一样简单灵活,极大地缩短了用户、数据、模型(算法)与模型构建的距离,真正实现了不同场域、不同层次、不同维度用户画像构建的自定义和组配。
数据可视化的素质与能力直接决定着人们对数据的形态认知、价值挖掘以及呈现等方面的透视与洞察[13-14]。可视化构建与表达将图书馆用户画像可视化构建与表达的5个阶段串联在一起,形成集数据、场域、平台、服务四位一体、完整的业务链条与生态系统。本文研究的高校用户画像可视化构建与表达系统选取EChart、HighChart作为可视化编程组件,内置柱状图、折线图、饼状图、气泡图、仪表盘、雷达图、瀑布图、词云、GIS地图等多种可视化组件,提供任务管理、可视化设计与UI编排、数据加载、可视化验证与预览以及发布功能。其过程描述如下。
1.任务创建
根据用户画像构建与表达的主题和类别自行选择空白、单值、树表、图表、报表、热词云图、报告与可视展板8种任务类型。
2.编排设计
系统提供可视化设计和UI编排功能,可视化设计器集成大量的可视化组件,用户结合用户画像的表达主题和内容,确定页面的结构层次、业务关系和组件元素。
3.模型加载
应用数据统一访问引擎DataStore加载模型运算与数据计算或第三方系统中具有场域特征的数据,实现数据到可视化组件元素的绑定。
4.验证与预览
验证可视化组件绑定数据的完整性、规范性、一致性、兼容性以及配置参数和环境参量的准确性;
通过在线预览功能验证用户画像可视化表达的场域、逻辑和结构层次。
5.画像发布
以独立Web页面、可视化组件、API接口和标准交换文件等方式发布画像。生成的用户画像不仅能以独立Web页面的形式沉淀为图书馆的业务资产,同时也能以可视化组件、API接口和标准文件交换的方式与其他应用或第三方系统进行集成,这为图书馆更好地实现智慧、精准、快速的服务奠定基础。
高校图书馆充分利用大数据技术优势搭建系统框架,提高运行效率,挖掘用户需求,探索应用场域,构建画像模型,提供精准服务,为智慧图书馆用户画像研究、探索、应用与实践提供强大的数据空间、技术保障。面向高校图书馆,统筹高校全域资源,以图书馆用户画像的可视化构建与表达为研究主题,以Hadoop、Spark、Kafka等大数据技术为平台底座,详细探讨了大数据视域下高校图书馆用户画像可视化构建与表达的数据体系、系统框架、构建流程与技术实现;
形成了一条全面覆盖数据获取、数据预处理、数据挖掘、标签提取与数据可视化5个阶段紧密完整的业务链条;
提出了大数据视域下能够快速支持高校图书馆用户画像可视化构建与表达的一体化解决方案,提高图书馆用户画像可视化智能构建、表达与精准服务的速度与能力,助力高校智慧图书馆建设和大数据情境下高校数据可视化素养的研究。同时,在大数据视域下高校图书馆用户画像可视化构建与表达的解决方案和智能系统中还需在平台云化、网络数据融合、安全策略与授权机制、场景动画以及机器人可视化表达与融合呈现等方面持续研究、不断优化和改进。
扩展阅读文章
推荐阅读文章
恒微文秘网 https://www.sc-bjx.com Copyright © 2015-2024 . 恒微文秘网 版权所有
Powered by 恒微文秘网 © All Rights Reserved. 备案号:蜀ICP备15013507号-1