刘潇潇 孟小艳 李东亚 魏建新 阿依谢姆古丽·阿卜杜艾尼 付钰 朱彦菲
摘 要:为进一步提升新疆自然资源档案馆地质资料信息集成利用率,打破目前查借阅档案仅限于目录查找方式的现状,引入知识图谱对新疆馆藏地质资料进行优化管理。以3 108档馆藏地质资料为数据源,通过本体构建确定实体和关系;
基于BIO序列标注对新疆馆藏地质资料数据进行人工标注;
采用BERT-BiLSTM-CRF模型完成知识抽取,并选用图数据库Neo4j存储新疆馆藏地质资料知识,完成新疆馆藏地质资料知识图谱的构建。实验结果表明,BERT-BiLSTM-CRF模型的准确率为98.177 7%、F1值为97.892 1%,能准确识别出新疆馆藏地质资料中的地质实体。新疆馆藏地质资料知识图谱的构建为新疆自然资源档案馆的“数字档案馆”建设及新疆地质资料大数据社会化服务水平的提升奠定基础。
关键词:知识图谱;
地质资料;
知识抽取;
图数據库
地质资料是由地质部门收集、整理和保存的各种地质工作业务成果的记录[1,2],为地质工作者提供有关地质构造、矿产资源等方面的信息,对我国发展具有重要的支撑作用。随着科技的发展,地质领域也逐渐进入大数据时代,地质资料数量庞大,数据挖掘效率低下等问题亟待解决。
知识图谱的概念最早由Google公司提出[3],是将客观世界中的实体及实体之间的关系通过图的形式进行表达的知识库[4]。在地质学领域中,引入知识图谱能够为资源勘探、自然灾害预测等方面提供支持[5]。地质领域知识图谱构建的基础是命名实体识别[6],即在未处理的地质领域文本中识别特定类别的专有名词实体,其准确性直接影响地质领域多种自然语言处理技术的结果。张春菊在BiLSTM-CRF深度学习模型的基础上[7],融合了BERT预训练模型,对地质文本进行实体抽取,在提高命名实体识别准确率方面取得一定成效。Qiu等人针对从地质文献中获取地质实体的问题[8],提出Attention-BiLSTM-CRF模型,模型中使用的双向LSTM能够更好的获取地质实体上下文的语义特征,但对长实体的识别准确率较低。
上述研究者均采用深度学习的方法对中文地质领域进行命名实体识别,但多数以地质相关文献为数据源进行实体抽取,目前尚无针对新疆地质档案知识图谱构建技术的研究。本文将知识图谱引入新疆馆藏地质资料的信息化管理中,选用知识抽取模型BERT-BiLSTM-CRF及图数据库Neo4j完成新疆馆藏地质资料知识图谱的构建(图1)。
1 新疆馆藏地质资料知识图谱构建
本文从本体构建、数据预处理、知识抽取、知识存储4个方面完成新疆馆藏地质资料知识图谱的构建,主要步骤如下:首先对新疆馆藏地质资料进行分析,设计概念层次,确定实体和关系类型,完成本体构建。通过新疆自然资源档案馆的资料服务系统获取地质档案数据并进行预处理,知识抽取使用模型BERT-BiLSTM-CRF完成,并选用图数据库Neo4j存储新疆馆藏地质资料知识,完成新疆馆藏地质资料知识图谱的构建。
1.1 本体构建
本体构建主要完成知识图谱概念层次的设计,包括关系设计和实体类型设计(表1,2)。经过相关领域专家及专业文献书籍,确定了11种实体类型和20种关系类型,不同实体类型示例见表3,不同关系类型示例见表1。据实体和关系类型设计合适的三元组模式,可很好地将地质档案数据进行结构化表示,便于后续的知识应用。
1.2 数据预处理
新疆自然资源档案馆的部分馆藏地质资料作为数据的主要来源,主要包括结构化数据和非结构化数据。为方便后续知识图谱的构建,将结构化数据进行筛选、去重,并将多余数据和空值删除。对于非结构化数据,采用BIO序列标注法,通过精灵标注助手将需要抽取的实体标注为“B-X”、“I-X”或者“O”格式(图2)。
1.3 命名实体识别模型
BERT-BiLSTM-CRF模型是命名实体识别中的经典序列标注模型之一[9]。输入的文本序列经BERT模型转化为上下文相关的词向量,作为BiLSTM的输入;
BiLSTM对序列进行双向时序建模,进行深度学习全文特征信息;
最后结合CRF算法和BIO标注的文本特征,进行序列级别的标签推断,获得最优标签序列。
1.3.1 BERT预训练模型
BERT预训练模型(BidirectionalEncoder Representations from Transformer,BERT)运用双向Transformer编码器,可更深层次地获取上下文语义信息,挖掘中文实体元素中嵌入的潜在语义[10]。输入的文本序列[E=(E1,E2,…,En)]经过双向Transformer编码器Trm进行特征提取,输出具有特定信息的字符级向量[T=(T1,T2,…,Tn)](图4)。
1.3.2 BiLSTM层
长短记忆网络(Long Short-Term Memory,LSTM)可处理具有向后和向前依赖性的数据[11](图5),因此常被应用在文本数据处理工作中。但其无法将信息从后向前进行编码。双向长短记忆网络BiLSTM在LSTM的基础上增加了一个后向LSTM,一个正向处理输入序列,另一个反向处理输入序列,从而达到捕获双向特征的效果。
1.3.3 CRF层
条件随机场(Conditional Random Field,CRF)是一种通过输入序列计算得出输出序列的判别式模型[12]。设[M=(m1,m2,…,mn)]和[N=(n1,n2,…,nn)]分别为两组随机变量的输出序列和状态序列,线性链式条件随机场定义如下:
在CRF层中加入约束,可降低输出错误标签的概率,保证最后输出的预测结果是有效的。计算公式如下:
P——从BiLSTM层得到的发射分数矩阵;
A——CRF层学习得到的转移矩阵;
[Pi,ni]——第[i]个字符被预测为第[ni]个标签的分 数值;
[Ani,ni+1]——第[ni]个标签转移到第[ni+1]个标签的 分数值。
CRF通过相邻标签之间的关系获得一个最优的预测序列,如:“B-大地构造”后面无法接“B-成矿带”,弥补了BiLSTM只能预测文本序列与标签的关系,而不能预测标签与标签之间关系的缺点。
1.4 知识存储
将包含三元组信息的CSV文件使用Neo4j-import方法导入图数据库Neo4j中进行知识存储,完成新疆馆藏地质资料知识图谱构建。作为经典开源图数据库之一的Neo4j[13],以图的形式存储实体、关系和属性信息,并通过Cypher查询语言实现高效的图查询和搜索功能,更适合新疆馆藏地质资料知识图谱的使用场景。因此选用图数据库Neo4j对新疆馆藏地质资料知识图谱进行存储。
2 实验分析
2.1 实验环境及评价指标
实验在64位Windows操作系统上进行,实验环境配置为AMD Ryzen7 6 800H CPU、NVIDIA GeForce RTX 3 060(6G)GPU、16G内存,使用Python3.8和PyTorch1.7+cu110版本算法框架进行实验模型训练。
实验评价指标使用精确率(Precision,P)、召回率(Recall,R)、F1值(F1 Score),公式如下:
TP——真实体并预测为真的实体数量;
FP——假实体但预测为真的实体数量;
FN——真实体但预测为假的实体数量;
TN——假实体并预测为假的实体数量。
2.2 模型对比实验
实验中使用的数据集为使用精灵标注助手软件进行人工标注的馆藏地质资料语料。为保证BERT-BiLSTM-CRF模型對新疆馆藏地质档案命名实体识别的有效性,选择以下几种命名实体识别任务中的主流模型在相同的数据集上进行对比实验:BERT-CRF、BERT-IDCNN-CRF、BERT-BiGRU-CRF。针对BERT-CRF模型是为了对比模型中有无全文特征提取层BiLSTM对命名实体识别结果的影响。针对BERT-IDCNN-CRF和BERT-BiGRU-CRF对比观察BiLSTM、BiGRU、IDCNN 3种循环神经网络特征提取的差异性对最终结果的影响。从图6可看出,4种模型训练期间精确率变化。
BERT-BiLSTM-CRF模型在新疆馆藏实体的识别效果上要优于另外3种模型(表3),说明提取文本前后向特征的BiLSTM更适合新疆馆藏地质资料中地质实体提取。
3 新疆馆藏地质资料知识图谱的应用
3.1 知识图谱可视化
为更直观地展示新疆馆藏地质资料知识图谱,使用不同颜色区分不同实体类型,即每种颜色代表一种实体类型。实体之间有向箭头表示关系,构成“圆-线-圆”的知识图谱三元组模式。通过可视化的方式展示知识图谱,可帮助用户更直观地理解和应用知识图谱中的信息(图7)。
3.2 实体属性及关系查询
根据关键词查找与某关键词有所属关系的地质资料数据,如:查找含有资金来源为“中央财政”的案卷号(图8),执行语句如下:
MATCH (a:案卷号)-[:资金来源]->(b:资金来源 {资金来源:‘中央财政}) RETURN a,b LIMIT 25
4 结论
本文将知识图谱构建技术与新疆自然资源档案馆的海量馆藏地质资料相结合,采用自顶向下的方式,根据地质资料的特点构建新疆馆藏地质资料知识本体;
结合深度学习的方法完成知识抽取,通过对4种命名实体识别主流模型进行对比实验,得出BiLSTM循环神经网络更适用于新疆馆藏地质资料档案的地质实体抽取。选用图数据库Neo4j进行地质知识存储,完成新疆馆藏地质资料知识图谱构建。基于新疆馆藏地质资料知识图谱实现新疆馆藏地质资料档案信息可视化与查询,为新疆自然资源档案馆的“数字档案馆”建设及新疆地质档案知识挖掘和利用提供参考。
参考文献
[1] 邱芹军,王斌,徐德馨,等.地质领域文本实体关系联合抽取方法[J].高校地质学报,2023,29(3):419.
[2] 张晔.地质专业档案领域知识图谱的构建和应用[J].浙江档案,2021(10):44-47.
[3] Wang P,Jiang H,Xu J,et al.Knowledge Graph Construction and Applications for Web Search and Beyond[J].Data Intelligence,2019,1(4):333-349.
[4] 黄恒琪,于娟,廖晓,等.知识图谱研究综述[J].计算机系统应用, 2019,28(6):1-12.
[5] 王刘坤,李功权.基于GeoERNIE-BiLSTM-Attention-CRF模型的地质命名实体识别[J].地质科学,2023,58(3):1164-1177.
[6] Ma X,Ma C,Wang C.A new structure for representing and tracking version information in a deep time knowledge graph[J].Computers & Geosciences,2020,145:10462
[7] 张春菊,张磊,陈玉冰,等.基于BERT的交互式地质实体标注语料库构建方法[J].地理与地理信息科学,2022,38(4):7-12.
[8] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.
[9] 汤洁仪,李大军,刘波.基于BERT-BiLSTM-CRF模型的地理实体命名实体识别[J].北京测绘,2023,37(2):143-147.
[10] Huang C,Wang Y,Yu Y,等.Chinese Named Entity Recognition of Geological News Based on BERT Model[J].Applied Sciences, Multidisciplinary Digital Publishing Institute,2022,12(15):7708.
[11] Jin Y,Xie J,Guo W,et al.LSTM-CRF neural network with gated self attention for Chinese NER[J].IEEE Access,2019,7:136694-136703.
[12] 余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111.
[13] 杭婷婷,冯钧,陆佳民.知识图谱构建技术:分类、调查和未来方向[J].计算机科学,2021,48(2):175-189.
Construction of Knowledge Graph for Geological Data in Xinjiang Collection
Liu Xiaoxiao1,2,3, Meng Xiaoyan1, Li Dongya1, Wei Jianxin2,3, Ayxiem Gul·Abduani2, Fu Yu4, Zhu Yanfei5
(1.College of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi,Xinjiang,830052,China;2.Xinjiang Uygur Autonomous Region Natural Resources Information Center (Xinjiang Uyghur Autonomous Region Natural Resources Archives),Urumqi,Xinjiang,830002,China;3.Xinjiang Laser Radar Application Engineering Technology Research Center,Urumqi,Xinjiang,830002,China;4.School of Information Science and Technology,
Qingdao University of Science and Technology,Qingdao,Shandong,266061,China;5.Xinjiang Uyghur
Autonomous Region Geological Survey Institute,Urumqi,Xinjiang,830000,China)
Abstract:
To further enhance the integrated utilization of geological data information in the Xinjiang Natural Resources Archives and break the current limitation of archival retrieval only through catalog search, a knowledge graph is introduced to optimize the management of geological materials in the Xinjiang Archives. Partial geological materials in the archives are used as the data source, and entities and relationships are determined through ontology construction. The Xinjiang geological materials data is manually annotated using a BIO sequence labeling method. The BERT-BiLSTM-CRF model is employed for knowledge extraction, and the Neo4j graph database is used to store the knowledge of Xinjiang geological materials, completing the construction of the Xinjiang Geological Materials Knowledge Graph. Experimental results show that the BERT-BiLSTM-CRF model achieves an accuracy rate of 98.1777% and an F1 score of 97.8921%, significantly outperforming the BERT-CRF, BERT-IDCNN-CRF, and BERT-BiGRU-CRF models. The construction of the Xinjiang Geological Materials Knowledge Graph can provide a foundation for the development of a "Digital Archives" in the Xinjiang Natural Resources Archives and enhance the socialization of Xinjiang geological data big data services.
Key words:
Knowledge graph; Geological information; Knowledge extraction; Graph database.
項目资助:新疆维吾尔自治区地质资料智能服务系统项目资助
收稿日期:2023-09-21;
修订日期:2024-01-02
第一作者简介:刘潇潇(1998-),女,山东济宁人,2021级新疆农业大学计算机技术专业在读硕士,研究方向为知识图谱;
E-mail:2958566734@qq.com
通讯作者:孟小艳(1978-),女,博士,副教授,研究方向为知识图谱,人工智能;
E-mail:
11360883@qq.com
扩展阅读文章
推荐阅读文章
恒微文秘网 https://www.sc-bjx.com Copyright © 2015-2024 . 恒微文秘网 版权所有
Powered by 恒微文秘网 © All Rights Reserved. 备案号:蜀ICP备15013507号-1