继电保护装置缺陷文本专业词典构建及其语言特性分析 |
| |
引用本文: | 刘中硕,郑少明,陶畅,刘一民,陈乾,王书鸿,于逸廷,薛安成.继电保护装置缺陷文本专业词典构建及其语言特性分析[J].中国电力,2023(7):146-155. |
| |
作者姓名: | 刘中硕 郑少明 陶畅 刘一民 陈乾 王书鸿 于逸廷 薛安成 |
| |
作者单位: | 1. 新能源电力系统国家重点实验室(华北电力大学);2. 国家电网有限公司华北分部 |
| |
摘 要: | 继电保护装置缺陷文本缺乏基于专业词典的数据挖掘,对继电保护缺陷定级、诊断和消除支撑不足,无法满足高效运维需求。结合某区域电网继电保护缺陷数据,提出了适用于继电保护装置缺陷的专业词典构建方法,并构建了相关专业词典。首先,汇总了该区域继电保护装置缺陷文本数据,形成缺陷文本语料库;其次,应用基于正则表达式的停用词识别方法,实现缺陷文本中无关字词的剔除;然后,采用机器与人工相结合的方法,构建了缺陷文本分词词典,采用潜在语义分析和决策树分类,实现了同义词合并;然后,通过整合停用词表、分词词典、同义词表,构建了该区域电网保护装置缺陷专业词典;最后,对比了使用词典前后的专业词汇齐普夫分布和语料库信息熵,验证了所构建专业词典的有效性。
|
关 键 词: | 继电保护 语料库 缺陷记录 文本挖掘 专业词典 |
|
|