首页 | 本学科首页   官方微博 | 高级检索  
     

面向建筑领域的中文分词方法研究
引用本文:李鹏,光永星,乔天玲,操峻岩.面向建筑领域的中文分词方法研究[J].电脑与信息技术,2021,29(5):67-72.
作者姓名:李鹏  光永星  乔天玲  操峻岩
作者单位:沈阳建筑大学理学院 辽宁 沈阳 110000
摘    要:中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题.建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好.提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别.首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词.通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92%,召回率提高了7.61%,因此最终的分词效果在准确率和召回率分别可达到82.15%、80.45%.

关 键 词:新词识别  互信息  中文分词

Research on Chinese Word Segmentation in Architecture Field
LI Peng,GUANG Yong-xing,QIAO TIAN-ling,CAO Jun-yan.Research on Chinese Word Segmentation in Architecture Field[J].Computer and Information Technology,2021,29(5):67-72.
Authors:LI Peng  GUANG Yong-xing  QIAO TIAN-ling  CAO Jun-yan
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号