首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 713 毫秒
1.
提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性。该文方法采用了对现有分词器分词结果进行纠正的思路。这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖。然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域。该文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应。实验表明,与当前方法相比,该文方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著。  相似文献   

2.
本文采用双向长短期记忆网络条件随机场(Bi-LSTM-CRF)算法,通过双向循环神经网络(Bi-LSTM)对已有的合法预警信息文本数据集和开放域中文分析公开数据集进行训练;采用CRF序列标注法有效地结合了预警前后的标签信息对分词进行序列标注;使用该算法建立的气象预警信息质控系统已应用在安徽省突发事件预警信息发布系统,在实际应用的过程中充分证明基于神经网络的气象预警信息质控系统能直接有效地对新的预警信息中可能含有的敏感字(词)、错别字等进行智能监测,以帮助监测人员进行气象预警判断,从而可以对发布的气象预警信息起到质量把关的作用。  相似文献   

3.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。  相似文献   

4.
针对文本信息的分类问题,提出正向最大匹配分词算法与自组织映射神经网络融合算法(MMSOM)。利用正向最大匹配分词算法对文本信息进行自动提取,设定关键词信息规范框架,将规范化后的文本信息量化结果作为神经网络输入,结合文本分词结果,实现分类对象信息提取与分类的自动化。将该算法应用于藻类水华领域专家分类问题,分类结果表明了算法的可行性和有效性。  相似文献   

5.
修驰  宋柔 《计算机应用》2013,33(3):780-783
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。  相似文献   

6.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。  相似文献   

7.
在小样本条件下用神经网络模型进行预警,存在输出不稳定的缺点.本文以平衡计分卡来构造企业预警指标体系,结合神经网络与证据理论算法的优势,把神经网络的输出结果作为基本概率分配函数,D-S证据理论处理输出信息,进行信息融合,提高预警系统的准确性与可靠性.  相似文献   

8.
基于KNN算法的医药信息文本分类系统的研究   总被引:1,自引:0,他引:1  
针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统.该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率.此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值.实验证明,该系统可以较好地实现医药信息文本分类.  相似文献   

9.
一种中文地址类相似重复信息的检测方法   总被引:1,自引:0,他引:1  
数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度.  相似文献   

10.
全二分最大匹配快速分词算法   总被引:29,自引:1,他引:29  
分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号