期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴佳林唐晋韬李莎莎王挺《中文信息学报》2017,31(6):41-49

提出了一种基于神经网络的中文分词方法,以提高分词系统向新领域迁移的适应性和灵活性。该文方法采用了对现有分词器分词结果进行纠正的思路。这种基于纠正的两阶段方法与分词模型解耦,避免了对源领域语料和分词器构建方式的依赖。然而现有的基于纠正的方法依赖于特征工程,无法自动适应不同领域。该文利用神经网络对纠正器进行建模,在无需手工设计特征的情况下即可实现领域适应。实验表明,与当前方法相比,该文方法在领域文本上具有更好的分词性能和鲁棒性,尤其在未登录词召回率方面提升显著。相似文献

2.

基于Bi-LSTM-CRF算法的气象预警信息质控系统的实现

张淑静苗开超张亚力杨彬李腾刘宜轩汪翔《计算机与现代化》2019,(6):111

本文采用双向长短期记忆网络条件随机场（Bi-LSTM-CRF）算法,通过双向循环神经网络（Bi-LSTM）对已有的合法预警信息文本数据集和开放域中文分析公开数据集进行训练;采用CRF序列标注法有效地结合了预警前后的标签信息对分词进行序列标注;使用该算法建立的气象预警信息质控系统已应用在安徽省突发事件预警信息发布系统,在实际应用的过程中充分证明基于神经网络的气象预警信息质控系统能直接有效地对新的预警信息中可能含有的敏感字（词）、错别字等进行智能监测,以帮助监测人员进行气象预警判断,从而可以对发布的气象预警信息起到质量把关的作用。相似文献

3.

基于弱标注数据的汉语分词领域移植

朱运李正华黄德朋张民《中文信息学报》2019,33(9):1-8

近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。相似文献

4.

基于MM分词算法与SOM神经网络的分类方法研究

《计算机与应用化学》2015,(10)

针对文本信息的分类问题,提出正向最大匹配分词算法与自组织映射神经网络融合算法(MMSOM)。利用正向最大匹配分词算法对文本信息进行自动提取,设定关键词信息规范框架,将规范化后的文本信息量化结果作为神经网络输入,结合文本分词结果,实现分类对象信息提取与分类的自动化。将该算法应用于藻类水华领域专家分类问题,分类结果表明了算法的可行性和有效性。相似文献

5.

基于无监督学习的专业领域分词歧义消解方法

修驰宋柔《计算机应用》2013,33(3):780-783

中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。相似文献

6.

基于自适应隐马尔可夫模型的石油领域文档分词

宫法明朱朋海《计算机科学》2018,45(Z6):97-100

中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。相似文献

7.

信息融合技术在企业预警系统中的应用

吴韫夏龚花萍《微计算机信息》2008,24(12):20-21

在小样本条件下用神经网络模型进行预警,存在输出不稳定的缺点.本文以平衡计分卡来构造企业预警指标体系,结合神经网络与证据理论算法的优势,把神经网络的输出结果作为基本概率分配函数,D-S证据理论处理输出信息,进行信息融合,提高预警系统的准确性与可靠性. 相似文献

8.

基于KNN算法的医药信息文本分类系统的研究 总被引：1，自引：0，他引：1

许幸张启蕊《计算机技术与发展》2009,19(4)

针对目前医药信息文本分类领域的现状,设计并实现了一种基于KNN算法的医药信息文本分类系统.该系统充分利用了向量空间模型在表示方法上的优势和快速KNN算法的特点,并采用逆向最大匹配分词方法进行分词,可有效提高医药信息分类的准确性和信息处理效率.此外,构建了一个医药信息数据集,该数据集包含582篇医药类文本,其中训练文本433篇,测试文本149篇,并在该数据集上对医药信息文本分类系统进行了测试,得到了74.83%的F1值.实验证明,该系统可以较好地实现医药信息文本分类. 相似文献

9.

一种中文地址类相似重复信息的检测方法 总被引：1，自引：0，他引：1

刘哲夏秀峰宋晓燕林桐《小型微型计算机系统》2008,29(4):726-729

数据仓库中相似重复记录的识别与消除是数据清洗的热点问题,其中地址类信息对相同实体识别起着非常重要的作用.针对中文地址类信息的处理,建立了包含分词规则的元数据库,提出一种相似重复检测模型.在此基础上,描述了基于特征字符的分词算法和利用可变权值策略计算记录相似度的算法.实验结果表明该方法能有效解决中文地址类重复信息的检测,提高了算法的执行效率及检测精度. 相似文献

10.

神经网络在智能火灾预警系统的应用

丁承君赵泽羽朱雪宏冯玉伯《传感器与微系统》2018,(1):154-156,160

提出了综合利用多种传感器准确判断火焰状态的算法.在神经网络算法下,根据一氧化碳传感器、烟雾传感器和温度传感器数据,对火焰状态进行分类.使用有限内存的拟牛顿(L-BFGS)优化算法对传统反向传播(BP)算法进行改进,加快了神经网络的收敛过程,有效提高了系统精度.实验验证了算法能够有效降低火灾预警系统的误报率,增强系统安全报警的灵敏度和可靠性,实现了实时有效的火灾预警. 相似文献