首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
《现代电子技术》2019,(4):166-170
当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。  相似文献   

2.
文中主要对KMP算法、BM算法、Sunday算法进行了研究分析,根据中文汉字在计算机中的编码规则,提出了一种用于中文检索的CSPM算法。该算法充分利用已匹配信息,实现了待匹配文本串指针和模式串指针均不回溯,增大了跳跃距离,有效地提高了匹配速率。实验结果显示,CSPM算法较其他几种算法有更好的时间性能。  相似文献   

3.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

4.
针对传统互信息图像配准容易产生局部极值,以及传统梯度互信息配准方法计算量大等问题,在互信息和梯度方法基础上构建了一种改进的梯度互信息方法,该方法直接统计梯度图像的互信息,有效地将图像梯度信息和灰度信息结合起来,不仅保证了配准精度,而且较传统梯度互信息方法减少了计算量。在参量优化的过程中,针对传统粒子群优化算法易陷入局部极值的缺点,提出了改进的粒子群优化算法,该算法在传统粒子群优化算法基础上引入混沌优化思想和遗传算法中的杂交思想,不仅能够有效抑制局部极值,而且加快了收敛速度。多种红外与可见光图像配准实验结果证明,文中提出的算法能够有效提高配准精度和速度。  相似文献   

5.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

6.
通过建立光通信网络系统状态的Markov模型和状态转移矩阵,利用稳态Markov模型状态转移概率平衡特点计算网络系统稳态概率;再根据网络拓扑结构和保护机制信息,通过概率计算得到了系统稳态概率。在对光通信网络系统稳态概率做出评估的基础上,提出了一种自由空间光通信网络的路由算法。该算法考虑了网络节点的快速移动特性、链路带宽、最短路径以及节点收发器数目的限制。仿真实验研究表明,经过系统稳态概率评估的路由算法在实际应用过程中在可靠性、稳定性等方面均优于一般路由算法。  相似文献   

7.
文本情感分析的基础是词典,除此以外还需要对词典进行分类和定级。本文通过筛选整合现有词典,构建了一部包括基础词,领域词,网络词等的词典,并对词典中有关词语的权重分配和一些包含程度副词的短语计算进行了研究,提出了一种基于词典的文本情感分析算法。经过实验,发现本文构建的词典在处理情感时效果很好。  相似文献   

8.
通过字符串匹配算法来实现文本过滤,在深入分析了现有串匹配算法的基础上,根据网闸数据从外网过渡到内网的特点,对传统的字符串匹配算法Wu-Manber进行详细分析,设计并实现了一种适合中文字符集和网闸的模式匹配算法RWM,并对改进的算法进行了实验分析。实验表明,所设计的算法在运行时间和尝试次数方面优于其他算法,满足网闸对不良信息进行查询和过滤的要求,能够解决网闸的文本过滤问题。  相似文献   

9.
通过分析中文报道的特点,提出了一种改进相似度计算的话题检测算法。该算法以Single-Pass聚类策略为基础,结合新闻报道中的地点信息,分别对新闻报道进行文本内容相似度和地点相似度计算,并将两者结合进行话题检测。实验结果表明,算法性能优于传统的文本相似度算法。  相似文献   

10.
遗传算法是一种全局化算法,能以较大概率搜索到全局最优解。本文将Alopex算子嵌入到保留最优个体遗传算法(EGA)中,对非可微或求导困难函数从而得到既能以较大概率搜索全局极值,又能进行局部细致搜索的混合全局优化算法;并对其全局收敛性和计算效率作了证明与分析。数值计算结果表明该算法优于求解函数优化的EGA和Alopex算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号