首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
随着互联网络光链路速率不断提高,路由查找已成为路由器报文转发的瓶颈。本文主要介绍近年来基于Tile的各种路由查找方法,同时对各种方法的性能进行了比较,最后介绍了一种性能优良的基于Trie的路由查找算法——压缩树算法。  相似文献   

2.
基于统计的中文文本主题自动提取研究   总被引:5,自引:1,他引:5  
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。  相似文献   

3.
三维最大Renyi熵的灰度图像阈值分割算法   总被引:1,自引:0,他引:1  
针对现阶段的阈值分割算法(如最小误差法、Otsu法、Renyi熵法等)在灰度、邻域均值或中值构成的二维或三维直方图上进行分割而造成的误分和低抗噪性等问题,提出了一种基于灰度、邻域均值和邻域加权中值三维直方图的最大Renyi熵阈值分割算法。相比目前多种阈值分割算法,新加入的邻域加权中值既能很好地过滤噪声,又能保留一定的图像边缘细节。经过对多幅图像的实验表明,该方法无论在精度上还是抗噪性上都有明显提升。  相似文献   

4.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

5.
基于熵的决策树分枝合并算法   总被引:10,自引:0,他引:10  
目前,基于逻辑的示例学习算法主要分两大类,决策树算法和基于规则的算法,前者以ID3为代表,ID3使用“信息熵”作启发式得出较小的决策树,但ID3算法只注意到减少树的深度,忽视树的宽度,本文给出了一种决策树分枝合并算法。可减少决策树的宽度,从而得出比ID3更好的结果。  相似文献   

6.
Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能。据此特性,该文提出了一种适应于中文分词的自动机算法。该算法使用动态规划的方法,计算上下文匹配概率,转移至最佳的有效后续状态,即实现了基于字符串匹配的机械分词方法与基于统计概率模型的方法结合。实验结果表明,该算法分词准确率高。  相似文献   

7.
网络带宽的激增对网络入侵检测系统(NIDS)的检测速度提出越来越高的要求。分类算法作为一种有效降低数据包待匹配规则集的方法,其效率对后继检测算法影响重大。研究了适用于GIDS的经典分类算法Hicuts和针对它的修改升级算法Picuts,针对Picuts没有考虑报文域的特征对于分类树的影响的缺点提出了基于最大属性熵的分类树本地优化策略和新的分类树生成算法MaxFeatureEntropy。最大属性熵策略从理论上保证减小决策树高度。采用开源的snort1.8.7的规则集作为实验数据,结果表明:当每结点包含规则数阀值等于6时,其空间消耗只有Hicuts的10%,是Picuts的60%,速度上较之Hicuts提升了44.4%,较之Picuts提升了20%。  相似文献   

8.
针对工作流环境下现有各种权限代理模型存在的不足,提出了一个基于加权角色的工作流权限代理模型。该模型通过给角色加权,并在工作流任务中引入变量,支持条件化部分权限代理;通过引入角色代理树,支持多步权限代理,并给出了权限代理的一致性判定方法。基于该模型,给出了相应的权限代理算法和撤销算法。最后通过一个应用实例,详细演示了该权限代理模型的工作过程和角色代理树的构造。  相似文献   

9.
传统的k_means算法将欧式距离作为最常用的距离度量方法.针对基于欧式距离计算样本点与类间相似度的不足,用"相对距离"代替"绝对距离"可以更好地反映样本的实际分布,提出一种在领域知识未知的情况下基于加权欧式距离的k_means算法.针对公共数据库UCI里的数据实验表明改进后的算法能产生质量较高的聚类结果.  相似文献   

10.
基于加权样本的FCM快速算法研究   总被引:2,自引:0,他引:2  
为改进FCM算法在处理大样本集聚类时速度慢、耗时多的缺点,根据样本在特征空间中的特征值分布情况,引入等价样本和样本加权概念,在此基础上提出了FCM(Fuzzy C-Means)的快速算法一般形式:WFCM(Weighted Fuzzy C-Means)算法.理论上证明了WFCM算法和FCM算法对样本集分割的等价性,并且,WFCM在运算性能方面明显优于FCM算法.而两个算法在灰度图像分割上的例子验证了WFCM算法的快速性和有效性.  相似文献   

11.
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。  相似文献   

12.
Wordisalogicalsemanticandsyntacticunitinnaturallanguage.UnlikeEnglish,thereisneitherde limitertomarkwordboundariesnorexplicitdefinition ofwordsinChinese.WordsegmentationtransformsChinesecharacterstringintowordsequence.Asapre requisitepartofPOStagging,parserandotherdeeply processing,earlyerrorinsegmentationwillalwayscas cadethroughthechain,causingthewholesentenceer rorinthefinaloutputs,suchasMachineTranslation,InformationExtractionandtheQuestionandAnswer(QA)System.Thoughwordsegmentationha…  相似文献   

13.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

14.
通过对中文互联网的信息内容特点和信息提取难点的分析,阐述了基于现有搜索引擎进行互联网汉语近似网络词频的提取方法,并对汉语近似网络词频的特点和应用进行了初步探讨.  相似文献   

15.
针对ID3算法用信息增益作为在各级非叶节点上选择属性的标准的局限性,结合统计学独立检验思想,给出一种新的属性依赖性和重要性定义,以新的属性重要性为启发式信息设计决策树规则提取算法。实例分析的结果表明,该算法能提取更为简洁有效的决策规则。  相似文献   

16.
为解决传统遗传算法容易早熟及收敛速度慢的缺陷,在分析了多样性的重要性后,提出了一种新的基于信息熵的遗传策略,该策略在保留最优个体的基础上,根据当前种群个体熵与种群熵的变化自适应调整遗传算子的各项参数,将种群的内部状态与遗传操作有机地结合起来,使得种群多样性得到保证,提高算法的全局搜索能力.试验结果表明了该方法在运行过程中能避免早熟的发生,在处理复杂问题时表现出较高的性能.  相似文献   

17.
词汇相似度约束的短语抽取   总被引:2,自引:0,他引:2  
为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,提出基于词汇相似度约束的短语抽取策略;在此框架下,提出了3种基于词汇相似度的约束方法:Dice系数、Phi平方系数和对数似然比.在IWSLT2004语料上进行的实验表明,3种基于词汇相似度的约束方法的翻译系统的BLEU评分均优于传统的翻译系统;其中基于对数似然比方法得到的翻译模型比基线系统Pharaoh的BLEU-4评分提高了15.14%.  相似文献   

18.
为克服预测神经网络输入值对网络输出预测值贡献程度基本等同的缺陷,提出一种信息熵加权的神经网络智能预测方法。提出信息熵权值的计算方法和延时重构的加权前处理方法,并以Elman神经网络为基础,构建基于信息熵加权Elman神经网络的预测模型。烟气轮机状态趋势预测实例表明,基于信息熵加权Elman神经网络预测方法的预测效果较好,为状态趋势预测提供了一种新方法。  相似文献   

19.
基于实体词语义相似度的中文实体关系抽取   总被引:1,自引:1,他引:0  
为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号