首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
为改善余弦相似度不能反映词袋模型中词项间顺序差异的缺点,提出了一种基于编辑距离的文档相似度度量方法.首先分析了基于 tf - idf 的词袋模型和余弦相似度计算方法所存在的问题; 其次利用Jaccard系数和编辑距离描述两个字符串的公共子串中词语之间的顺序差异,并提出了一种词序敏感相似度计算方法; 最后利用实验数据对算法的有效性进行了验证,结果显示本文方法在Top1、Top3上的F1指标比原始的余弦相似度方法分别提高了0.082 5、 0.112 6,表明本文方法能够有效地提升信息检索系统的性能,具有很好的应用价值.  相似文献   

2.
提出一种特殊标记符和词根沙普利值二步骤分词模型,提高分词的准确率,通过搜索引擎指数来识别新词。在相似度比较方面,提出了带行列顺序罚分因子距离矩阵模型,该模型综合了向量检测、汉明距离和最长公共子串的特点,重新定义了距离矩阵。与传统的论文相似性检索相比,具有分词准确,计算量小等优点。  相似文献   

3.
提出了启发式A*算法度量任意多个图的相似度方法,该算法将多图表示多重序列,在多重序列的匹配点上计算多重序列的所有公共子序列数,得到的所有公共子序列数用来度量多图的相似度。该算法避免了在非匹配点上的冗余计算,最大化后缀序列的所有公共子序列数的启发函数值,将访问的节点限制在两个序列匹配的子集,减少了计算节点的个数。与现有度量图的相似度方法相比,该算法不仅可以度量任意多个图的相似度,而且计算过程简单,通过启发信息的引导能够快速地度量多图的相似度。  相似文献   

4.
为了降低物流配送过程中车辆的碳排放,采用具有良好通用性的超启发式算法对低碳选址路径问题进行求解。将蛙跳算法作为超启发式算法的高层选择策略,并在蛙跳算法中提出了基于最长公共子序列的相似度计算方式代替原有的相似度计算,而采用动态规划的方法对个体间的最长公共子序列进行计算。实验结果表明:提出的相似度计算方式能更直观地反映个体之间的相似性,具有良好的通用性,并且在低碳选址-路径问题上获得更优秀的解。  相似文献   

5.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

6.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

7.
对不同语言的句对齐文献资料进行分析,提出了基于多语主题模型的跨语言文献相似度的计算方法.首先,对收集整理的不同语言(中文、英文、韩文)文献构建数据模型,通过分词、分词结果修正及选择、词权重计算等预处理工作构造词项-文档矩阵.其次,建立多语主题语义空间,将译成3种不同语言的文献映射到语义空间,在语义空间中每一主题都由3种语言构成.最后,通过其语义空间中对应的主题计算比较不同语言间的文献相似度.实验结果显示,不同语言之间的文献相似度可以直接在语义空间中计算,且相似度计算的准确性在90%以上,验证了本文方法在跨语言文献相似度计算时的有效性.  相似文献   

8.
借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。  相似文献   

9.
基于区间编码的有效XML结构连接   总被引:1,自引:0,他引:1  
给出了XML文档的文档树数据模型,并对文档树上各结点进行区间编码.通过改进基于缓存的归并结构连接算法,提出了一种新的处理结点包含关系的有效结构连接算法,该算法只需要对祖先结点集和后裔结点集各扫描一次,即可完成结构连接,甚至可以跳过那些无需参与连接的祖先或后裔结点,从而更快地完成结构连接.  相似文献   

10.
针对向量空间模型忽略词语出现位置和词序的缺点,结合科技文献结构明显分层的特点,本文提出了基于N层向量空间模型的文本相似度计算方法.该算法首先用N层向量空间模型表示查询短语和科技文献,其次在词频角度上和词序角度上分别计算两者间的相似度,最后得出整体的文本相似度.将本文算法应用于中、朝、英对照科技文献多语种检索模块测试其有效性,测试结果表明,本文设计的文本相似度计算方法算法性能较好,与传统的向量空间模型余弦相似度算法相比,查准率提高了2.7%,MRR提高了2.02%.  相似文献   

11.
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。针对规则碎纸片的复原问题,首先自动提取碎片的行间距特征,采用Mean-shift算法对所有碎片进行聚类分析,然后根据碎片边界的灰度特征,建立碎片之间的相似性矩阵,最后采用遗传算法将碎片进行拼接。  相似文献   

12.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

13.
为了解决在多文档下插入节点或需要修改节点编码时查询效率比较低的问题,提出了一种有效的结构连接算法.在分析现有单文档下的XML结构连接算法基础上,对祖先/后裔与双亲/孩子结构查询进行改进,基于归并思想解决多文档下的结构连接,以适应在面向方面的XML Schema中定义的基于多文档的查询.改进后的结构连接算法可以进一步利用XML数据的特点、索引和织入文档信息减少连接扫描的代价,具有一定的合理性、有效性和实用性.  相似文献   

14.
可扩展标记语言正在成为Web上各种应用交换信息的标准。对高性能可扩展标记语言数据处理技术的需求正日益增长。现有的大部分可扩展标记语言文档相似度计算方法是基于文档结构特征的。该文提出了一个新的基于综合语义的可扩展标记语言文档相似度计算方法。该方法综合利用了可扩展标记语言文档的结构信息和内容信息,具有一定应用前景。  相似文献   

15.
16.
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。  相似文献   

17.
提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.  相似文献   

18.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

19.
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号