共查询到20条相似文献,搜索用时 46 毫秒
1.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好. 相似文献
2.
基于DRPKP算法的文本去重研究与应用 总被引:1,自引:0,他引:1
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑.基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimHash算法在特定行业文本去重中的不足,创新地提出一种基于段落主题的文本去重方法(简称DRPKP算法),通过对去重准确率、覆盖率和去重时间3个指标进行对比测试,DRPKP算法比SimHash算法准确率可提高24.5%、覆盖率可提高16.34%,且去重时间更短. 相似文献
3.
元搜索引擎的结果去重及排序研究 总被引:2,自引:0,他引:2
结果去重和排序是提高元搜索引擎结果质量的两个关键问题,文章分析余弦相似度、基于TF-IDF的文本相似度三种去重算法,利用URL、标题和计算摘要相似度三方面去重;研究了Board排序、星星排序、轮询法、位置排序和概念可行度对检索结果的影响,提出了一种综合排序算法。实验结果表明,综合排序算法在准确率、召回率等方面都优于其他算法。 相似文献
4.
王淑强 《自动化技术与应用》2023,(1):89-92
当前方法对电力营销数据进行去重管理时,重复数据检测准确率、去重率低,因此提出基于信息系统的电力营销数据去重管理方法。构建电力营销信息系统,采用营销时空特征数据云模型中存在的映射规则对电力营销数据进行降维处理。对降维处理后的电力营销数据进行聚类分析,并获得对应的包装器,识别有效电力营销数据,通过相似度函数判断电力营销数据是否重复,实现电力营销数据的去重管理。实验结果表明,本文方法的重复数据检测准确率高、去重率高,说明本文方法的去重效果较好。 相似文献
5.
6.
唐新宇 《自动化与仪器仪表》2021,(7):34-37
由于时序大数据的体量过大,信息检索工作变得极为困难,因此,需要利用去重算法管理时序大数据.由于传统算法对大数据类别的分类效果不够理想,导致应用去重算法的相关系统性能下降,因此,研究基于贝叶斯模型的时序大数据并行去重算法.该算法预先定义了时序大数据重复度,对冗余数据进行压缩,基于超级特征值检测相似数据,通过贝叶斯模型分类... 相似文献
7.
基于Rabin指纹方法的URL去重算法 总被引:1,自引:1,他引:1
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度. 相似文献
8.
9.
10.
11.
基于父个体相似度的自适应遗传算法 总被引:3,自引:2,他引:3
标准遗传算法在产生后代个体时采用先交叉后变异的策略,一方面当父个体非常相似时,交叉操作很难产生新的个体,影响算法对新的解空间进行搜索,从而导致种群多样性的丧失;另一方面交叉产生的优秀个体再历经变异,极有可能遭破坏而影响算法的收敛性。该文根据染色体的相似性,给出了个体相似度的概念,并在此基础上提出了依据父个体相似度的大小自适应地选择遗传算子(交叉或变异)的遗传算法。仿真实验表明,与采用常规遗传策略的遗传算法相比,新算法能显著提高解的质量和收敛速度。 相似文献
12.
基于分子子结构相似性提出一种计算质谱相似性的算法, 可较有效地实现相似检索。 相似文献
13.
14.
高校中的社团较多,如何能让大学生快速地找到感兴趣的社团,成为社团管理者面临的主要问题。为了向大学生推荐可能喜欢的社团,本项目通过基于协同过滤的推荐算法,找到共同出现的频率来计算语义的相似度,并通过计算空间向量的夹角余弦值进而计算文本之间的相似度,能够在提高社团管理者工作效率的同时,为需要加入社团的学生和对社团文化有浓厚兴趣的学生提供更加全面的信息。实验结果表明,当推荐项目数量为10时,该方法的召回率、准确率和Fl值分别提高了12.81%、7.65%和14.51%,表明基于协同过滤的推荐算法可有效提高推荐结果。 相似文献
15.
传统的用户相似度计算方法中每个项目的权重是相同的,然而分析传统推荐算法和现实情形,用户间共同高评分项目的权重应该高于用户间共同低评分项目的权重,并且传统用户相似度计算方法没有考虑项目间的类群关系。针对上述问题,提出了一种给项目加权的方法,从而得到考虑项目相似权重的用户相似度计算方法。通过在MovieLens数据集上进行实验,与基于传统用户相似度计算方法的协同过滤算法比较,实验结果表明,考虑了项目相似度权重的协同过滤算法能显著提高评分预测的准确性和推荐系统的质量。 相似文献
16.
17.
This article describes AQUA, an experimental question answering system. AQUA combines Natural Language processing (NLP), Ontologies, Logic, and Information Retrieval technologies in a uniform framework. AQUA makes intensive use of an ontology in several parts of the question answering system. The ontology is used in the refinement of the initial query, the reasoning process and in the novel similarity algorithm. The similarity algorithm is a key feature of AQUA. It is used to find similarities between relations/concepts in the translated query and relations/concepts in the ontological structures. The similarities detected then allow the interchange of concepts or relations in a logic formula corresponding to the user query. 相似文献
18.
在传统K-中心点聚类算法中,相似性一般仅仅用距离来进行度量,这种度量方法均基于对象属性之间是独立同分布的,但大多数真实数据对象属性之间都相关联的,因此,本文将引用非独立同分布计算公式,对传统距离计算相似度方法进行替换。同时,由于此公式会依据属性值的频率来进行计算,但数值型数据对于频率并不敏感,因此,本文在引入公式之前,将数值型数据按属性列进行聚类与替换。实验结果表明,本文方法可以提高算法的聚类精度。 相似文献
19.
语义相似的PageRank改进算法 总被引:1,自引:0,他引:1
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。 相似文献