首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard、Cosine Similarty经典去重算法,以及常见的分词和特征选择算法,以寻求表现优异的算法搭配,并对传统Jaccard和SimHash进行了改进分别产生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.针对比较对象众多实验效率低下的问题,提出了先纵向比较筛选出优势算法,然后横向比较获得最佳搭配,最后综合比较的策略,并结合3000舆情样本实验证明:改进的SimHash比传统的SimHash具有更高的精度和召回率;改进的Jaccard较传统Jaccard,召回率提高了17%,效率提高了50%;MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96%的条件下,都具有75%以上的高召回率,且稳定性很好.其中MinHash去重效果略低于Jaccard,但特征比较时间较短,综合表现最好.  相似文献   

2.
基于DRPKP算法的文本去重研究与应用   总被引:1,自引:0,他引:1  
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑.基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimHash算法在特定行业文本去重中的不足,创新地提出一种基于段落主题的文本去重方法(简称DRPKP算法),通过对去重准确率、覆盖率和去重时间3个指标进行对比测试,DRPKP算法比SimHash算法准确率可提高24.5%、覆盖率可提高16.34%,且去重时间更短.  相似文献   

3.
元搜索引擎的结果去重及排序研究   总被引:2,自引:0,他引:2  
杨春明  何天翔 《软件》2012,(6):51-53
结果去重和排序是提高元搜索引擎结果质量的两个关键问题,文章分析余弦相似度、基于TF-IDF的文本相似度三种去重算法,利用URL、标题和计算摘要相似度三方面去重;研究了Board排序、星星排序、轮询法、位置排序和概念可行度对检索结果的影响,提出了一种综合排序算法。实验结果表明,综合排序算法在准确率、召回率等方面都优于其他算法。  相似文献   

4.
当前方法对电力营销数据进行去重管理时,重复数据检测准确率、去重率低,因此提出基于信息系统的电力营销数据去重管理方法。构建电力营销信息系统,采用营销时空特征数据云模型中存在的映射规则对电力营销数据进行降维处理。对降维处理后的电力营销数据进行聚类分析,并获得对应的包装器,识别有效电力营销数据,通过相似度函数判断电力营销数据是否重复,实现电力营销数据的去重管理。实验结果表明,本文方法的重复数据检测准确率高、去重率高,说明本文方法的去重效果较好。  相似文献   

5.
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。  相似文献   

6.
由于时序大数据的体量过大,信息检索工作变得极为困难,因此,需要利用去重算法管理时序大数据.由于传统算法对大数据类别的分类效果不够理想,导致应用去重算法的相关系统性能下降,因此,研究基于贝叶斯模型的时序大数据并行去重算法.该算法预先定义了时序大数据重复度,对冗余数据进行压缩,基于超级特征值检测相似数据,通过贝叶斯模型分类...  相似文献   

7.
基于Rabin指纹方法的URL去重算法   总被引:1,自引:1,他引:1  
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法.此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断.实验表明,该算法能有效去除URL集合中重复的URL.提高检索速度.  相似文献   

8.
针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识别处理。实验结果表明,与原有网页去重算法相比,该算法的执行效果提高了14.3%,对网页去重有了很明显的改善。  相似文献   

9.
现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采用基于Bloom Filter的网页去重算法。使用了现有的网页去杂算法,对网页进行预处理,同时利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。从网页中提炼出表示网页特征的一些长句,从而把网页去重过程转换为一个搜索长句的过程,使用Bloom Filter减小了算法的时间复杂度。  相似文献   

10.
基于HTML标记和长句提取的网页去重算法   总被引:1,自引:0,他引:1  
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为网页的特征。通过分析两张网页所共享长句的数量,来判断两张网页是否重复。该算法还利用红黑树对网页的长句进行索引,从而把网页去重过程转换为一个搜索长句的过程,减小了算法的时间复杂度。实验结果表明该算法能够高效,准确地去除重复的网页。  相似文献   

11.
基于父个体相似度的自适应遗传算法   总被引:3,自引:2,他引:3  
标准遗传算法在产生后代个体时采用先交叉后变异的策略,一方面当父个体非常相似时,交叉操作很难产生新的个体,影响算法对新的解空间进行搜索,从而导致种群多样性的丧失;另一方面交叉产生的优秀个体再历经变异,极有可能遭破坏而影响算法的收敛性。该文根据染色体的相似性,给出了个体相似度的概念,并在此基础上提出了依据父个体相似度的大小自适应地选择遗传算子(交叉或变异)的遗传算法。仿真实验表明,与采用常规遗传策略的遗传算法相比,新算法能显著提高解的质量和收敛速度。  相似文献   

12.
基于分子子结构相似性提出一种计算质谱相似性的算法, 可较有效地实现相似检索。  相似文献   

13.
在对视频进行基于内容检索时,对由分割得到的镜头进行有效的组织是提高检索效率的一种重要手段.在绝大多数情况下,传统的自动组织方法不能给出令人满意的结果,而需要通过人机交互来进行组织.文章提出了相似顺序图的概念,即对镜头代表帧重新排序,使得感官上相近的代表帧在新序列中位置相近,以便于用户的交互组织.文章还提出了相似距离的概念以作为对序列中相近代表帧相似性的度量,并采用了改进的遗传算法来进行求解.文章阐述了相似顺序图、相似距离和求解采用的改进遗传算法的基本思想,并给出了实验结果和分析.  相似文献   

14.
高校中的社团较多,如何能让大学生快速地找到感兴趣的社团,成为社团管理者面临的主要问题。为了向大学生推荐可能喜欢的社团,本项目通过基于协同过滤的推荐算法,找到共同出现的频率来计算语义的相似度,并通过计算空间向量的夹角余弦值进而计算文本之间的相似度,能够在提高社团管理者工作效率的同时,为需要加入社团的学生和对社团文化有浓厚兴趣的学生提供更加全面的信息。实验结果表明,当推荐项目数量为10时,该方法的召回率、准确率和Fl值分别提高了12.81%、7.65%和14.51%,表明基于协同过滤的推荐算法可有效提高推荐结果。  相似文献   

15.
传统的用户相似度计算方法中每个项目的权重是相同的,然而分析传统推荐算法和现实情形,用户间共同高评分项目的权重应该高于用户间共同低评分项目的权重,并且传统用户相似度计算方法没有考虑项目间的类群关系。针对上述问题,提出了一种给项目加权的方法,从而得到考虑项目相似权重的用户相似度计算方法。通过在MovieLens数据集上进行实验,与基于传统用户相似度计算方法的协同过滤算法比较,实验结果表明,考虑了项目相似度权重的协同过滤算法能显著提高评分预测的准确性和推荐系统的质量。  相似文献   

16.
谢志文  尹俊勋  金晶 《计算机应用》2005,25(11):2665-2667
提出了一种新的遗传算法配对方式,并计算了配对概率。以这种配对方式为基础,对一个极大值问题作了计算机模拟。结果表明,这种配对方法从生物学角度来说,更符合生物世界的真实配对方式。而从探索最优解的角度来说,这种配对方式有助于优良基因结构的保留。因此这种配对方式可加快计算的收敛速度。  相似文献   

17.
    
This article describes AQUA, an experimental question answering system. AQUA combines Natural Language processing (NLP), Ontologies, Logic, and Information Retrieval technologies in a uniform framework. AQUA makes intensive use of an ontology in several parts of the question answering system. The ontology is used in the refinement of the initial query, the reasoning process and in the novel similarity algorithm. The similarity algorithm is a key feature of AQUA. It is used to find similarities between relations/concepts in the translated query and relations/concepts in the ontological structures. The similarities detected then allow the interchange of concepts or relations in a logic formula corresponding to the user query.  相似文献   

18.
在传统K-中心点聚类算法中,相似性一般仅仅用距离来进行度量,这种度量方法均基于对象属性之间是独立同分布的,但大多数真实数据对象属性之间都相关联的,因此,本文将引用非独立同分布计算公式,对传统距离计算相似度方法进行替换。同时,由于此公式会依据属性值的频率来进行计算,但数值型数据对于频率并不敏感,因此,本文在引入公式之前,将数值型数据按属性列进行聚类与替换。实验结果表明,本文方法可以提高算法的聚类精度。  相似文献   

19.
语义相似的PageRank改进算法   总被引:1,自引:0,他引:1  
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。  相似文献   

20.
李旭  林伟  史彩云  温金环 《计算机应用》2010,30(5):1415-1417
针对极化SAR图像分类存在的问题,提出了基于SAR目标的极化特征的二维谱聚类方法。该方法可以充分考虑目标的极化相似性特征,利用二维的谱聚类方法实现极化SAR图像的分类。它以两目标散射的极化相似性参数图像作为输入特征,用二维图权函数代替一维图权函数求权值,使采样点分类和特征矢量分类相一致,从而实现极化SAR图像的分类。实验结果表明,该方法具有更好的分类结果,明显优于K均值分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号