共查询到20条相似文献,搜索用时 125 毫秒
1.
针对协同过滤算法推荐结果存在受噪音数据影响严重的问题,提出了一种基于用户项目间的关联规则集的协同过滤算法.利用经典的Apriori算法进行频繁项集合关联规则集的挖掘,利用挖掘的关联规则集进行用户间的相似度计算,相比于pearson相似等方法,基于关联规则集相似可以提高改进算法对噪音数据的抵抗力,最后进行最近邻居集计算并产生更适合用户的推荐结果.改进算法和传统算法在MovieLens数据集上的实验表明,基于Apriori算法的协同过滤算法较传统算法进一步提高了推荐准度和覆盖率. 相似文献
2.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。 相似文献
3.
4.
基于关联规则的Apriori算法的可视化实现方法 总被引:5,自引:0,他引:5
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了优化.该算法以经典的Apriori算法为基础,改进后的算法在运算速度明显好于Apriori算法.同时,还介绍了一种基于Apriori算法的可视化挖掘模型[1],并讨论了该可视化模型的实现方法. 相似文献
5.
从历史考试数据中提出有用的信息具有重要的意义。使用关联规则挖掘是有效的手段之一。然而,传统的Apriori关联规则挖掘算法存在不足之处。为此,本文应用一种改进的、基于Apriori的关联规则挖掘算法,在高考考试数据上进行了尝试,得出了有益的结果。为进一步构建针对教育考试的实际数据挖掘应用系统奠定了基础。 相似文献
6.
针对信息检索中查询关键词与文档用词不匹配的问题,提出一种基于关联规则与聚类算法的查询扩展算法。该算法在第1阶段对初始查询结果的前N篇文档进行关联规则挖掘,提取含有初始查询项的关联规则构建规则库,并从中选取与查询用词关联度最大的置个词作为扩展词,与初始查询组成新查询后再次查询,在第2阶段将新查询结果进行聚类分析并计算结果中每篇文档的最终相关度,按最终相关度大小重新排序。实验结果表明,该算法比单独使用关联规则算法或是单独使用聚类算法均有更优的检索性能。 相似文献
7.
一种基于向量的关联规则挖掘算法改进 总被引:1,自引:0,他引:1
通过对Apriori算法思想和传统的向量挖掘算法进行分析,提出一种基于向量运算的关联规则改进算法.该算法采用树形数据结构,克服了Apriori算法需多次扫描数据库这一缺点,并通过向量计算来避免生成候选项集,经过实验证明提高了关联规则挖掘的效率. 相似文献
8.
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了优化.Partition算法以经典的Apriori算法为基础,通过将数据库分成几个互不相交的块来实现算法效率的提高.同时,还介绍了一种基于Apriori-Partition算法的可视化挖掘模型,并讨论了该可视化模型的实现方法. 相似文献
9.
李莉 《自动化与仪器仪表》2014,(7):1-4
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。 相似文献
10.
长项优先的产生算法——改进的Apriori算法 总被引:1,自引:0,他引:1
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.本文简单介绍了Apriori算法,提出了Apriori算法的改进方案--长项优先的产生算法,它基于传统Apriori算法,通过改变候选项集的产生顺序来减少数据库访问,从而提高效率. 相似文献
11.
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。 相似文献
12.
针对通用搜索引擎缺乏对网页内容的时态表达式的准确抽取及语义查询支持,提出时态语义相关度算法(TSRR)。在通用搜索引擎基础上添加了时态信息抽取和时态信息排序功能,通过引入时态正则表达式规则,抽取查询关键词和网页文档中的时态点或时态区间等时态表达式,综合计算网页内容的文本相关度和时态语义相关度,从而得到网页的最终排序评分。实验表明,应用TSRR算法可以准确而有效地匹配与时态表达式相关的关键词查询。 相似文献
13.
个性化搜索引擎系统机制的研究 总被引:2,自引:0,他引:2
随着网络信息资源的迅速增加,个性化信息服务越来越成为信息检索领域中研究的热点,针对传统搜索引擎系统的缺点,提出了一种新型个性化搜索引擎系统的体系结构,并在此基础上给出了系统中个性化机制的相关算法,同时使用基于关键词的搜索,利用Web挖掘技术,在实现为不同用户提供不同检索结果的同时提高了个性化查询的精确度和速度,保证了全查率. 相似文献
14.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。 相似文献
15.
16.
主题相关度算法是搜索引擎的重要组成部分,影响搜索引擎的用户体验.本文将语义网技术同传统的信息检索技术相结合,并参考知识本体,给出一个利用用户反馈的判断主题相关度的判断算法,通过实验验证了算法能有效提高用户搜索的准确率和召回率。 相似文献
17.
关键词提取技术是语料库构建、文本分析处理、信息检索的基础.采用传统的TFIDF算法提取关键词时,主要依据词频计算权重,而未考虑文本特征项的影响,由于对词频的过度依赖,导致其提取关键词的准确性不高.针对这个问题,本文根据关键词的特性,引入位置和词性作为影响因子,对TFIDF算法权重重新进行了计算和排序,从而改进该算法,并利用Python语言完成了实现.实验结果表明,采用该改进方法提取关键词,其召回率、准确率、F因子与传统方法相比均得到明显提升. 相似文献
18.
语义Web环境下的信息检索机制研究 总被引:1,自引:0,他引:1
人们借助搜索引擎在网络资源中查找所需信息,但搜索引擎本身并不理解要检索内容的真正含义,只是严格的按照关键词进行匹配.语义Web的目标是实现网络资源的机器理解,成为近年来一个新的研究热点.将Agent思想应用到语义Web中,提出了语义Web环境下的信息检索模型,介绍了模型中每个组成部分的功能.然后以图书信息检索为应用背景,将提出的信息检索模型进行了应用.结果表明,信息检索的查准率和查全率都有了较好的改善. 相似文献
19.
为解决传统的基于关键词的信息检索只能从语法上分析关键词、进行关键词的机械匹配,导致检索缺乏语义的问题,提出了一个基于本体的语义网检索模型,并以此为基础构建一个系统原型。实践结果表明,该检索模型能够在一定程度上改善检索效果。 相似文献
20.
基于Lucene的语义检索系统 总被引:5,自引:3,他引:2
在一种基于LUCENE的传统文本检索引擎之上,采用C/S架构模式的语义检索实验系统。用户可以根据需要,从客户端向服务器提交相应的查询信息配置,服务器根据此配置,通过本体导航与同义词查询2种查询扩展优化技术,对提交的查询关键词组进行查询、扩展等优化处理后,将经优化处理过的查询关键词组导入传统的文本检索引擎中,对文档资源进行匹配,将查询结果根据用户要求的排列,并依次返回给用户。通过用户与服务器的信息交互与对查询语句的查询扩展,该系统提高了查准率与查全率。 相似文献