首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 264 毫秒
1.
协同过滤算法是推荐系统中使用广泛的一种算法,然而传统协同过滤算法仅利用评分信息,实际场景下会面临相似度计算准确率低,推荐个性化程度不高的缺陷,难以满足用户的需求.针对协同过滤算法的不足,结合用户主观偏好与项目属性扩充提出一种改进算法,首先在项目相似度计算上做了两个改进:引入标签相关度,依据项目标签相关度来研究项目之间的相似度,并根据项目历史评分用户的特征构造项目的扩充属性,可用于从项目受众类型的角度衡量项目相似度;其次考虑到用户存在主观偏好的情况,使用支持向量机为每个用户训练标签偏好预测模型,可用于项目预测评分的修正,提高推荐的个性化程度和准确度.基于MovieLens数据集的实验结果表明,所提算法能更准确地计算项目间的相似度,且能根据用户的个性化偏好得出更精确的预测评分.  相似文献   

2.
传统基于项目的协同过滤算法在计算项目相似度时仅依靠评分数据,未考虑项目的自身特征。社会化标注的出现使得标签能在一定程度上反映项目特征,但标签具有语义模糊的特点,因此直接将标签纳入协同过滤算法存在一定问题。为解决上述问题,提出一种改进的基于项目的协同过滤推荐算法。该算法对标签进行聚类并生成主题标签簇,根据项目标注情况计算项目与主题间的相关度并生成项目-主题相关度矩阵,同时将其与项目-评分矩阵相结合来计算项目间的相似度,采用协同过滤完成对目标项目的评分预测,以实现个性化推荐。在Movielens数据集上的实验结果表明,该算法能够解决标签的语义模糊问题并提升推荐质量。  相似文献   

3.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。  相似文献   

4.
融合用户评分与显隐兴趣相似度的协同过滤推荐算法   总被引:1,自引:0,他引:1  
协同过滤算法是推荐系统中使用最广泛的算法,其核心是利用某兴趣爱好相似的群体来为用户推荐感兴趣的信息。传统的协同过滤算法利用用户-项目评分矩阵计算相似度,通过相似度寻找用户的相似群体来进行推荐,但是由于其评分矩阵的稀疏性问题,对相似度的计算不够准确,这间接导致推荐系统的质量下降。为了缓解数据稀疏性对相似度计算的影响并提高推荐质量,提出了一种融合用户评分与用户显隐兴趣的相似度计算方法。该方法首先利用用户-项目评分矩阵计算用户评分相似度;然后根据用户基本属性与用户-项目评分矩阵得出项目隐性属性;之后综合项目类别属性、项目隐性属性、用户-项目评分矩阵和用户评分时间,得到用户显隐兴趣相似度;最后融合用户评分相似度和用户显隐兴趣相似度得到用户相似度,并以此相似度寻找用户的相似群体以进行推荐。在数据集Movielens上的实验结果表明,相比传统算法中仅使用单一的评分矩阵来计算相似度,提出的新相似度计算方法不仅能够更加准确地寻找到用户的相似群体,而且还能够提供更好的推荐质量。  相似文献   

5.
针对聚焦爬虫网页核心内容提取算法准确性偏低以及相似度计算模型语义信息考虑不充分造成的爬取准确度和效率偏低的问题,提出结合文本密度的语义聚焦爬虫方法。引入核心内容提取算法,使用标题结合LCS算法定位核心内容文本的起始和终止位置,提取网页核心内容。引入基于Word2vec的主题相关度算法计算核心内容的主题相关度,改进PageRank算法计算链接主题重要度。结合主题相关度和主题重要度计算链接优先级。此外,为提高聚焦爬虫的全局搜索性能,结合主题词使用搜索引擎扩展链接集。与通用爬虫和多种聚焦爬虫相比,该方法爬虫爬取准确度和效率更优。  相似文献   

6.
《计算机工程》2018,(3):189-194
传统的搜索引擎仅返回给用户包含查询关键字的文档,忽略了查询背后用户真正的信息需求。为此,将文档检索看作个性化推荐问题,提出一种查询意图识别的主题模型个性化检索算法。对用户检索历史进行潜在狄利克雷分布主题建模,结合检索历史主题模型识别用户查询的潜在意图,并按主题相关度进行文档推荐,计算查询到文档集的KL距离对文档集排序,最终返回给用户个性化检索文档列表。实验结果表明,与基于协同相似计算和基于用户聚类的推荐算法相比,该算法能够更准确有效地为用户提供个性化检索。  相似文献   

7.
高茂庭  杨涛 《计算机应用研究》2020,37(12):3565-3568,3577
针对弹幕视频网站通常不为用户提供评分功能并且使用弹幕池策略以降低存储压力导致的缺少用户评分和无法准确建模用户主题的问题,提出融合主题模型和协同过滤的弹幕视频推荐算法(DRCFT)。首先根据用户行为构造隐式评分矩阵,并得到项目评分相似度;其次建立LDA主体模型,生成项目主题,计算项目主题相似度;再加权生成综合项目相似度,由此结合评分矩阵计算用户—项目预测评分;然后对项目主题相似度矩阵进行sigmoid惩罚,结合用户历史记录得到用户—项目主题相似度;最后将用户—项目主题相似度作为权重,与预测评分相乘,得到最终的预测评分。对比实验表明,该算法能够得到合理的推荐结果,提高推荐的准确性。  相似文献   

8.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

9.
针对传统的协同过滤算法存在数据稀疏、冷启动、推荐精度低等问题,提出一种充分融合用户与项目属性的协同过滤算法。利用项目属性和用户属性分别对用户相似度和项目相似度计算方法进行改进,并将用户和项目协同过滤进行组合加权,提高预测兴趣度的准确度。引入用户属性-项目类型偏好权重因子,利用天牛须搜索方法对兴趣度计算方法进行改进。实验结果表明:该算法能有效地缓解冷启动、数据稀疏对推荐系统的影响,且推荐精度有一定的提高。与传统的项目和用户协同过滤算法相比,召回率分别提高了8.65%和3.39%。  相似文献   

10.
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。  相似文献   

11.
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。  相似文献   

12.
The project review information plays an important role in the recommendation of review experts. In this paper, we aim to determine review expert's rating by using the historical rating records and the final decision results on the previous projects, and by means of some rules, we construct a rating matrix for projects and experts. For the data sparseness problem of the rating matrix and the “cold start” problem of new expert recommendation, we assume that those projects/experts with similar topics have similar feature vectors and propose a review expert collaborative recommendation algorithm based on topic relationship. Firstly, we obtain topics of projects/experts based on latent Dirichlet allocation (LDA) model, and build the topic relationship network of projects/experts. Then, through the topic relationship between projects/experts, we find a neighbor collection which shares the largest similarity with target project/expert, and integrate the collection into the collaborative filtering recommendation algorithm based on matrix factorization. Finally, by learning the rating matrix to get feature vectors of the projects and experts, we can predict the ratings that a target project will give candidate review experts, and thus achieve the review expert recommendation. Experiments on real data set show that the proposed method could predict the review expert rating more effectively, and improve the recommendation effect of review experts.   相似文献   

13.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

14.
项目文档主题表征的好坏直接影响后续评审专家的推荐效果.为有效利用项目文档片段之间的关联关系进行项目主题分析,提出一种基于半监督图聚类的项目主题模型构建方法.该方法首先分析项目文档的结构特点,提取项目名称、项目关键字等能表征主题的结构信息,结合专家证据文档、专家主题关系网等能表征专家主题的外部资源,定义及提取项目文档片段之间的关联关系特征;然后,利用不同类型的关联关系计算项目文档片段之间的相关性,构建项目文档片段间的无向图模型;最后,利用已标记关联关系特征作为聚类的监督信息,采用半监督图聚类算法对项目文档片段进行聚类,从而实现项目主题的提取.项目主题提取对比实验结果验证了所提方法的有效性,项目文档结构化特征、专家证据文档以及专家主题关系网对项目主题模型的构建具有一定的指导作用.  相似文献   

15.
袁仁进  陈刚 《计算机科学》2018,45(Z11):462-467
为研究新闻事件发生地对新闻推荐系统性能的影响,提出了一种顾及事件地理位置的新闻推荐算法。首先,设计了提取新闻事件发生地的相关算法;其次,结合向量空间模型、TF-IDF算法和word2vec工具构建了新闻特征向量;接着,着重讨论了用户兴趣模型的构建问题;最后,运用余弦相似度方法计算用户兴趣模型与候选新闻集之间的相似性,从而完成推荐。实验结果表明,设计的新闻事件发生地抽取算法的性能较好,准确率达到93.6%,以此为基础构建的新闻推荐算法与协同过滤推荐算法相比仅考虑新闻内容的推荐算法在F值上有所提高。  相似文献   

16.
陈杰  陈彩  梁毅 《计算机系统应用》2017,26(11):159-164
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.  相似文献   

17.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。  相似文献   

18.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

19.
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性.对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号