首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法,将情感词-特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对特征相似度进行聚类,提取网络产品的特征集合。以某电脑评论为例,从中提取情感词-特征对进行研究,实验结果显示,改进后的算法准确率更高。改进后的特征相似度检测方法可以作为检测特征相似度的有效方法。实验采用在线产品的评论语料,实验结果表明使用改进后的SinRank相似度对特征词进行聚类提取出特征更加准确。  相似文献   

2.
用模拟退火改进的KNN分类算法   总被引:2,自引:0,他引:2  
KNN(k Nearest Neighbor)算法是1种简单、有效、非参数的文本分类法,但缺点是样本相似度的计算量大,故不适用于有大量高维样本的文本。一方面,本文分析了KNN算法的优点和缺陷,采用了1种应用特征词提取和特征词聚合的方法来改进KNN算法在特征词提取方面的不足。另一方面,本文又深入研究了模拟退火算法思想,采用退火模拟思想的典型优化组方法和模拟退火算法原理来加快KNN算法的分类速度。最后,通过2种方法的加入改进了KNN分类算法。实验结果表明,本文提出的方法大大提高了分类算法的效率和性能。  相似文献   

3.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

4.
刘波  郭平  沈岳  丁德红 《软件》2015,(4):6-13
本文以湖南国家农村农业信息化示范省建设项目中农业知识推送研究成果为基础,提出一个基于用户偏好变化的农业文本特征重组向量矩阵算法。首先,依据用户对农业知识访问的关键词诉求,通过关键词分频策略对推荐信息进行特征提取;其次,基于关键词参照库进行特征重组,得到标准特征词,改进向量空间模型中TF-IDF权重计算方法,设计关键词和特征词的相似度加权值反映用户偏好的变化。通过仿真实验与其它算法对比,此算法在降维的同时,对文本推荐具有较高的准确率和良好的区分度。  相似文献   

5.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

6.
一种基于向量空间模型的文本分类方法   总被引:21,自引:1,他引:21  
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。  相似文献   

7.
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法.  相似文献   

8.
随着网络课程的增加,在线课程面临着信息过载的问题,着重解决了协同过滤算法在网络课程中的适用问题.通过分析网络课程中课程的类别及用户的行为,将网络课程进行分类,增加课程的高配合度,并采用基于物品的协同过滤算法,在计算相似度中根据IUF对用户活跃度进行惩罚,获得较准确的推荐列表.实验结果表明,该算法在网络课程的应用中,能够...  相似文献   

9.
本文提出一种基于标签的多因素推荐算法.用户可以根据自己的需求,进行因素自定义和优先级排序,算法先根据用户初始化信息选取资源,随后分析用户行为数据更新用户所属的群及用户的喜好,再通过用户与项目相似度计算、项目关联度计算为用户推荐所需资源.算法模型采用分类组合得出结果,降低了相似度计算的复杂度.将算法应用于企业远程培训平台的个性化学习模式中,结果表明,该算法较好地改善了用户个性化学习资源的推荐效果.  相似文献   

10.
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法.该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题.算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号