首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
结合项目分类和云模型的协同过滤推荐算法   总被引:2,自引:2,他引:0  
为了解决用户评分数据稀疏性问题和传统相似性计算方法因严格匹配对象属性而产生的弊端,结合项目分类和云模型提出了一种改进的协同过滤推荐算法。首先,按项目分类得到类别矩阵;然后利用云模型计算类内项目间的相似度并获取具有最高相似度的邻居项目的评分,为类内未评分项目进行预测填充;再利用云模型计算类内用户间的相似度得到用户邻居,最后给出最终的预测评分并产生推荐。实验结果表明,该算法不仅有效地解决了数据稀疏性及传统相似性方法存在的弊端,还提高了用户兴趣及最近邻寻找的准确性;同时,该算法只需计算新增用户或项目所在的类别即可,大大增强了系统的可扩展性。  相似文献   

2.
张志颖  任越 《计算机仿真》2021,38(12):172-175,340
云制造资源功能匹配受到高计算量的影响,导致匹配性能大大降低.为了提高云制造资源功能匹配性能,提出了基于文本-语义相似度的云制造资源功能匹配.将云制造资源的概念进行抽象化,通过定义类别与属性之间的关系,构建云制造资源本体模型,利用处理函数对云制造资源进行归一化处理,得到多维功能匹配向量;根据文本向量和语义向量的位置关系,分析影响向量之间关系的主要因素,计算云制造资源文本向量与语义向量之间的相似度,通过从输入输出匹配和前提效果匹配两个方面,计算了云制造资源功能之间的相似度,实现云制造资源功能的匹配.实验结果表明,基于文本-语义相似度的云制造资源功能匹配方法在匹配效率和匹配精度方面,具有较高的匹配性能.  相似文献   

3.
在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。  相似文献   

4.
针对现有方法存在的区分度不高、运行时间代价过高等问题,提出一种云模型相似性度量方法。首先采用云模型的扩展模型三角云模型作为研究对象,将三角云模型看作对称三角模糊数,根据EW-型距离公式引入指数贴近度概念,并用其表征云模型的距离相似度;然后通过云模型云滴的方差,计算出云模型的形状相似度;最后将云模型的距离与形状相似度综合起来,共同衡量两云模型的相似度。从仿真实验可以看出,该方法有较高的区分度;对Synthetic control chart data数据集进行的分类实验表明,该方法具有较好的分类精度及较小的运行时间代价。  相似文献   

5.
针对遥感影像分类面临的数据边界模糊性以及遥感信息解译过程不确定性的问题,结合模糊支持向量机在分类应用中可以有效避免噪声样本干扰的特点,提出一种基于云模型求解模糊支持向量机隶属度的方法。该方法通过无需隶属度的逆向云算法输入样本的定量位置得到样本类别的数字特征,再根据正向云算法计算得到每个样本对其定性类别的隶属度。实验结果表明,采用基于云模型隶属度的模糊支持向量机对遥感影像的分类方法是可行的,并能够有效提高对遥感影像的分类精度。  相似文献   

6.
根据公共安全网络舆情研究的需求,将文本分类技术应用于突发事件应急管理中,提出了基于TFIDF分类方法的突发事件引发的网络舆情信息分类方法,设计类别样本并读入新闻文本,对文本进行中文分词,通过计算新闻文本和类别样本的相似度将新闻文本分到相似度最大的类别之中。通过编程实现了按照事件类型和地理位置两种分类方式对新闻文本进行分类,程序分类结果验证了该方法的实用性。  相似文献   

7.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

8.
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。  相似文献   

9.
提出了一种基于文本和类别信息的改进KNN文本分类算法。传统的KNN算法在计算样本相似度时利用的是文本和特征的相关信息,因此存在计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性。新算法利用文本和类别的相关信息计算样本间的相似度,能够对特征维数进行有效的压缩。实验表明,该算法有较高的文本分类效率。  相似文献   

10.
为更好地对未标记文本进行分类,通过定义文本和类别的隶属函数,将测试文本和类别表示为特征的模糊集,计算模糊集之间的相关系数并用来度量测试文本到每个类别的隶属度,根据最大隶属度原则确定测试文本所属类别。实验结果表明,与k-NN算法相比,该方法有较好的准确率,分类速度有较大提高。  相似文献   

11.
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.  相似文献   

12.
《计算机科学与探索》2016,(9):1320-1331
海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher判别比,根据Fisher判别比越大特征向量判别性越强的Fisher准则,选择Fisher比值较大的前q个特征,并按照词性进行组合生成文档的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上构建文档的云向量模型,根据云向量模型间的差异度对模型进行聚类和合并。将该算法应用于文本情感观点的分类,选择核Fisher判别技术用于最终文本观点的判定。仿真实验结果表明,基于Mixed-Fisher特征的云向量聚类模型的分类准确率明显优于传统向量空间模型,从而验证了核Fisher判别技术的有效性。  相似文献   

13.
针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。  相似文献   

14.
云模型相似性是用来度量同类概念不同语言值的多个云之间关联程度的方法,相似云及其度量分析方法的提出是对云模型理论的扩展。针对目前相似性度量方法中时间复杂度过高和结果不稳定等不足,提出了一种基于云模型重叠度的相似性度量算法。首先,根据云模型期望、熵、超熵三个数字特征,定义两个云模型的位置关系和逻辑关系;其次,利用两个云的位置和形状特性,计算得到它们间的重叠度;最后,结合云模型重叠度与相似度的关系,将云模型的相似性度量转化为相应重叠部分的定量化描述。通过对时间序列分类实例的应用,验证了该算法在保证结果稳定度和正确率的前提下,与目前时间消耗较低的云模型相似度计算方法(LICM)相比,计算复杂度降低了50%,表明该算法具有可行性和有效性。  相似文献   

15.
传统的KNN算法存在分类效率低等缺点.针对这些缺点,本文提出一种高效的结合多代表点思想的加权KNN算法,利用变精度粗糙集上下近似区域的概念,结合聚类算法生成代表点集合构造分类模型,再运用结构风险最小化理论优化分类模型并对影响分类模型的因素进行分析.分类过程中根据测试样本与各代表点的相似度,得到测试样本的相对位置.其中属于样本点下近似区域的测试样本可直接判断其类别.若测试样本在其他区域,则根据测试样本与各代表点的相对位置对各代表点覆盖范围内的样本进行加权后判断测试样本的类别.在文本分类领域的数据集上进行实验,结果表明该算法能有效的提高分类模型的性能.  相似文献   

16.
针对电网统计数据的质量评估问题,提出一种基于云模型的质量评估方法。利用云模型对评语进行软划分,借助逆向云发生器将评估结果转化为云模型,并由此构造一个评价综合云。最后通过基于云模型的相似度算法计算评价综合云与各评价等级云的相似度,借以确定统计数据所隶属的评价等级。通过实例分析,验证了该方法的可行性与有效性,同时能够较好地避免常规方法在定性评价时的主观随意性缺陷。  相似文献   

17.
基于分解云的分类器设计   总被引:1,自引:0,他引:1       下载免费PDF全文
基于云模型的分类算法多采用云变换和泛概念树方法,存在分类结果与先验知识不一致的问题。从粒度计算的角度对云模型理论进行了分析,揭示出云模型的粒度原理。提出了一种基于分解云的不同粒度下的云模型分类方法,并给出了分类方法的算法描述。用风云2C气象卫星的数据对算法进行了测试,从实验结果来看该方法具有较好的分类效果。  相似文献   

18.
该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。  相似文献   

19.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

20.
针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最后,根据三个标注层次计算文档之间的相似度,并根据相似度完成分类。在英语和汉语数据集上的实验验证了该方法的有效性。实验结果表明,相比其他几种核方法,该方法取得了更好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号