首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。  相似文献   

2.
特征权重计算是文本分类过程的基础,传统基于概率的特征权重算法,往往只对词频,逆文档频和逆类频等进行统计,忽略了类别之间的相互关系。而对于多分类问题,类别之间的关系对统计又有重要意义。因此,针对这一不足,本文提出了基于类别方差的特征权重算法,通过计算类别文档频率的方差来度量类别之间的联系,并在搜狗新闻数据集上对五种特征权重算法进行分类实验。结果表明,与其他四种特征权重算法相比,本文提出的算法在F1宏平均和F1微平均上都有较大的提高,提升了文本分类的效果。  相似文献   

3.
在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频信息;另一方面,对特征与类别的关系表达不够准确和充分。针对以上两点不足,提出一种新的基于词频的类别相关特征权重算法(全称CDF-AICF)。该算法在度量特征权重时,考虑了特征在每个词频下的文档频率。同时,为了准确表达特征与类别的关系,提出了两个新的概念:类别相关文档频率CDF和平均逆类频率AICF,分别用于表示特征对类别的表现力和区分力。最后,通过与其它5个特征权重度量方法相比较,在三个数据集上进行分类实验。结果显示,CDF-AICF的分类性能优于其它5种度量方法。  相似文献   

4.
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索等的效果起着重要的作用。文中使用了一个基于关键词的权重,并利用它改进传统向量空间模型的权重算法。改进后的模型综合考虑原有索引项权重和文档中关键词的权重。在特定领域FAQ的检索中作测试实验,结果表明,改进的方法提高了检索的查准率、查全率。  相似文献   

5.
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索等的效果起着重要的作用。文中使用了一个基于关键词的权重,并利用它改进传统向量空间模型的权重算法。改进后的模型综合考虑原有索引项权重和文档中关键词的权重。在特定领域FAQ的检索中作测试实验,结果表明,改进的方法提高了检索的查准率、查全率。  相似文献   

6.
提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。  相似文献   

7.
基于信息增益的特征词权重调整算法研究   总被引:7,自引:0,他引:7  
传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。  相似文献   

8.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

9.
韩如冰  叶得学 《软件》2012,33(10):103-105
向量空间模型是以索引项权重为核心的模型,索引项权重对文本分类、检索的效果起着决定性的作用.文中提出了一个基于关键词的权重改进传统向量空间模型的权重算法.基于改进索引项权重的向量空间模型除了考虑原有索引项权重还考虑了文档中关键词的权重.通过特定领域FAQ的检索测试结果表明,改进的算法很大程度上提高了检索的查准率、查全率.  相似文献   

10.
针对传统ML-KNN进行多标签文档分类时,忽略标签之间关联性的问题,笔者提出了一种基于改进的ML-KNN多标签微博短文本分类方法。该方法通过归一化互信息控制每对标签的相关性阈值。针对微博短文本的特征,在计算文本相似度时引入同义词词林进行语义特征扩展。通过数据集的实验测试,笔者所提方法在性能上优于传统的ML-KNN算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号