首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 581 毫秒
1.
基于同义替换和相邻词合并的关键词特征权重计算新方法   总被引:1,自引:0,他引:1  
特征项权重计算是文本挖掘中关键词提取的核心,其计算方法的好坏对文本挖掘的结果有着重要的影响。本文在对关键词提取特征项权重计算的传统TFIDF算法分析的基础上,为减少该算法特征权重计算时对词频的过于依赖,提出一种基于同义替换和相邻词合并(KSRAM)的特征权重计算方法。为检验算法性能,对KSRAM算法和传统TFIDF算法进行了关键词提取对比实验,实验表明KSRAM算法在关键词提取的准确率和召回率方面比传统TFIDF算法有明显的提高。  相似文献   

2.
针对英文短文本的内容精悍、格式多变的特点,提出了基于多线程多重因子加权的文本关键词提取算法.该算法利用词频-逆向文档频率(TF-IDF)算法计算文本集中单词的词频因子,及代表单词出现位置、长度和同现关系的位置因子、词长因子和同现因子,采用基于Future模式多线程并发计算4个因子的权值.再计算单词的4个因子累积权值并排序提取关键词.实验结果表明,基于多线程多重因子加权的关键词提取算法能够有效提高短文本关键词提取的准确率和召回率.  相似文献   

3.
TFIDF算法研究综述   总被引:25,自引:0,他引:25  
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一.在ú回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考.  相似文献   

4.
为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TF-IDF值作为词语的特征项,改进了统计词长、TF-IDF和词频的方法,使长词和TF-IDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。  相似文献   

5.
文本分类中基于类别概念的特征选择方法   总被引:1,自引:0,他引:1  
传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。  相似文献   

6.
为了提高95595工单智能分类的准确率,提出了基于LDA(Latent Dirichlet Allocation)的改进TFIDF算法。先对文本提取特征词,然后采用K-means算法进行聚类处理。构建LDA模型,获得概率分布函数θ和φ,求取语义影响力SI(semantic influence,SI)作为特征词的权重,该改进算法记作SI-TFIDF(semantic influence-term frequency inverse document frequency,SI-TFIDF)。将SI-TFIDF算法与传统的TFIDF算法在sougou的数据库进行特征词提取,并采用K-means算进行聚类,对比结果显示,采用SI-TFIDF算法提取的特征词聚类效果优于TFIDF,验证了所提出方法的可靠性。在95598投诉工单上进行仿真实验,SI-TFIDF算法的投诉工单聚类准确率高于传统的TFIDF算法,验证了SI-TFIDF更适用于处理工单投诉的分类研究。  相似文献   

7.
一种改进的特征权重算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张瑜  张德贤 《计算机工程》2011,37(5):210-212
特征权重算法对文本分类系统的精确度有很大影响,传统的TFIDF算法未能考虑特征项在类间和类内的分布情况。为此,在对传统算法和相关改进算法进行分析的基础上,引入类间偏斜度、类内离散度和权重调整因子的改进思路,提出一种基于WA-DI-SI的特征权重改进算法,分别采用支持向量机和朴素贝叶斯2种分类算法进行测试。测试结果表明,与其他改进算法相比,该算法能够获得更好的分类效果。  相似文献   

8.
利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高.  相似文献   

9.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

10.
采用经典的向量空间模型对网页文本进行分类。由于传统特征项权重计算公式TFIDF在网页关键词计算和关键词类间区分度不高等问题的存在,本文将网页结构分成两个部分,含有标题、元数据、链接锚文件等的关键词部分和网页的正文部分,对关键词部分的权重进行了加强,而对网页正文部分采用改进的IDF进行计算,使关键词在类的区分度的效果上得到一定程度的提升,试验证明该方法是可行的。  相似文献   

11.
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题, 本文采取了相关改进方法. 首先在分词阶段采用基于词频统计的重复词串提取算法, 保留地质专业名词以准确提取文本主题, 同时减少冗余词串数量节约内存花销, 提升保留词的提取效率. 另外, 使用基于TF-IDF和词向量的文本数据增强算法, 对原始分词语料进行处理以强化文本主题特征. 之后该算法与主题模型相结合在处理后的语料上提取语料主题. 由于模型的先验信息得到增强, 故性能得以提高. 实验结果表明本文算法与LDA模型相结合的方法表现较好, 在相关指标及输出结果上均优于其他方法.  相似文献   

12.
基于词共现图的中文微博新闻话题识别   总被引:2,自引:0,他引:2  
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性.  相似文献   

13.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

14.
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWText Rank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWText Rank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和Text Rank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。  相似文献   

15.
文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技术已经应用到文本检索当中,基于该技术提出了一种词向量化的自动文本摘要方法,该方法主要分为4个步骤:词向量生成、基于词向量的段向量生成、关键词提取和主题句抽取,最终实现文本段落的自动摘要。实验结果表明,改进的文本自动摘要方法能够有效提取主题句。  相似文献   

16.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

17.
关键词提取是指是从文本中提炼出能够概括文献内容的词或词组。关键词提取是文本处理中的一项十分重要的关键技术,针对关键词提取受分词效果影响以及统计偏差等问题,提出了一种融合多特征的中文关键词提取方法。该方法通过考虑词频、词长、词性、位置、互联网词典、停用词典等6方面因素对关键词权重的影响,分别对这些因素提出了量化方案,再结合线性加权、组合词生成与过滤等技术进行关键词提取。文章实验中,采用从中国知网下载的包括环境、信息科学、交通、教育、经济、文史、化学、医药、农业、政治共10个类别论文的数据,论文中都含有作者自拟的关键词。实验结果表明,在候选词数量N为5的情况下,其关键词提取的近似匹配准确率为54.8%,召回率为65.1%。该方法不仅解决了关键词提取中受到分词影响而导致的召回率低的问题,而且能够针对文本中出现频率不高但是对于文本意义表达很重要的词进行提取,其提取的关键词在表达文本含义的方面要明显优于基于统计的方法,实用价值更大。  相似文献   

18.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

19.
李伯涵  李红莲 《计算机应用研究》2021,38(11):3289-3292,3358
针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model).首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过BERT预训练模型得到更加精确的上下文表示,最终将得到的词向量输入到带有双重注意力机制的指针模型中,指针模型从词汇表或原文中取出词汇来生成最终的摘要.实验结果表明,KBPM模型能够生成可读性更好、ROUGE分数更高的文本摘要.通过对比分析也验证了KBPM模型有效解决了生成摘要中缺乏关键信息的问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号