首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
基于词汇链的中文短信主题语句抽取方法   总被引:1,自引:0,他引:1  
提出一种基于词汇链的中文短信文本主题的抽取方法。该方法首先通过构造多条词汇链来表达短信文本的叙事线索,并从多条词汇链中抽取出富含主题信息的词汇链,将其作为构造短信文本主题语句的关键词序列。实验表明该方法抽取的短信文本主题能够更全面地覆盖短信文本的信息,并能消除多个关键词序列表达同一主题信息的冗余。其效果明显优于采用统计信息进行短信文本主题抽取的方法。  相似文献   

2.
提出一种基于词汇链的判断变异垃圾短信方法。该方法通过构造多条词汇链来表达短信文本的叙事线索,再从多条词汇链中抽取出富含内容信息的词汇链,同时消除了多个关键词序列表达同一内容信息的冗余;将构造的词汇链作为短信文本的信息相互进行比较,以对变异的垃圾短信信息进行识别。实验结果表明,该方法能较准确地识别垃圾短信的变异信息。  相似文献   

3.
基于语义相似度计算的词汇语义自动分类系统   总被引:2,自引:0,他引:2  
词汇语义分类在文本聚类、信息检索、机器翻译等多个研究领域中拥有重要的理论及实践意义.介绍的知网语义相似度计算的词汇语义自动分类系统通过设计双向索引结构.高效的组织和挖掘了知网已有数据资源,并利用成熟的知网词语相似度计算方法,为词汇语义自动分类提供了不同于统计方法的新思路.目前系统的研究已取得实质性成果.在知网义原1564个分类的基础上,对知网提供的6万余条汉语常用词进行初步语义分类,进而开发了二次分类模块,针对初步分类结果进一步细化为适合实际需要的子类.实验结果证明该系统在分类性能上明显优于基于统计方法的分类系统,所作分类更加细腻、平滑.  相似文献   

4.
一种基于词汇链的关键词抽取方法   总被引:26,自引:6,他引:26  
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。  相似文献   

5.
文本聚类算法面临着文本向量高维和极度稀疏的问题,传统降维方法多数是在假设关键词相互独立的前提下,通过统计的方法进行特征提取,这种方法往往忽略了文本在上下文语境中的语义关系,导致文本语义大量丢失。利用《知网》知识库,通过计算语义类相似度,构建了带权值的多条词汇链,根据权值大小,从中选取权值最大和次大的前两个词汇链组成代表文本的关键词序列,在此基础上提出了基于主题词汇链的文本聚类算法—TCABTLC,不但可以解决文本向量高维和稀疏导致的聚类算法运行效率低的问题,而且得到了较好的聚类效果。实验表明,在保持较好准确率下,该聚类算法的时间效率得到了大幅度提高。  相似文献   

6.
基于词汇语义计算的文本相似度研究   总被引:7,自引:0,他引:7  
基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。  相似文献   

7.
基于词汇链的关键短语抽取方法的研究   总被引:2,自引:0,他引:2  
文中提出一种基于词汇链的关键短语抽取算法,算法首先通过构造多条词汇链来表达文章的多条叙事线索,并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息,然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文章的关键短语.实验表明该算法抽取的关键短语能够更全面地覆盖文章的主题信息.算法消除了多个关键短语表达同一主题信息的冗余性,同时可以根据文章主题的分布动态确定输出的关键短语的数量,其效果明显优于采用统计信息进行关键词抽取的方法.  相似文献   

8.
在语义网信息检测的研究中,语义离散度增强可以提高海量兴趣点文本分类的信息检测效率.由于海量兴趣点词汇重叠,语义相似性较高,信息抽取困难,需要进行语义离散度增强.当前方法采用随机词汇迭代模型离散度增强算法,由于筛选出的特征在类间产生互信息干扰,导致离散度增强效果不好.提出一种基于特征空间互信息区域划分的语义离散度增强算法,设计随机词汇迭代模型,基于词汇离散度、集中度和频度选取出特征词构造特征空间,计算文本信息中兴趣点的特征与某个类的相关程度,通过最小线性二乘法求得局部区域文本重构误差,得到语义离散度计算式.利用多分类器法判断文本,实现了海量兴趣点语义文本的效性检测,实验结果表明,改进算法能使得语义离散度得到大幅度增加,语义相似性检测准确率达到96%以上.  相似文献   

9.
邓箴  包宏 《计算机与应用化学》2012,29(11):1384-1386
提出了一种基于词汇链抽取,文法分析的抽取文本代表词条的多文档摘要生成的方法。通过计算词义相似度构建词汇链,结合词频与位置特征进行文本代表词条成员的选择,将含有词条权值高的句子经过聚类形成多文档文摘句集合,然后进行质心句的抽取和排序,生成多文档文摘。该方法不仅考虑了词汇之间的语义信息,还考虑了词条对文本的代表成度,能够改善文摘句抽取的性能。实验结果表明,与单纯的由关键词确定文摘的方法相比,召回率和准确率都有不少的提高。  相似文献   

10.
基于知网的词汇语义自动分类系统   总被引:3,自引:0,他引:3  
词汇语义分类是现代汉语语义研究的重要组成部分。该文介绍的基于知网的词汇语义自动分类系统提供了词汇语义分类的一个新思路。目前该系统的研制已取得实质性成果,在基于知网的语义分类体系上,开发了粗分类模块,对知网提供的6万余条汉语常用词进行语义分类,得到1420个语义等价类;并在此基础上,开发了细分类模块,针对粗分类结果中颗粒度较大的词类,将其进一步细化为适合实际需要的子类。实验结果证明该系统所作的分类在自然语言处理和语言学研究中起到了重要作用。  相似文献   

11.
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。  相似文献   

12.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。  相似文献   

13.
基于词汇链的中文新闻网页关键词抽取方法   总被引:1,自引:0,他引:1  
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。  相似文献   

14.
改进的基于知网词汇语义褒贬倾向性计算   总被引:1,自引:0,他引:1       下载免费PDF全文
词汇语义褒贬倾向性研究是句子褒贬倾向性识别的基础,而句子褒贬倾向性识别又是文本倾向性识别和篇章结构褒贬倾向性识别的基础。以《知网》的词汇语义相似度计算为基础,针对目前采用计算基准词对与词汇相似度的方法识别词汇褒贬倾向性理论,从褒贬基准词和计算公式入手,提出了改进办法。实验证明,在同样基准词对下,准确率得到了很大的提高,达到98.94%,具有实际应用价值。  相似文献   

15.
针对短文本中固有的特征稀疏以及传统分类模型存在的“词汇鸿沟”等问题, 我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题, 并且引入传统文本分类模型中不具有的语义关系. 但进一步发现单纯利用 Word2Vec模型忽略了不同词性的词语对短文本的影响力, 因此引入词性改进特征权重计算方法, 将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重, 并结合 Word2Vec 词向量生成短文本向量, 最后利用SVM实现短文本分类. 在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.  相似文献   

16.
程玉胜  梁辉  王一宾  黎康 《计算机应用》2016,36(11):2963-2968
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频繁语义模式,增加了分类路径。结合基本显露模式(eEP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型,提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用eEP分类方法获得最简模式;最后利用相似性公式和《知网》提供的语义相关度,计算文本相似性得分,利用三支决策理论对阈值进行选择。实验结果表明,TSCTO算法在文本分类的性能上有一定提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号