首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
自动文摘是计算机语言学领域的一个研究重点,其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注。首先介绍了基于LexRank算法的自动文摘方法。针对该方法的不足,从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,从而可以根据输入文本内容动态地调整相关影响因子。实现的文摘系统,可以对中文和英文的单文本或多文本进行自动文摘。在哈工大和DUC的测评语料上进行了实验,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性。最后讨论了自动摘要研究存在的问题,并指出了自动文摘的研究趋势。  相似文献   

2.
文本聚类在自动文摘中的应用研究   总被引:1,自引:0,他引:1  
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法。将文本聚类引入自动文摘中,能实现多文档的自动文摘。实现了面向“塑料”行业的基于文本聚类的自动文摘系统TCAAS,其单文档自动文摘的正确率和召回率在80%以上,多文档自动文摘的正确率和召回率在75%以上。实验表明该方法可行,对自动文摘系统的设计具有借鉴意义和深入研究的价值。  相似文献   

3.
基于概念统计和语义层次分析的英文自动文摘研究   总被引:5,自引:1,他引:5  
传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高。为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容。  相似文献   

4.
针对当前自动文摘方法的不足,提出了基于文本聚类的自动文摘实现方法.可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高.将文本聚类引入自动文摘中,不但使单文档的文摘质量得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的.实现了面向"塑料"行业的基于文本聚类的自动文摘系统TCAAS.实验表明该方法可行, 对自动文摘系统的设计具有借鉴意义和深入研究的价值.  相似文献   

5.
自动文摘是利用计算机自动地从文本或文本集合中提炼出能准确、全面地反映文本主要内容的精简、连贯的短文,以满足一般性的或特殊性的用户需求。首先对自动文摘的定义、作用和分类进行概述,然后给出一种基于关键词检索的自动文摘技术,接着提出基于自动文摘的论文抄袭检测方法,并对实验结果进行分析,最后总结全文并对后续工作加以简单介绍。  相似文献   

6.
多文档自动文摘综述   总被引:18,自引:9,他引:18  
秦兵  刘挺  李生 《中文信息学报》2005,19(6):15-20,56
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。  相似文献   

7.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容.  相似文献   

8.
基于文本聚类的自动文摘系统的研究与实现   总被引:3,自引:0,他引:3       下载免费PDF全文
针对当前自动文摘方法的不足,提出了基于文本聚类和自然语言理解的自动文摘实现方法。可以克服常规自动文摘方法的不足,使文摘的质量和效果得到大大的提高。将文本聚类引入自动文摘中,不但使单文档的文摘质景得到提高,而且能够实现多文档的自动文摘,这是现有的自动文摘技术所没有涉及的。实现了面向“塑料”行业的基于文本聚类和自然语言理解的自动文摘系统TCAAS。  相似文献   

9.
基于实体名的文本自动综述研究   总被引:1,自引:0,他引:1  
自动文摘是自然语言处理的一个重要分支,在信息检索领域中有着重要的用途.文本自动综述是自动文摘在多文档上的推广。本文提出了基于实体名扩展的自动综述方法,这种方法认为综述中的实体名个数反映其中所蕴含信,S量的多少。我们用该方法实现针对事件的自动综述生成,并参加了2003年文本理解会议(Document Understanding Conference,DUC)进行统一评测,DUC反馈的评测结果显示这种方法是有效的。此外,本文还对文本理解会议的任务、评测方法和测试结果做了简单介绍。  相似文献   

10.
传统自动文摘方法并没有在语义层面上处理问题,所以近年来涌现出基于语义的理解分析法。本文提出一种基于本体的自动文摘方法,该方法采用领域本体将词特征映射为概念特征,然后调整特征词和文本语句权值,最后提取出合适的句子组合成文摘。该方法在统计的基础上加入语义分析,从而能够更精确地得到文本的主要内容,更方便阅读。在对竹藤领域的文本进行自动文摘实验后证明,该方法相比于传统自动文摘方法在文摘内容的准确度上有了较大的提高。  相似文献   

11.
ABSTRACT

Text clustering is an important topic in text mining. One of the most effective methods for text clustering is an approach based on frequent itemsets (FIs), and thus, there are many related algorithms that aim to improve the accuracy of text clustering. However, these do not focus on the weights of terms in documents, even though the frequency of each term in each document has a great impact on the results. In this work, we propose a new method for text clustering based on frequent weighted utility itemsets (FWUI). First, we calculate the Term Frequency (TF) for each term in documents to create a weight matrix for all documents. The weights of terms in documents are based on the Inverse Document Frequency. Next, we use the Modification Weighted Itemset Tidset (MWIT)-FWUI algorithm for mining FWUI from a number matrix and the weights of terms in documents. Finally, based on frequent utility itemsets, we cluster documents using the MC (Maximum Capturing) algorithm. The proposed method has been evaluated on three data sets consisting of 1,600 documents covering 16 topics. The experimental results show that our method, using FWUI, improves the accuracy of the text clustering compared to methods using FIs.  相似文献   

12.
传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。  相似文献   

13.
基于梯度增强的新闻字幕分割算法   总被引:2,自引:0,他引:2  
新闻字幕的分割在基于语义的新闻视频检索系统中具有重要的意义,为此提出一种基于梯度增强的新闻字幕分割箅法.该算法使用图像多方向梯度的加权和代替图像的标准方差,通过各方向权值的调节加强某些方向的边缘信息,以提高分割效果.与一些经典的自适应阈值分割算法相比,该算法不仅能够保留大部分笔画,也能有效地减少断笔问题.基于光学文字识别的实验结果证明了文中算法的有效性.  相似文献   

14.
自组织映射算法是一种重要的聚类模型,能够有效提高搜索引擎的精确性。为克服自组织映射网络对于初始连接权值敏感的不足,提出一种改进的差分进化和SOM相结合的组合文档聚类算法IDE-SOM,首先引入一种改进的差分进化算法对文档集进行一次粗聚类,旨在对SOM网络的初始连接权值进行优化,然后将这个连接权值初始化SOM网络进行细聚类。仿真实验表明,该算法在F-measure、熵等评价指标上都获得了较好的聚类效果。  相似文献   

15.
Text classification techniques mostly rely on single term analysis of the document data set, while more concepts, especially the specific ones, are usually conveyed by set of terms. To achieve more accurate text classifier, more informative feature including frequent co-occurring words in the same sentence and their weights are particularly important in such scenarios. In this paper, we propose a novel approach using sentential frequent itemset, a concept comes from association rule mining, for text classification, which views a sentence rather than a document as a transaction, and uses a variable precision rough set based method to evaluate each sentential frequent itemset's contribution to the classification. Experiments over the Reuters and newsgroup corpus are carried out, which validate the practicability of the proposed system.  相似文献   

16.
针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确度,然后对每个文本中词项进行相关性加权,最后通过词项的权重和词项之间的共现距离相关度计算两个文本的相似度。实验结果表明,本文提出的方法能够提高短文本相似度计算的准确率。  相似文献   

17.
An efficient term mining method to build a general term network is presented. The resulting term network can be used for entity relation visualization and exploration, which is useful in many text-mining applications such as crime exploration and investigation from vast piles of crime news or official criminal records. In the proposed method, terms from each document in a text collection are first identified. They are subjected to an analysis for pairwise association weights. The weights are then accumulated over all the documents to obtain final similarity for each term pair. Based on the resulting term similarity, a general term network for the collection is built with terms as nodes and non-zero similarities as links. In application, a list of predefined terms having similar attributes was selected to extract the desired sub-network from the general term network for entity relation visualization. This text analysis scenario based on the collective terms of the similar type or from the same topic enables evidence-based relation exploration. Some practical instances of crime exploration and investigation are demonstrated. Our application examples show that term relations, be it causality, subordination, coupling, or others, can be effectively revealed by our method and easily verified by the underlying text collection. This work contributes by presenting an integrated term-relationship mining and exploration approach and demonstrating the feasibility of the term network to the increasingly important application of crime exploration and investigation.  相似文献   

18.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

19.
该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。  相似文献   

20.
医疗文本专业术语复杂,垂直领域训练样本不足,传统的分类方法不能满足现实需求,提出一种基于元学习的小样本文本分类模型提高医疗文本分类效率。该模型基于迁移学习思想,加入注意力机制赋予句子中的词语不同的权重,利用两个相互竞争的神经网络分别扮演领域识别者和元知识生成者的角色,通过自适应性网络加强元学习对新数据集的适应性,最后使用岭回归获得数据集的分类。实验对比分析结果验证了该模型对一些公开文本数据集和医疗文本数据具有很好的分类效果。基于元学习的小样本文本分类模型可以成功地应用在医疗文本分类领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号