首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
文本自动摘要技术在网页搜索和网页内容推荐等多个领域都有着非常广阔的应用前景。经典的文本摘要算法采用统计学的方法来提取文章关键字,进而提取主题句。这种方法在一定程度上忽略了文本的语义和语法信息。近年来,分布式词向量嵌入技术已经应用到文本检索当中,基于该技术提出了一种词向量化的自动文本摘要方法,该方法主要分为4个步骤:词向量生成、基于词向量的段向量生成、关键词提取和主题句抽取,最终实现文本段落的自动摘要。实验结果表明,改进的文本自动摘要方法能够有效提取主题句。  相似文献   

2.
基于PLSA模型的文本分割   总被引:13,自引:0,他引:13  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用 .基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系 .实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6.06%,远远低于其他同类算法 .  相似文献   

3.
从单文档中生成简短精炼的摘要文本可有效缓解信息爆炸给人们带来的阅读压力。近年来,序列到序列(sequence-to-sequence,Seq2Seq)模型在各文本生成任务中广泛应用,其中结合注意力机制的Seq2Seq模型已成为生成式文本摘要的基本框架。为生成能体现摘要的特定写作风格特征的摘要,在基于注意力和覆盖率机制的Seq2Seq模型基础上,在解码阶段利用变分自编码器(variational auto-encoder,VAE)刻画摘要风格特征并用于指导摘要文本生成;最后,利用指针生成网络来缓解模型中可能出现的未登录词问题。基于新浪微博LCSTS数据集的实验结果表明,该方法能有效刻画摘要风格特征、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型。  相似文献   

4.
介绍 语体风格是人们在语言文字表达活动中的个人语言特征,是人格在语言文字活动中的某种体现。这种风格可以在一定程度上通过数量特征来刻画。例如,以一定数量语料为基础的平均句长和平均词长,字、词出现的频率等。对文学作品的语体风格特征进行统计研究,可以确定作品的风格,考证作者的真伪。  相似文献   

5.
介绍 语体风格是人们在语言文字表达活动中的个人语言特征,是人格在语言文字活动中的某种体现.这种风格可以在一定程度上通过数量特征来刻画.例如,以一定数量语料为基础的平均句长和平均词长,字、词出现的频率等.对文学作品的语体风格特征进行统计研究,可以确定作品的风格,考证作者的真伪.  相似文献   

6.
《计算机工程》2017,(5):143-148
在Word2vec框架内,针对微博文本的特点,提出采用词向量或高维词库映射计算句向量的方法。以3种算法构造句向量,即采用Word2vec对微博文本进行扩展后以TF-IDF方法表示句向量;将句子中每个词的词向量相加形成句向量;构建高维词库,将句子中的每个词映射到高维词库形成句向量。对比3种训练句向量的方法,选出最适合微博领域的模型。实验结果表明,采用高维词库映射的方法对微博的句向量计算的效果最佳。  相似文献   

7.
句子排序是自然语言处理中的重要任务之一,其应用包括多文档摘要、问答和文本生成。不当的句子排序会产生逻辑不通顺的文本,使得文本的可读性降低。该文采用在中英文上大规模使用的深度学习方法,同时结合朝鲜语词语形态变化丰富的特点,提出了一种基于子词级别词向量和指针网络的朝鲜语句子排序模型,其目的是解决传统方法无法挖掘深层语义信息的问题。该文提出基于形态素拆分的词向量训练方法(MorV),同时对比子词n元词向量训练方法(SG),得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网络(CNN)、基于长短时记忆网络(LSTM),结合指针网络分别进行实验。结果表明采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系,提升句子排序的效果。  相似文献   

8.
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。  相似文献   

9.
该文以朱自清、汪曾祺和刘亮程的散文作品为语料,旨在从文本的韵律和节奏出发,采用文本聚类的方法来挖掘出新的能够代表作品风格的特征。实验表明,以句末用字韵母的n元组合、分句句长的n元组合、标点符号和整句句长作为风格特征,能成功地将这三位作家的作品区分开来。其中刘亮程句尾韵的舌位高于汪、朱二人,朱自清对韵脚的选择不如刘、汪二人丰富。汪曾祺的分句长最短,且最为讲究句式长短的对齐;刘亮程兼顾长短句的交错,节奏更富于变化;朱自清的句长变化最为平稳。  相似文献   

10.
文本主题的自动提取方法研究与实现   总被引:1,自引:0,他引:1  
张其文  李明 《计算机工程与设计》2006,27(15):2744-2746,2766
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。  相似文献   

11.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

12.
基于加权词向量和卷积神经网络的新闻文本分类   总被引:1,自引:0,他引:1  
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.  相似文献   

13.
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
  相似文献   

14.
近年来,文本风格转换作为一种可控的文本生成任务受到学者们越来越多的关注。该文基于变分自编码器模型,通过鉴别器与变分自编码器的对抗性训练,将源端句子的内容和风格在隐变量空间进行分离,从而实现无监督的文本风格转换。针对文本语义内容和风格的解纠缠过程中利用固定的二进制向量通过线性变换来对风格进行表征的方法的不足,该文提出更具细腻度的联合表征方法: 利用独立的编码器从原句中提取风格的连续隐向量,再和标签向量结合作为最终风格的表征,以提升风格转换的准确率。该文提出的联合表征方法在常用数据集Yelp上进行评测,与两个基线方法相比,风格转换准确率均有显著提升。  相似文献   

15.
传统的特征选择方法通常使用特征评价函数从原始词集中筛选出最具有类别区分能力的特征。这些方法是基于以独立的词作为语义单元的向量空间模型,忽略了词与词之间的关联关系,难以突出文本内容中的关键特征。针对传统特征选择方法的不足,本文提出一种新的基于词间关系的文本特征选择算法。该方法考虑对文本内容表示起到关键性作用的词,利用关联规则挖掘算法发现词语之间的关联关系,并且通过相关分析对强关联规则进行筛选,最终生成与类别属性密切相关的特征空间。实验结果表明,该方法更好地表示了文本的语义内容,而且分类效果优于传统算法。  相似文献   

16.
在语种识别中,传统的N-Gram方法对文本长度依赖度高,因而无法有效地对短文本进行语种识别。现有的基于神经网络的模型无法同时考虑词本身信息和词间组合信息,从而降低了短文本语种识别的质量。针对以上问题,提出一种基于深度学习的字符级短文本语种识别方法。采用卷积神经网络从字符向量中获取词中字符组合信息;通过长短期记忆网络获取词与词之间的特征信息;使用全连接网络实现相似语言的语种识别。在维吾尔语、哈萨克语以及DSL2017数据集上的实验结果表明,该方法可以有效地提高相似语言短文本的识别精度。  相似文献   

17.
针对步态识别在反恐、安防领域亟待解决的小样本问题,提出了一种基于深度卷积神经网络(convolutional and neural network,CNN)和DLTL(dual learning and transfer learning)的步态虚拟样本生成方法。首先用基于VGG19的深度卷积神经网络模型低层响应提取步态风格特征图,然后利用基于对抗网络的对偶学习(dual learning,DL)对风格特征图进行风格训练,得到风格特征模型;其次利用VGG19模型的高层响应提取步态内容特征图,然后让步态内容特征图对风格特征模型中的风格特征进行学习;最后使用迁移学习TL(transfer learning)获得步态虚拟偏移样本。实验结果表明,经过DLTL风格学习生成的步态虚拟样本虽然整体风格发生改变,但人体步态特征没有改变,可有效扩充小样本容量;当虚拟样本增加到一定数量时,步态识别率有所提升。该方法与现有步态虚拟样本生成方法进行对比实验,结果表明该算法优于现有方法,能够大量生成虚拟样本且稳定提高步态识别的识别率。  相似文献   

18.
随着社交网络平台的广泛使用,涌现出大量蕴涵丰富情感信息的在线评论文本,分析评论中表达的情感对企业、平台等具有重要意义。为了解决目前针对在线评论短文本情感分析中存在特征提取能力弱以及忽略短文本本身情感信息的问题,提出一种基于文本情感值加权融合字词向量表示的模型——SVW-BERT模型。首先,基于字、词级别向量融合表示文本向量,最大程度获取语义表征,同时考虑副词、否定词、感叹句及疑问句对文本情感的影响,通过权值计算得到文本的情感值,构建情感值加权融合字词向量的中文短文本情感分析模型。通过网络平台在线评论数据集对模型的可行性和优越性进行验证。实验结果表明,字词向量融合特征提取语义的能力更强,同时情感值加权句向量考虑了文本本身蕴涵的情感信息,达到了提升情感分类能力的效果。  相似文献   

19.
立场检测是指分析文本对于某一目标话题表达的立场,立场通常分为支持、反对和其他。近期的工作大多采用BERT等方法提取文本和话题的句语义特征,通常采用BERT首符号隐藏状态或者句子中每个词隐藏状态取平均作为句向量。该文对句向量的获取进行了改进,采用提示学习模板获取提示句向量,提高句向量的特征提取效果。设计了一种基于多掩码与提示句向量融合分类的立场检测模型(PBMSV),将提示句向量分类与多掩码的模板-答案器结构提示学习分类结合,向句向量引入文本、话题和立场词信息,融合句向量和答案器分类结果,对模型进行联合优化。在NLPCC中文立场检测数据集上的实验表明,在五个话题单独训练模型的实验中,该文方法与此前最优方法相比在三个目标上取得领先或持平,取得了79.3的总F1值,与最优方法接近,并在句向量对比实验中,验证了提示句向量的优势。  相似文献   

20.
随着互联网的蓬勃发展,微博受到了越来越多用户的青睐,对微博用户性别的研究也逐渐成为学术界研究的热点。目前,对英文微博文本用户的性别识别已有研究,但针对中文微博用户性别识别的研究较少。从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括情绪词特征和与情绪相关的语言风格特征。实验结果表明,利用情绪特征提高了用户性别识别的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号