首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

2.
王侃  曹开臣  徐畅  潘袁湘  牛新征 《电讯技术》2019,59(10):1175-1181
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。  相似文献   

3.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

4.
随着互联网时代的数据爆炸,在短文本信息数量迅速增长的环境下,为了更好地进行中文本摘要模型的计算,本文针对短文本的文本特征提取和相似度计算进行了深入研究。本文将优化的TF-IDF模型和Word2Vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权Word2Vec和TF-IDF的文本特征提取算法,将文本进行向量化表示;随后,在文本的相似度算法中,基于短文本的特征,选取了余弦相似度算法,对短文本间相似度值进行了有效计算。实验结果表明,使用TF-IDF和Word2Vec结合模型与传统单个模型相比,生成出的文摘准确性更高,质量更好。  相似文献   

5.
6.
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集且内容组织结构相对固定等特点,分析编辑距离、余弦相似和Simhash相似三种相似度算法的执行效率和有效性,并利用增加权重值、词袋预处理、编码预处理和分段保存比较等方法对算法进行持续优化.经测试,选择优化后的编辑距离算法对招投标项目公告数据中的相似(重复)数据进行清洗.  相似文献   

7.
8.
阮冰 《现代电子技术》2010,33(4):145-147,151
随着信息技术的迅速发展,网络已经逐步成为人们生活当中不可或缺的信息传播工具。由于网络资源的大量使用和信息的大量传输,导致信息过载及安全等问题日益突出。为了解决信息过滤的过滤精度和效率瓶颈等问题,这里详细地对文本信息过滤的主要过程、文本表示方法、特征向量获取、相似度计算等技术进行研究,提出一个基于特征向量的文本信息过滤算法。该过滤算法有效地平衡了计算负载,具有较高的信息过滤性能。  相似文献   

9.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

10.
智慧检务是近年来研究的热点问题,而相似案例检索是智慧检务中公共法律服务模块的基本需求.传统的基于关键词的检索方式使案例的相似性仅局限在浅显的词语层面上,无法满足用户在文章和语义层面上的检索需求.针对公共法律服务中的相似案例检索问题,该文以公共法律服务案例为研究对象,引入能够突出法律语义的案例要素,并以其为依据为案例建模...  相似文献   

11.
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.  相似文献   

12.
文章针对基于深度神经网络的方法给出一些具有代表性的文本分类模型,即基于词向量合成的模型、基于RNN/CNN的模型和基于注意力机制的模型,并阐述其基本思想。  相似文献   

13.
14.
新闻节目是信息传播和舆论引导的重要载体。互联网时代,新闻数量急速增长,从海量的新闻数据中高效挖掘热点,掌握社会最新动态,成为当今媒体从业人员研究的热点。以影响力最大的34套电视上星综合频道实际新闻节目数据为实验对象,应用新闻条目智能分割技术,实现新闻报道切分,基于TF-IDF技术对新闻语音文本、新闻标题字幕内容进行关键词提取,并采用Word2vec工具实现新闻条目的向量化,并基于single pass算法实现新闻条目聚类从而拆分各个新闻话题并计算话题热度,初步实现新闻热点分析。  相似文献   

15.
随着商业广告投放数量的高速增长,对广告精准推送能力的要求也随之提高.文章利用关键词提取技术获取文章和广告的中心词汇,尝试计算文章和广告的匹配程度,为广告的智能推荐提供可行方法.运用OCR技术从图片录入广告信息,并使用Python关键词提取库提取文章和广告的关键词,最后根据余弦相似度计算文章和广告的匹配程度,将结果降序排...  相似文献   

16.
微博中水军发表的评论内容具有重复或者相似性,提出了基于文本相似度的微博网络水军发现算法.评论内容可以用特征码来表示.特征码再通过高效的B-Tree来索引,使整个系统具有极高的处理效率.根据水军发帖的重复性或者相似性很高的特点,通过对多个相同或相似的评论内容进行统计分析找出出现次数频繁的用户,初步定义为水军.再对这些用户的评论内容进行分析,发现他们的评论内容基本上都是具有重复性.试验表明,该方法能够准确、有效地找出水军账户.  相似文献   

17.
针对传统人工总结、编写标题的方法在耗费大量人力、时间成本的同时难以应对互联网中大量不规范的文本的问题,文中设计了一种基于神经网络的文本标题生成原型系统.在文本标题生成原型系统中通过基于神经网络编码器-解码器模型对文本进行建模计算,从而经济、高效地生成一条准确、简洁、切合原文的标题.在编码器部分采用双向长短期记忆神经网络...  相似文献   

18.
在过去很长一段时间内,文本生成式模型给世界带来了巨大的影响,在传统的自然语言处理领域(NLP)根据一段文本生成摘要一直是一个火热的问题,但是生成的摘要缺乏分析思维和数据展现。因此文本摘要生成存在着很大的缺陷,为了解决这一问题涌现了许多基于表格和文本联合的多模态工作,但是训练是昂贵的。基于LLM(large language model)应用的Langchain框架中的Agent能力是值得尝试的工具,基于Agent实现LLM的自动调用统计,实现数据统计摘要生成,最后使用科大讯飞的星火spark作为评测模型,在本地构建的数据集中汇报自评7.54分,讯飞星火Spark评价7.52分(满分为10分)。  相似文献   

19.
结果的准确性与可读性,文中使用了结合BERTScore的强化学习模型将抽取式与生成式两种文本摘要方法相融合,该方法改善了其他模型存在的对表示相同含义的不同词汇评分低以及分数高的结果可能包含错误信息的现象。模型使用BERTScore对生成的摘要结果评分,根据该分值更新策略梯度参数和当前状态,同时通过将该分值作为反馈指导下一次抽取行为来不断优化模型。文中通过Gumbel-Softmax可微再参数化技术解决了模型不可微的问题。实验结果表明,文中提出的方法更注重摘要的内容并得到较好的摘要结果,在CNN/Daily Mail数据集上与以Rouge作为反馈的模型相比,评价指标Rouge-1:+0.46,Rouge-L:+0.63,评价指标BERTScore提升了2.35。  相似文献   

20.
针对目前数据库知识发现模型系统中传统文本信息抽取算法无法满足用户业务需求的问题,提出了一种基于用户需求描述的文本信息特征抽取模型。通过用户的业务需求模型进行特征化描述,将数据库中存储的原始本文信息进行预处理加工,计算的词频、权重,初步选取文本特征,根据用户需求描述计算特征相似度,过滤不相关的"噪声"信息,进而保留能够精确描述文本信息的特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号