首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
近年来,图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示.然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑,原因是文本本身就能够提供强有力的先验知识,帮助模型取得非常好的效果;甚至在不使用图像的条件下就能得出正确的答案.因此研究图像文本建模需要首先回答一个问题:图像是否有助于句子语义的理解与表示?为此,本文选择一个典型的不包含图像的自然语言语义理解任务:自然语言推理,并将图像信息引入到该任务中用于验证图像信息的有效性.由于自然语言推理任务是一个单一的自然语言任务,在数据标注过程中没有考虑图像信息,因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响.具体而言,本文提出一种通用的即插即用框架(general plug and play framework)用于图像信息的整合.基于该框架,本文选择目前最先进的五个自然语言推理模型,对比分析这些模型在使用图像信息前后的表现,以及使用不同图像处理模型与不同图像设置时的表现.最后,本文在一个大规模公开数据集上进行了大量实验,实验结果证实图像作为额外知识,确实有助于句子语义的理解与表示.此外,还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响.  相似文献   

2.
文本分割是自然语言文本处理的一项重要研究内容。该文针对现有模型无法有效分割概括性小文本的不足,提出基于隐马尔可夫模型的统计算法。该算法利用小文本中各结构块的长度及词汇信息,对概括性小文本进行同一主题不同论述侧面的分割。对发射概率设计了基于句群和基于分割点2种不同的计算方法。以Medline摘要为样本进行的实验表明,该算法对概括性小文本分割是有效的,明显好于经典的TextTiling算法。  相似文献   

3.
基于LDA模型的文本分割   总被引:9,自引:0,他引:9  
文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.  相似文献   

4.
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。  相似文献   

5.
自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键.正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解.该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析.其中,显式命题自动识别任务判断一个自然语言句子是否为命...  相似文献   

6.
PLC梯形图向结构文本转换的算法及实现   总被引:2,自引:0,他引:2  
通过分析IEC61131-3标准规定的PLC梯形图语言及结构文本语言,提出对梯形图不同图元分类处理实现梯形图向结构文本转换的算法.该算法引入了虚节点,通过对虚节点的合并建立AOV图,按AOV图拓扑排序的顺序对不同类型节点分类处理,实现梯形图向结构文本的转换,并给出转换实例.该算法具有通用性,能转换任何复杂逻辑梯形图,已成功应用到高档数控国家工程研究中心的蓝天系列数控系统.  相似文献   

7.
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文...  相似文献   

8.
王建平 《信息与电脑》2023,(22):130-132
大语言模型(Large Language Models,LLMs)是一种基于深度学习的自然语言处理(Natural Language Processing,NLP)模型,用于理解、生成和处理自然语言文本,逐渐被应用于不同领域。本文通过对LLMs的技术场景探索,利用LLMs对自然语言的语法、语义和上下文信息的理解与生成自然语言的能力,构建改进媒体传统机器写稿模式的智能写作系统。  相似文献   

9.
探究面向领域智能问答中自然语言理解的数据增强问题。由于应用缺乏历史数据,且人工标注成本高,无法满足大规模训练自然语言理解模型的需求。因此,对传统数据增强的方法进行研究,提出使用基于对比搜索的关键字文本生成模型,以此生成了具有句式表达多样性的的数据集。实验结果表明,相比传统的集中搜索算法,使用对比搜索作为模型的解码策略能够生成更加准确和合理的电力领域问题文本,有效地降低了生成文本的词重复率。利用这些样本数据,成功地训练了一个高效准确的自然语言理解模型,提高了用户意图识别的准确率。这一研究对于智能问答领域的实际应用具有一定的参考价值。  相似文献   

10.
如何从海量文本中自动提取相关信息已成为巨大的技术挑战,文本分类作为解决该问题的重要方法已引起广大关注,而其中文本表示是影响分类效果的关键因素。为此采用相关主题模型进行文本表示,以保证信息完整同时表现主题相关性;基于该模型,对主题数目和特征提取实施了优化处理,综合复杂度和对数似然函数来确定最优主题数目,引入基于互信息的主成分分析算法进行最优特征提取,降低数据维度和特征冗余,使用R语言进行可视化实验分析。  相似文献   

11.
位置加权文本聚类算法   总被引:2,自引:2,他引:0  
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。  相似文献   

12.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17  
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

13.
文本分类是自然语言处理领域的一个重要研究方向.综合分析发现,文本分类的研究和分析,有助于对信息进行有效的分类和管理,并为自然语言处理的应用提供有力的支持.然而,已有的研究在理论和方法层面虽然已经取得了一定的成就,但是文本分类研究涉及内容、领域和技术等多个方面,各学科研究错综复杂,因此还有很多缺陷和不足,需要进一步进行系统和深入的研究.本文针对文本分类这一研究内容,探讨了文本分类和LDA主题模型的相关理论;然后,从技术、方法和应用三个方面分析了面向LDA主题模型的文本分类的研究现状,总结了目前研究中存在的一些问题和研究策略;最后,归纳出文本分类未来的一些发展趋势.  相似文献   

14.
海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下,介绍卷积神经网络、时间递归神经网络、结构递归神经网络和预训练模型等主流方法在文本分类中应用的发展历程,比较不同模型基于常用数据集的分类效果,表明利用人工神经网络结构自动获取文本特征,可避免繁杂的人工特征工程,使文本分类效果得到提升。在此基础上,对未来文本分类的研究方向进行展望。  相似文献   

15.
信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数 据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信 息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信 息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该 方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。  相似文献   

16.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

17.
大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当前主流基于词条特征的文本分类方法不同,不需要理解和分析语义,即无需分析文章中的词条,特征空间小,数据稀疏性现象不明显,文本分类效果显著。  相似文献   

18.
文本分割是信息检索的一个重要问题。文本分割是指在一个书面文档或语音序列中自动识别具有独立意义的单元(片段)之间的边界,其分割对象可以是书面的、语音的或者动态的文本。文本线性分割的主要目的是找出主题边界,它对于很多自然语言处理如自动文摘、问答系统等来说具有重要的价值。在大量文献的基础上,总结归纳文本线性分割中的主要方法,并提出未来的研究方向。  相似文献   

19.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号