首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
我们的认知思维和概念系统建立在隐喻之上.隐喻理解的实现,是自然语言处理任务中关键的一环.为了让理解过程更好地切合隐喻的工作机制,基于隐喻的互动理论,提出了合作网模型,将隐喻理解的过程部署为一个网状结构,实现汉语句子隐喻的理解计算.相比于其他模型,合作网模型体现了目标域和源域之间"求同存异"的语义关系,强调概念之间的双向...  相似文献   

2.
针对传统通用网络爬虫的自身固有的缺陷,结合本体的相关理论,提出了一种基于语义本体的网络爬虫的相关模型。该模型以本体构建领域知识概念集,结合知网,从语义的角度,利用扩展的元数据,在词的语义层次,对抓取的页面链接进行语义相关性计算,预测与主题相关的URL,提高采集的网络资源信息与设定主题的相关度。实验结果表明,该模型同其它通用网络爬虫模型相比具有较高的信息抓取准确率。  相似文献   

3.
针对传统"视觉词包(BOW)模型"识别铁路扣件状态时仅利用扣件图像的特征域,忽略其空间域中上下文语义信息的缺点,提出了一种基于上下文语义信息的扣件检测模型.在传统"视觉词包模型"的基础上,引入吉布斯随机场模型对图像中像素的空间相关性进行建模,将图像块在特征域的相似性与空间域的上下文语义约束关系结合,更准确地定义视觉单词;利用潜在狄利克雷分布(LDA)学习扣件图像的主题分布;采用支持向量机(SVM)对扣件进行分类识别.对4类扣件图像的分类实验证明:模型能够有效提高扣件分类精度.  相似文献   

4.
基于语义的主题爬行策略   总被引:1,自引:0,他引:1  
叶育鑫  欧阳丹彤 《软件学报》2011,22(9):2075-2088
为使主题爬行能够充分利用资源的语义信息,提出基于语义的主题爬行策略.该策略利用领域本体刻画爬行主题,将本体语义映射到关键词表.通过定义断言集一致性扩展和域值关联推理任务,推演关键词间语义关系.在定义网页主题概念的基础上,结合本体推理方案提出主题概念的语义叠加效应模型.最后,利用主题概念的语义包含关系判定URLs抓取顺序.实验结果表明,该语义主题爬行策略在抓取收获率和爬行效率上优于现有同类方法,该方案有效、可行.  相似文献   

5.
传统主题模型方法很大程度上依赖于词共现模式生成文档主题, 短文本由于缺乏足够的上下文信息导致的数据稀疏性成为传统主题模型在短文本上取得良好效果的瓶颈. 基于此, 本文提出一种基于语义增强的短文本主题模型, 算法将DMM (Dirichlet Multinomial Mixture)与词嵌入模型相结合, 通过训练全局词嵌入与局部词嵌入获得词的向量表示, 融合全局词嵌入向量与局部词嵌入向量计算词向量间的语义相关度, 并通过主题相关词权重进行词的语义增强计算. 实验表明, 本文提出的模型在主题一致性表示上更准确, 且提升了模型在短文本上的分类正确率.  相似文献   

6.
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。  相似文献   

7.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

8.
基于文档的自动问答,尤其是语义匹配,其目标是计算两个文本之间的相似度。这是自然语言处理中的典型任务,并且用以衡量对自然语言的理解程度。深度学习方法得益于可以自动化地学习到给定任务的最优特征表示,在许多研究中取得成功,也包括文本匹配。针对基于文档的自动问答,提出一个基于卷积深度神经网络的语义匹配模型,以便对每一对问题和文档提取特征,并据此计算它们的得分。通过问题和文档之间的交互计算,利用重叠词等文本特征,在中文开放域上的自动问答任务中取得的实际效果证明了该模型的有效性。  相似文献   

9.
张启辰  王帅  李静梅 《软件学报》2024,35(4):1885-1898
口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分,旨在提取用户查询的语义框架.在对话系统中,口语理解组件(SLU)负责识别用户的请求,并创建总结用户需求的语义框架, SLU通常包括两个子任务:意图检测(intent detection, ID)和槽位填充(slot filling, SF).意图检测是一个语义话语分类问题,在句子层面分析话语的语义;槽位填充是一个序列标注任务,在词级层面分析话语的语义.由于意图和槽之间的密切相关性,主流的工作采用联合模型来利用跨任务的共享知识.但是ID和SF是两个具有强相关性的不同任务,它们分别表征了话语的句级语义信息和词级信息,这意味着两个任务的信息是异构的,同时具有不同的粒度.提出一种用于联合意图检测和槽位填充的异构交互结构,采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系.不同于普通的同构结构,所提模型是一个包含不同类型节点和连接的异构图架构,因为异构图涉及更全面的信息和丰富的语义,同时可以更好地交互表征不同粒度节点之间的信息.此...  相似文献   

10.
为了提高语义分割精度,解决模型在不同数据域上泛化性差的问题,提出基于深度信息的无监督领域自适应语义分割方法.首先,深度感知自适应框架通过捕捉深度信息和语义信息的内在联系,减小不同域之间的差异;然后,设计了一个轻量级深度估计网络来提供深度信息,通过跨任务交互策略融合深度和语义信息,并在深度感知空间对齐源域和目标域的分布差距;最后,提出基于深度信息的域内自适应策略弥合目标域内部的分布差异,将目标域分为子源域和子目标域,并缩小子源域和子目标域分布差距.实验结果表明,所提方法在SYNTHIA-2-Cityscapes和SYNTHIA-2-Mapillary跨域任务上的平均交并比分别为46.7%和73.3%,与同类方法相比,该方法在语义分割和深度估计精度上均有显著提升.  相似文献   

11.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

12.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。  相似文献   

13.
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。  相似文献   

14.
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%.  相似文献   

15.
传统的跑题检测方法大部分是通过将文本转换为向量空间的向量表示,再计算与正确文章之间的相似度来得到是否跑题的结果,然而这种方法仅针对于文章语句结构上的表示,而忽略了文章语义上的关联,并且对于题目发散度较高的作文跑题检测效果较低。针对以上的问题,利用题目与正文主题词在耦合空间计算其相关度,再通过聚类的方法实现无监督的作文跑题检测。实验结果表明,基于耦合空间模型的作文跑题检测方法不论对于题目发散度较低的作文还是较高的作文的检测准确度都有一定程度的提高,其中对于题目发散度较高的作文更为明显。  相似文献   

16.
词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与其他词产生的关系中,而词语关系包含关联单位、关系类型和关系方向三个属性,因此,该文提出了一种新的基于神经网络的词向量训练模型,它具有三个顶层,分别对应关系的三个属性,更合理地利用词语关系对词向量进行训练,借助大规模未标记文本,利用依存关系和上下文关系来训练词向量。将训练得到的词向量在类比任务和蛋白质关系抽取任务上进行评价,以验证关系模型的有效性。实验表明,与skip-gram模型和CBOW模型相比,由关系模型训练得到的词向量能够更准确地表达词语的语义信息。  相似文献   

17.
随着经济活动数据的不断丰富,互联网平台上产生了大量的财经文本,其中蕴含了经济领域发展状况的影响因素.如何从这些财经文本中有效地挖掘与经济有关的经济要素,是实现非结构化数据在经济研究中应用的关键.根据人工构建非结构化经济指标的局限性,以及主题模型在非结构化经济指标挖掘中存在的问题,结合已有经济领域分类标准、词语之间的语义关系和词语对主题的代表性,定义了文档的领域隶属度、词语与主题的语义相关度和词语对主题的贡献度,用于分别描述CRF(Chinese restaurant franchise)中餐厅的菜肴风格、顾客之间对菜肴要求的一致程度和顾客对菜肴的专一程度;结合文档领域属性、词语语义和词语在主题中的出现情况,提出了PSP_HDP(combining documents’domain properties,word semantics and words’presences in topics with HDP)主题模型.由于PSP_HDP主题模型改进了文档-主题与主题-词语的分配过程,从而提高了经济主题的区分度和辨识度,可以更有效地挖掘与经济有关的经济主题和经济要素词.实验结果表明:提出的PSP_HDP主题模型不仅在主题多样性、内容困惑度和模型复杂度等评价指标方面的整体性能优于HDP主题模型,而且在非结构化经济指标挖掘和经济要素词抽取方面能够得到区分度更好、辨识度更高的结果.  相似文献   

18.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

19.
针对微博内容驳杂、信息稀疏的问题,深入研究传统自动摘要技术,结合微博数据特点,在微博事件提取的基础上提出一种基于统计和理解的混合摘要方法。首先根据词频、句子位置等文本特征得到基于统计的初始摘要;然后通过语义词典,计算句子相似度、确定事件主体进行基于语义理解的可读性加工,使最终摘要更具可读性;最后采用合理的摘要评价方法评价所得摘要。实验结果表明,该方法在不同压缩比例下均能获得质量稳定且可读性良好的摘要。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号