首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。  相似文献   

2.
随着信息技术的发展,文本信息数据正在爆炸式增长,从众多的文本数据中有效地获取有用信息是一个值得研究的问题。针对该任务提出基于层次特征提取的文本分类模型,考虑文本中句子级别的语义内容以及文本级别的语义内容,依次使用两种神经网络模型建模句子级的语义内容和文本级的语义内容,从而得到关于文本的全面特征,进而基于此特征对文本进行分类。实验结果表明,该方法能够更加准确地提取文本的特征,具有更高的分类准确度。  相似文献   

3.
针对问题文本细粒度分类中文本特征稀疏、文本整体特征相似、局部差异特征较难提取的特点,提出基于语义扩展与注意力网络相结合的分类方法。通过依存句法分析树提取语义单元,在向量空间模型中计算语义单元周围的相似语义区域并进行扩展。利用长短期记忆网络模型对扩展后的文本进行词编码,引入注意力机制生成问题文本的向量表示,根据Softmax分类器对问题文本进行分类。实验结果表明,与传统的基于深度学习网络的文本分类方法相比,该方法能够提取出更重要的分类特征,具有较好的分类效果。  相似文献   

4.
为增强文本匹配模型的文本语义捕捉能力并提高语义匹配准确度,提出一种基于词嵌入与依存关系的文本匹配模型。构建融合词语义和词间依存关系的语义表示,通过余弦均值卷积和K-Max池化操作获得描述两段文本各部分语义匹配程度的矩阵,并采用长短期记忆网络学习匹配程度矩阵与真实匹配程度之间的映射关系。实验结果表明,该模型的F1值为0.927 4,相比BM25及深度文本匹配模型准确度更高。  相似文献   

5.
采用向量空间模型(V SM)描述文本,利用隐性语义索引(LSI)技术进行特征重构与降维,构造了BP神经网络文本分类器。将贝叶斯分类技术与前者结合构造了一种混合文本分类器。实验结果表明混合分类器分类准确度和分类速度得到提高。  相似文献   

6.
图卷积神经网络GCN已经广泛应用于文本分类任务中,但GCN在文本分类时仅仅根据词语的共现关系来构建文本图,忽略了文本语言本身的规律关系,如语义关系与句法关系,并且GCN不善于提取文本上下文特征和序列特征。针对上述问题,该文提出了一种文本分类模型SEB-GCN,其在文本词共现图的基础上加入了句法文本图与语义文本图,再引入ERNIE和残差双层BiGRU网络来对文本特征进行更深入的学习,从而提高模型的分类效果。实验结果表明,该文提出的SEB-GCN模型在四个新闻数据集上,分类精确度对比其他模型分别提高4.77%、4.4%、4.8%、3.4%、3%,且分类收敛速度也明显快于其他模型。  相似文献   

7.
已有工作表明,融入图像视觉语义信息可以提升文本机器翻译模型的效果。已有的工作多数将图片的整体视觉语义信息融入到翻译模型,而图片中可能包含不同的语义对象,并且这些不同的局部语义对象对解码端单词的预测具有不同程度的影响和作用。基于此,该文提出一种融合图像注意力的多模态机器翻译模型,将图片中的全局语义和不同部分的局部语义信息与源语言文本的交互信息作为图像注意力融合到文本注意力权重中,从而进一步增强解码端隐含状态与源语言文本的对齐信息。在多模态机器翻译数据集Multi30k上英语—德语翻译对以及人工标注的印尼语—汉语翻译对上的实验结果表明,该文提出的模型相比已有的基于循环神经网络的多模态机器翻译模型效果具有较好的提升,证明了该模型的有效性。  相似文献   

8.
陈明  刘蓉  张晔 《计算机工程》2023,(6):314-320
医疗实体识别是从医疗文本中识别疾病、症状、药物等多种类型的医疗实体,能够为知识图谱、智慧医疗等下游任务的发展提供支持。针对现有命名实体识别模型提取语义特征较单一、对医疗文本语义理解能力不足的问题,提出一种基于多重注意力机制的神经网络模型MANM。为捕获文本中更丰富的语义特征,在模型输入中引入医疗词汇先验知识,通过自注意力机制获取医疗文本的全局语义特征,并利用双线性注意力机制获取词汇和字符层面的潜在语义特征,得到包含字词间依赖关系的特征向量。为提高模型的上下文信息捕捉能力,采用改进的长短时记忆网络提取文本时序特征,同时设计多头自注意力机制获取词语间隐含的关联语义特征。最后融合上述多层次语义特征,利用条件随机场进行实体识别。在公开数据集CMeEE、CCKS2019、CCKS2020上进行对比实验,实验结果表明,MANM模型在3个数据集上的F1值分别达到64.29%、86.12%、90.32%,验证了所提方法在医疗实体识别中的有效性。  相似文献   

9.
为了进一步提高图像描述生成文本的精度,提出一种结合全局-局部特征和注意力机制的图像描述方法。该方法在传统的编码器-解码器模型上进行改进,从整体角度来看,编码器阶段使用残差网络ResNet101提取图像的全局特征和局部特征,以避免对象丢失或对象预测错误问题,在解码器阶段采用嵌入改进后的注意力机制的双向[GRU]生成文本序列。从局部角度来看,该模型提出的注意力机制是一种独立的循环结构,通过计算图像局部特征向量与语义向量之间的相似度来获取注意力权重,增强图像特征与语义信息之间的映射。在MSCOCO数据集上的实验结果显示,该算法在BLEU、CIDEr、METEOR等评价指标上均获得了不同程度的提升,表明使用该模型生成的描述文本准确度高且细节丰富。  相似文献   

10.
为提升英汉自动翻译系统的翻译的准确率,提出在构建语义本体模型对语义特征进行提取后,构建语义特征和短语译文组合的翻译模型,然后构建基于B/S的智能化自动翻译系统,最后通过Visual DSP++进行仿真测试。结果表明,本研究构建的短语译文组合与以往研究方法比,具有较高的准确率和语义信息召回率;系统性能测试表明,在不同的句型下,翻译准确率可高达97%,且使用该系统后,翻译时间均低于1s,翻译速度快,具备较高的自动化和智能性水平。  相似文献   

11.
针对传统图模型方法进行文本摘要时只考虑统计特征或浅层次语义特征,缺乏对深层次主题语义特征的挖掘与利用,提出了融合主题特征后多维度度量的文本自动摘要方法MDSR(multi-dimension summarization rank)。首先利用LDA主题模型对文本主题语义信息进行挖掘,定义了主题重要度以衡量主题特征对句子重要程度的影响;然后结合主题特征、统计特征和句间相似度,改进了图模型节点的概率转移矩阵的构建方式;最后根据句子节点权重进行摘要的抽取与度量。实验结果显示,当主题特征、统计特征及句间相似度权重比例达到3:4:3时,MDSR方法的ROUGE评测值达到最佳,ROUGE-1、ROUGE-2、ROUGE-SU4值分别达到53.35%、35.18%和33.86%,优于对比方法,表明了融入主题特征后的文本摘要方法有效提高了摘要抽取的准确性。  相似文献   

12.
即时通信等社交软件产生的聊天文本内容证据数据量大且聊天内容含有“黑话”等复杂语义,数字取证时无法快速识别和提取与犯罪事件有关的聊天文本证据。为此,基于DSR(dynamic semantic representation)模型和BGRU(bidirectional gated recurrent unit)模型提出一个聊天文本证据分类模型(DSR-BGRU)。通过预处理手段处理聊天文本数据,使其保存犯罪领域特征。设计并实现了基于DSR模型的聊天文本证据语义特征表示方法,从语义层面对聊天文本进行特征表示,通过聚类算法筛选出语义词,并通过单词属性与语义词的加权组合对非语义词词向量进行特征表示,且将语义词用于对新单词进行稀疏表示。利用Keras框架构建了包含DSR模型输入层、BGRU模型隐藏层和softmax分类层的多层聊天文本特征提取与分类模型,该模型使用DSR模型进行词的向量表示组成的文本矩阵作为输入向量,从语义层面对聊天文本进行特征表示,基于BGRU模型的多层隐藏层对使用这些词向量组成的文本提取上下文特征,从而能够更好地准确理解聊天文本的语义信息,并利用softmax分类层实现聊天文本...  相似文献   

13.
近年来,以生成对抗网络(generative adversarial network, GAN)为基础的文本生成图像方法成为跨媒体融合研究的一大热门领域.文本生成图像方法旨在通过提取更具表征力的文本及图像特征,提升文本描述与生成图像之间的语义一致性.现有方法大多针对在图像全局特征与初始文本语义特征之间进行建模,忽略了初始文本特征的局限性,且没有充分利用具有语义一致性的生成图像对文本特征的指导作用,因而降低了文本生成图像中文本信息的表征性.其次,由于没有考虑到生成目标区域间的动态交互,生成网络只能粗略地划分目标区域,且忽略了图像局部区域与文本语义标签的潜在对应关系.为解决上述问题,提出了一种基于图像-文本语义一致性的文本生成图像方法 ITSC-GAN.该模型首先设计了一个文本信息增强模块(text information enhancement module, TEM),利用生成图像对文本信息进行增强,从而提高文本特征的表征能力.另外,该模型提出了一个图像区域注意力模块(image regional attention module, IRAM),通过挖掘图像子区域之间的关系,增强图像特...  相似文献   

14.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

15.
如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射是文本分类核心问题之一。传统的词袋模型的优点是将每个词视为一个特征,而缺点是计算成本会随特征数量和文本与特征之间的关系的增加而增加,并且没有考虑文本特征自身的语义关系,语义关系的优势是获取文本和特征之间的相关性。针对这个问题,提出一种增强混合特征选择方法,该方法使用混合特征选择进行降维,然后再使用词向量对低频词进行语义增强。为了验证增强的混合特征选择对文本分类的作用,构建了两个实验,使用LSTM算法进行分类模型训练与测试。对爬取的71825个新闻文本数据进行实验表明,基于语义的增强混合特征选择方法在文本分类时既提高了分类效率又能保证分类精度。  相似文献   

16.
文本生成图像旨在根据自然语言描述生成逼真的图像,是一个涉及文本与图像的跨模态分析任务。鉴于生成对抗网络具有生成图像逼真、效率高等优势,已经成为文本生成图像任务的主流模型。然而,当前方法往往将文本特征分为单词级和句子级单独训练,文本信息利用不充分,容易导致生成的图像与文本不匹配的问题。针对该问题,提出了一种耦合单词级与句子级文本特征的图像对抗级联生成模型(Union-GAN),在每个图像生成阶段引入了文本图像联合感知模块(Union-Block),使用通道仿射变换和跨模态注意力相结合的方式,充分利用了文本的单词级语义与整体语义信息,促使生成的图像既符合文本语义描述又能够保持清晰结构。同时联合优化鉴别器,将空间注意力加入到对应的鉴别器中,使来自文本的监督信号促使生成器生成更加相关的图像。在CUB-200-2011数据集上将其与AttnGAN等多个当前的代表性模型进行了对比,实验结果表明,Union-GAN的FID分数达到了13.67,与AttnGAN相比,提高了42.9%,IS分数达到了4.52,提高了0.16。  相似文献   

17.
方面级别情感分类旨在分析一个句子中不同方面词的情感极性。先前的研究在文本表示上,难以产生依赖于特定方面词的上下文表示;在语义特征分析上,忽略了方面词的双侧文本在整体语义上与方面词情感极性之间具备不同关联度这一特征。针对上述问题,该文设计了一种双通道交互架构,同时提出了语义差这一概念,并据此构建了双通道语义差网络。双通道语义差网络利用双通道架构捕捉相同文本中不同方面词的上下文特征信息,并通过语义提取网络对双通道中的文本进行语义特征提取,最后利用语义差注意力增强模型对重点信息的关注。该文在SemEval2014的Laptop和Restaurant数据集以及ACL的Twitter数据集上进行了实验,分类准确率分别达到了81.35%、86.34%和78.18%,整体性能超过了所对比的基线模型。  相似文献   

18.
对基于语义匹配和BiLSTM的机器翻译技术实现的方法进行了研究与设计,以中英翻译为例,搭建了一种基于BERT-BiLSTM机器翻译模型。首先,选择BiLSTM网络与基于BERT的语义匹配模型作为词向量生成算法,对待翻译的文本特征进行提取;然后,以BiLSTM网络为载体搭建基于BiLSTM网络的编码器,并引入词素切分方法,解决英语时态多变导致编码时容易出现歧义的问题;同时搭建基于BERT的注意力层对中英双语词语的对齐概率进行计算;并由单个隐藏层的解码器进行解码操作;最后,对词向量生成算法与机器翻译模型进行实验测试。测试结果表明:设计的BERT-BiLSTM词向量生成模型精确度为91.87%,准确率达97.01%,较对照组的三种模型平均提高了3.3%;基于BERT-BiLSTM的机器翻译模型的平均BLEU值为94.88%,比其他三种机器翻译模型提高了6%左右;表明BERT-BiLSTM模型更适合作为中英机器翻译的词向量生成算法,机器翻译模型的翻译质量得到大幅提高。  相似文献   

19.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

20.
基于LSA和SVM的文本分类模型的研究   总被引:1,自引:0,他引:1  
为了提高文本分类的准确性,研究并设计了一个基于潜在语义分析和支持向量机的多类文本分类模型.利用潜在语义分析进行特征抽取,消除多义词和同义词在文本表示时造成的偏差,并实现文本向量的降维.使用具有良好分类精度和泛化能力的支持向量机进行分类,提出一种改进的一对一多类分类算法,改善不可分问题.实验结果表明,该模型在类别数目较少时具有较好的分类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号