首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于语义网技术的主题词自动标引   总被引:1,自引:0,他引:1  
为了实现电子政务公文主题词语义意义上的自动标引,创建了电子政务领域的概念空间,包括使用主题词表本体形式描述基本的概念及其关系和使用语义网资源描述框架表示概念类别词及其关系,然后根据主题词表抽取出题名所包含的主题词,并消除歧义词,最后将所得到的主题词使用逻辑推理机RACER进行语义逻辑的推理,从语义的角度进行主题词标引,突破机械标引的局限。  相似文献   

2.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

3.
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。  相似文献   

4.
中文地名的自动识别是命名实体识别任务中难度较大的任务之一,目的是从中文文本中自动准确提取地理专用名词.文中使用统计模型中的条件随机场对中文地名的自动识别在字一级粒度进行了研究.在研究中利用条件随机场能任意添加特征的优点,合理引用了丰富的特征组合,在大规模语料上进行训练,统计获得标注序列基于特征集的条件概率分布,并采用序列标注的方式,实现中文地名的自动识别.多次闭合测试和开放测试结果F1值为90%左右,识别效果良好.  相似文献   

5.
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识。如何从这些海量评论文本中有效提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键。本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取。由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性。通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果。  相似文献   

6.
现有法语命名实体识别(NER)研究中,机器学习模型多使用词的字符形态特征,多语言通用命名实体模型使用字词嵌入代表的语义特征,都没有综合考虑语义、字符形态和语法特征。针对上述不足,设计了一种基于深度神经网络的法语命名实体识别模型CGC-fr。首先从文本中提取单词的词嵌入、字符嵌入和语法特征向量;然后由卷积神经网络(CNN)从单词的字符嵌入序列中提取单词的字符特征;最后通过双向门控循环神经网络(BiGRU)和条件随机场(CRF)分类器根据词嵌入、字符特征和语法特征向量识别出法语文本中的命名实体。实验中,CGC-fr在测试集的F1值能够达到82.16%,相对于机器学习模型NERC-fr、多语言通用的神经网络模型LSTM-CRF和Char attention模型,分别提升了5.67、1.79和1.06个百分点。实验结果表明,融合三种特征的CGC-fr模型比其他模型更具有优势。  相似文献   

7.
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。  相似文献   

8.
基于反馈规则学习的医学文献主题自动标引方法   总被引:3,自引:0,他引:3  
梁红兵  杨铭魁  黄晓 《计算机工程》2003,29(11):174-176
就中医药文献的自动标引研究,介绍了一种基于规则学习的主题自动标引方法。与以往基于词频统计和加权的自动标引方法,基于反馈的规则学习的方法能有效提取文献的副主题词,并进行主/副题词组配,具有很好的扩展性和适应性,基于此方法开发的系统在大量中医药文献中作了实验,获得了很好的标引结果。  相似文献   

9.
Ontology近年来受到信息科学领域的广泛关注,其重要性已在许多方面表现出来并得到广泛认同。自动创建领域Ontology可以克服手工方法的不足,成为当前的研究热点之一;实例(Instance)是Ontology的重要组成元素,从领域文档集中学习实例是自动创建领域Ontology的关键之一。研制的一个领域Ontology的自动生成系统(OntoAGS)能够通过领域文档集自动地创建该领域的Ontology,OntoAGS系统的实例学习是基于模式匹配的算法。实验表明,与当前较流行的Ontology半自动生成系  相似文献   

10.
同主题词短文本分类算法中BTM的应用与改进   总被引:1,自引:0,他引:1  
为解决大规模短文本语料库主题模型参数K较大导致求解慢的问题,本文提出FBTM模型,将BTM中单个词对采样复杂度由O (K)降低O (1).针对短文本词语稀疏、描述能力弱的特点,提出一种结合同主题词对与FBTM的短文本分类算法,首先使用FBTM进行主题建模,将一段滑动窗口内的同主题词对作为特征扩充到原文本中,然后使用FBTM主题分布作为另一部分文本特征.对特征扩展后的Weibo语料库进行分类实验,结果显示该方法显著提高了分类性能.  相似文献   

11.
词表的自动丰富——从元数据中提取关键词及其定位   总被引:10,自引:2,他引:10  
词表和分类法是传统纸质文献环境下最重要的知识组织工具。它的更新和维护一直依靠手工进行。这限制了它在数字图书馆和网络信息环境下的应用。本文介绍了一项基于统计的、从元数据的标题中抽取关键词并定位在词表中的方法。定位的依据是抽取出的关键词所对应的标引词集的收敛性质。标引词是用于标引文献主题的、来自于词表的受控词汇,即主题词。在《中国分类主题词表》和北京大学图书馆提供的5 千余条计算机科技领域的书目数据上所进行实验证明了文中所述的方法是可行的、有效的。这一方法可以直接用来实现基于已标引语料库的自动编目和元数据自动生成。  相似文献   

12.
夏飞  陈帅琦  华珉  蒋碧鸿 《计算机应用》2023,(12):3711-3718
针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT (Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法。首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合机制将词特征直接融入BERT模型,使模型更有效地利用外部知识;其次,通过引入DEEPNORM方法提高模型对于特征的提取能力,并使用贝叶斯信息准则(BIC)确定模型的最佳深度,使BERT模型稳定加深至40层;最后,采用ProbSparse自注意力机制层替换BERT模型中的经典自注意力机制层,并利用粒子群优化(PSO)算法确定采样因子的最优值,在降低模型复杂度的同时确保模型性能不变。在人工标注的电力领域专利文本数据集上进行了分词性能测试。实验结果表明,所提方法在该数据集分词任务中的F1值达到了92.87%,相较于隐马尔可夫模型(HMM)、多标准分词模型METASEG(pre-training model with META learning for Chinese word SEGmentation)与词典增...  相似文献   

13.
基于神经网络的触发词抽取模型利用实体信息判别触发词,但大量无关实体会影响触发词抽取效果。提出一种借助局部实体特征的事件触发词抽取方法,该方法先初步过滤无关实体,并将保留实体分为核心与非核心2类分别进行建模。利用卷积神经网络(CNN)抽取局部特征的特性,从众多实体中定位有助于触发词识别的局部重要实体,采用注意力机制提高其权重,同时利用有效非核心实体的语义排除干扰实体,从而借助重要实体的特征信息判别触发词。在特定和通用领域事件语料库上的实验结果均表明,该方法能够减少无关实体对触发词抽取的干扰,其触发词抽取性能的F1值比基准系统最高可提升0.017。  相似文献   

14.
音乐领域典型事件抽取方法研究   总被引:1,自引:0,他引:1  
事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。  相似文献   

15.
冯艳红  于红  孙庚  赵禹锦 《计算机应用》2016,36(11):3146-3151
针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强的领域表达能力这一特点,在统计特征的基础上,增加了词语的词向量与领域术语的词向量之间的相似度特征,构成基于词向量的特征向量,并采用CRF方法综合这些特征实现了领域术语识别。最后在领域语料库和SogouCA语料库上进行实验,识别结果的准确率、召回率和F测度分别达到了0.9855、0.9439和0.9643,表明所提的领域术语识别方法取得了较好的效果。  相似文献   

16.
针对目前公差规范依靠人工指定带来不确定性的问题,在基于本体的公差类型自动生成方法的基础上,研究基于本体的公差规范的自动生成。通过分析公差规范领域知识,提取其中涉及的概念和关系,以此构建公差规范本体,并采用Web本体语言(Web Ontology Language,OWL)编码实现该本体。在所实现本体的基础上,采用语义Web规则语言(Semantic Web Rule Language,SWRL)定义公差规范的生成规则,进而设计公差规范的自动生成算法。应用所设计算法,说明减速器中间传动轴的公差规范自动生成的过程。将为CAD系统中公差规范自动生成的研究提供有效的思路和方法。  相似文献   

17.
传统事件触发词抽取方法在特征提取过程中对自然语言处理工具产生过度依赖的方法,耗费大量人力,容易出现错误传播和数据稀疏性等问题。为此,提出采用CNN-BiGRU模型进行事件触发词抽取的方法。将词向量和位置向量进行拼接作为输入,提取词级别特征和句子全局特征,提高触发词抽取效果,并通过CNN提取词汇级别特征,利用BiGRU获取文本上下文语义信息。在ACE2005英文语料库和中文突发事件语料库CEC上的实验结果表明,该模型事件触发词识别F1值分别达到74.9%和79.29%,有效提升事件触发词的抽取性能。  相似文献   

18.
一种短语结构规则的自动获取方法   总被引:5,自引:0,他引:5  
文中提出一种新的知识获取方法,即从完全没有任何标注的生语料库中,采用NA假设自动构造带标训练数据,利用基于多特征的相似评估技术自动获取名词短语结构规则,该方法具有两个特点:(1)由于从没有任何标注的生语料库中自动获取带标训练数据,促使带标数据规模可以很大,且容易构造不同领域的带标语料库;(2)所获取的短语结构规则具有概率属性,可用于分类检索等应用中的名词短语抽取,为论证方法有效性,采用美国Beri  相似文献   

19.
采用基于Ontology的知识表示方法,解决多Agent的知识表示和共享问题,实现知识的自动推理和获取,实现多Agent之间语义理解,体现Agent的智能特征.在多Agent原型旅游系统中,采用OWL描述Ontology定义相关领域的知识表示与推理,为Agent之间的学习、协商,进一步交互通信打下基础.  相似文献   

20.
吴斐  张玉红  胡学钢 《计算机科学》2015,42(6):220-222, 238
词汇的情感倾向判别对文本情感分类具有重要意义。已有方法多假设存在基准词,根据目标词与基准词的关联度来判别目标词的情感倾向。实际应用中,尤其是评论语料库中基准词往往存在情感歧义问题,从而影响判别结果的准确性。基于上述分析,面向给定语料库,提出一种基准词的提取和消歧方法,并在此基础上实现跨领域的词汇情感倾向判别。首先在任一标记语料库中自动提取候选基准词;然后基于共现矩阵评估并过滤部分具有情感歧义的基准词;最后通过计算基准词与目标词的相似性,实现目标词的情感倾向判别。实验结果表明了方法的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号