首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

2.
基于描述文本的网络攻击自动化分类是实现APT攻击知识智能抽取的重要基础。针对网络攻击文本专业词汇多、难识别,语义上下文依赖强、难判断等问题提出一种基于上下文语义分析的文本词句特征自动抽取方法,通过构建BERT与BiLSTM的混合神经网络模型BBNN(BERT and BiLSTM Neural Network),计算得到网络攻击文本的初步分类结果,再利用方差过滤器对分类结果进行自动筛选。在CAPEC(Common Attack Pattern Enumeration and Classification)攻击知识库上的实验结果显示,该方法的准确率达到了79.17%,相较于单一的BERT模型和BiLSTM模型的分类结果分别提高了7.29%和3.00%,实现了更好的网络攻击文本自动化分类。  相似文献   

3.
介绍了一种中文自动文摘系统;该系统在高精度的汉语自动分词、关键词自动抽取等算法的基础上,引入了文本结构的统计分析和句间指代关系的识别等技术,使得生成的摘要更加准确、全面、连贯. 该系统适用于科技文献、政论文、公文等实用文体的摘要生成.  相似文献   

4.
针对短文本自动评分中存在的特征稀疏、一词多义及上下文关联信息少等问题,提出一种基于BERT-BiLSTM(bidirectional encoder representations from transformers-bidirectional long short-term memory)的短文本自动评分模型.使用BERT(bidirectional encoder representations from transformers)语言模型预训练大规模语料库习得通用语言的语义特征,通过预训练好的BERT语言模型预微调下游具体任务的短文本数据集习得短文本的语义特征和关键词特定含义,再通过BiLSTM(bidirectional long short-term memory)捕获深层次上下文关联信息,最后将获得的特征向量输入Softmax回归模型进行自动评分.实验结果表明,对比CNN(convolutional neural networks)、CharCNN(character-level CNN)、LSTM(long short-term memory)和BERT等基准模型,基于B...  相似文献   

5.
针对Internet中新词不断出现且难以被及时有效识别的问题,在分析其出现特征的基础上,利用单字之间的同现词频信息以及它们出现的时间规律确定候选新词字串.利用候选字串中各字符相邻、有序、频繁出现的特点,提出采用改进的关联规则挖掘算法进行新词的识别.实验表明,该方法不仅可以根据词串的出现规律区分出新词和常用的单字组合,改善传统方法因固定n元模式匹配而导致的僵化现象,而且解决了“长词中包含短词”的问题,提高了新词识别的准确率.  相似文献   

6.
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此, 提出了一种集成算法——新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性, 提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法, 发掘其中大量存在的网络用语以实现更加准确的分词及语义把握; 其次, 引入Simhash算法使得微博文本中的“信息过载”现象得到改观; 再次, 为改善微博文本的简洁性而引起的特征稀疏问题, 采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征; 最后, 通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型, 从而有效构建多粒度微博用户兴趣画像。实验结果表明, 粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%, 63.6%, 相对于基准模型, NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%, 其促进作用优于现有的新词发现方法。  相似文献   

7.
由于情感语料问题、情感与声学特征之间关联问题、语音情感识别建模问题等因素,语音情感识别一直充满挑战性.针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,本文提出嵌入注意力机制并结合层级上下文学习的双向长短时记忆(BLSTM)网络模型.模型分3个阶段完成语音情感识别任务,第1阶段提取情感语音特征全集后采用SVM-RFE特征排序算法降维得到最优特征子集,并对其进行注意力加权;第2阶段将加权后的特征子集输入BLSTM网络学习特征层上下文获得最初情感预测结果;第3阶段利用情感标签值对另一独立BLSTM网络训练学习标签层上下文信息并据此在第2阶段输出结果基础上完成最终预测.模型嵌入注意力机制使其自动学习调整对输入特征子集的关注度,引入标签层上下文使其联合特征层上下文实现层级上下文信息融合提高鲁棒性,提升了模型对情感语音的建模能力,在SEMAINE和RECOLA数据集上实验结果表明:与基线模型相比RMSE和CCC均得到较好改善.  相似文献   

8.
针对开放信息抽取文本中与事实相关的语境信息,本文首先从原有语境标识中提取特征进行训练分类,扩展了可识别的语境标识;其次,利用文本中依存关系,自顶向下逐层将识别出的语境信息与被限定子句构造成层次结构图,并最终根据层次图为被限定子句中抽取出的关系元组自底向上地分配对应语境域,从而一方面避免了语境信息被错误的抽取为关系元组,另一方面在保证关系元组正确的基础上,正确地将语境域分配给被限定的关系元组。实验结果验证了子句级别语境感知的抽取方法 ClauseContextIE,在随机数据与含语境信息的文本中,实现了较高的召回率和精确度。  相似文献   

9.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

10.
提出了一种基于多特征的中文文本蕴含识别方法,首先对文本进行预处理、中文分词、词性标注、命名实体识别、依存分析等处理;然后提取字符串特征、句法特征、语义特征等,使用贝叶斯逻辑回归模型进行预测;最后再使用规则进行修正,得到最终的识别结果.该方法在2014年RITE-VAL 评测任务的CS 数据上的MacroF1为0.625,超过目前最好的研究现状(MacroF1:0.615, BUPTTeam-CS-SVBC-05).  相似文献   

11.
基于可拓学理论的汉语词义消歧   总被引:1,自引:0,他引:1  
卢志茂  刘挺  李生 《哈尔滨工业大学学报》2006,38(12):2026-2029,2035
应用可拓学原理,对歧义词进行可拓分解、可拓置换等可拓变换,为歧义词的各个词义建立相应的可拓集合,利用可拓集合中义原词语从大规模语料中自动获取歧义词的语言信息,建立无指导的词义消歧模型.该方法克服了从无词义标注语料中获取词义消歧知识的难题.实验证明,该方法用于汉语的词义消歧切实可行,平均正确率达到90.16%.  相似文献   

12.
无监督的动态分词方法   总被引:2,自引:0,他引:2  
介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词。讨论了这些方法的局限性,并列出了一些试验结果。  相似文献   

13.
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。  相似文献   

14.
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。  相似文献   

15.
互联网的普及导致了大量网络词汇的诞生,这些网络词汇在一定程度上遵循了现代汉语的造词法规则,即:语音学造词、修辞学造词、词法学造词、句法学造词和综合法造词.同时,网络语言对现代汉语造词法又有一定的超越和突破,对汉语词汇提出了新的要求.  相似文献   

16.
为了提高词义消歧性能,提出了一种基于卷积神经网络的消歧方法.以歧义词为中心,向左右两侧连续扩展4个邻接词汇单元,选取其中的词形、词性和语义类作为消歧特征.以消歧特征为基础,使用卷积神经网络来确定歧义词的语义类别.利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化卷积神经网络.使用SemEval-2007:Task#5的测试语料来测试词义消歧分类器的性能,所提方法的消歧平均准确率有提高.实验结果表明,该方法在词义消歧中是可行的.  相似文献   

17.
外文原词能否成为汉语借形词——兼谈原词性质的字母词   总被引:1,自引:0,他引:1  
判定外文原词性质的标准是语音。外文原词的读音不能纳入汉语的语音系统,汉语不能像英语那样用借形的方式吸收法语原词,保持其词形不变,改变其拼读方式。汉语不能通过借形的方式吸收外文原词,外文原词不能成为汉语借形词;外文原词是外语词,不是外来词。汉语吸收外文原词的主要方式是使其汉字化。带有原词性质的字母词,如外文原词和汉语语素构成的词、拼读的字母词、截短词、半缩略语、人名缩略语等很难真正成为汉语的词语,只能是难以融入汉语的外文语码。  相似文献   

18.
基于双向匹配法和特征选择算法的中文分词技术研究   总被引:1,自引:0,他引:1  
传统的双向匹配算法虽然能够发现歧义现象,但是却不能解决歧义问题.为了更好地进行歧义消解,提出了一种基于双向匹配法和特征选择算法的中文分词技术,通过积累的语料库,设计并实现了一个基于两种方法的分词系统.该系统的实验结果表明,基于双向匹配法和特征选择算法的中文分词技术比传统方法的效果要好.  相似文献   

19.
面向英语文章的词性标注是对英语文章实现自动批改的基础,虽然研究者对英语词性标注做了大量有益的研究,但是大多数的研究都面向英语为第一语言的用户,而面向英语为第二语言用户的相关研究则很少. 为此,对以英语为第二语言用户的英语文章进行了人工标注,在此基础上提出了一种面向英语文章的词性标注算法,融合了词聚类、无标语料统计信息、单词发音等特征. 实验结果表明,该算法能有效提高词性标注性能,标注正确率从94.49%可提高到97.07%.  相似文献   

20.
针对目前财经领域内新闻数据杂乱无章、缺乏自动高效管理等问题,提出一种基于卷积神经网络的中文财经新闻分类方法。收集大规模财经新闻语料,通过无监督学习方法训练获得一个广义通用的财经类词向量模型,将词向量引入到卷积神经网络模型训练中实现有效分类。与传统方法相比,基于卷积神经网络的中文财经新闻分类方法网络模型结构简单,针对小样本集也能表现优异的性能,不仅能有效解决中文财经新闻分类问题,还可充分证明卷积神经网络在处理文本分类问题中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号