首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。  相似文献   

2.
本文利用基于BERT预训练语言模型来构建用户画像,对词向量进行语义加权得到用户特征,并进行实验分析。  相似文献   

3.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

4.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

5.
信息提取技术是自然语言处理技术的关键技术之一,其中最主要的任务是事件元素提取.本文利用深度学习网络模型实现信息提取任务进行了深入研究.训练数据来源于上海大学构建的CEC已标注的语料库.相比于采用手工设立规则的识别方式和BiLSTM网络模型,本文通过对数据进行预处理和搭建BERT-BiLSTM-CRF深度网络模型,对文本...  相似文献   

6.
本文使用大规模预训练汉语模型的BERT-BiLSTM-CRF方法,从运营商的非结构化文本数据中联合提取命名实体与关系。首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的BERT-BiLSTM-CRF模型方法。实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1值高达93.2%,可以将该方法应用到实际问题解决中。  相似文献   

7.
王侃  曹开臣  徐畅  潘袁湘  牛新征 《电讯技术》2019,59(10):1175-1181
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。  相似文献   

8.
关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。  相似文献   

9.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

10.
利用词语在文本中的特征信息衡量词语与文本主题相关程度,提出了一种在新闻节目导语中提取关键词的方法,该方法综合了词频、位置分布等特征,组合词方案,并在词频、位置分布特征时考虑了同义词的影响,在实际使用中取得较好效果。  相似文献   

11.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

12.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

13.
李倩 《电子技术》2014,(10):8-11
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。  相似文献   

14.
基于改进权重计算的话题跟踪   总被引:1,自引:0,他引:1  
话题跟踪(Topic Tracking)任务是话题识别与跟踪(Topic Detection and Tracking,简称TDT)中的一个子任务,它的目的是监控新闻报道流识别出与预先给定的几个新闻报道所表述的话题相关的后继报道。特征项权重的计算方法是话题跟踪中的一个重要问题,计算方法的选择关系到话题跟踪的效果。提供了一种改进的权重计算方法,该方法的主要思想是:在计算特征项的权重时考虑了特征项的位置信息,将特征项的位置信息作为加权来计算特征项的权重。实验结果表明该方法有效,并提高了跟踪系统的性能。  相似文献   

15.
The network is a major platform for implementing new cyber-telecom crimes.Therefore,it is important to carry out monitoring and early warning research on new cyber-telecom crime platforms,which will lay the foundation for the establishment of prevention and control systems to protect citizens’property.However,the deep-learning methods applied in the monitoring and early warning of new cyber-telecom crime platforms have some apparent drawbacks.For instance,the methods suffer from data-distribution differences and tremendous manual efforts spent on data labeling.Therefore,a monitoring and early warning method for new cyber-telecom crime platforms based on the BERT migration learning model is proposed.This method first identifies the text data and their tags,and then performs migration training based on a pre-training model.Finally,the method uses the fine-tuned model to predict and classify new cyber-telecom crimes.Experimental analysis on the crime data collected by public security organizations shows that higher classification accuracy can be achieved using the proposed method,compared with the deep-learning method.  相似文献   

16.
基于二阶隐马尔可夫模型的文本信息抽取   总被引:3,自引:1,他引:3       下载免费PDF全文
周顺先  林亚平  王耀南  易叶青 《电子学报》2007,35(11):2226-2231
隐马尔可夫模型是文本信息抽取的重要方法之一.在一阶隐马尔可夫模型中,假设状态转移概率和观察值输出概率仅依赖于模型当前的状态,一定程度降低了信息抽取的精确度.而二阶隐马尔可夫模型合理地考虑了概率和模型历史状态的关联性,对错误信息有更强的识别能力.提出了基于二阶隐马尔可夫模型的文本信息抽取算法;分析了二阶隐马尔可夫模型在文本信息抽取中的有效性;仿真实验表明,新的算法比基于一阶隐马尔可夫模型的算法具有更高的抽取精确度.  相似文献   

17.
Keyword extraction by Term frequency-Inverse document frequency (TF-IDF) is used for text information retrieval and mining in many domains,such as news text,social contact text,and medical text.However,keyword extraction in special domains still needs to be improved and optimized,particularly in the scientific research field.The traditional TF-IDF algorithm considers only the word frequency in documents,but not the domain characteristics.Therefore,we propose the Scientific research project TF-IDF (SRP-TF-IDF) model,which combines TF-IDF with a weight balance algorithm designed to recalculate candidate keywords.We have implemented the SRP-TF-IDF model and verified that our method has better precision,recall,and F1 score than the traditional TF-IDF and TextRank methods.In addition,we investigated the parameter of our weight balance algorithm to find an optimal value for keyword extraction from scientific research projects.  相似文献   

18.
支持向量机是统计理论学习中一个重要的学习方法,也是解决模式识别问题的强有力工具,尤其在二元分类上有着突出的优势。拒识技术是语音识别系统走向实用化的关键技术之一,但由于语音信号的复杂性,使得拒识一直是语音识别技术中的难题。有机的将支持向量机技术应用于关键词识别的拒识问题中,把关键词识别中的正识和误识作为支持向量机的二元分类对象。这种方法避免了传统拒识方法对拒识门限的确定,同时充分发挥了支持向量机在二元分类上的优势。实验表明该算法效果较为有效。  相似文献   

19.
基于最大熵的隐马尔可夫模型文本信息抽取   总被引:26,自引:3,他引:26       下载免费PDF全文
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号