首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
关键词提取是中文信息处理的一个关键环节。提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TFxIDF值和互信息的优化词典。然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词。最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词。通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.  相似文献   

2.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

3.
事件抽取是构建知识图谱的关键前置任务之一,而事件论元抽取是事件抽取的子任务,对事件抽取质量有显著影响.针对现有的流水线式事件抽取方法在论元抽取时忽略了触发词和论元间、论元和论元间相互关系导致抽取质量低的问题,该文提出了一种基于双向门控循环神经网络(Bi-GRU)的事件论元抽取方法.该方法融合Bert词向量、词性特征、词...  相似文献   

4.
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源. 基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础. 过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失. 提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别. 所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测. 在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.  相似文献   

5.
为了对能见度良好时影响船舶领域因素的重要性进行评价并进行因素约简,降低船舶领域模型的复杂度,本文选择主成分回归算法和基于粗糙集算法对其进行分析。利用主成分回归算法得到了影响船舶领域的因素的重要度;利用基于粗糙集算法得到了影响船舶领域因素的约简集与因素重要度。对两种方法得到的结果进行比较,确定了影响船舶领域因素的重要性。结果表明,船舶大小、船舶类型、船舶速度、会遇角度、密度和驾驶员级别较重要,风、浪、流、能见度的重要度次之,且风、浪、流对船舶领域的影响可以忽略。  相似文献   

6.
人脸识别属于生物识别的研究领域,是模式识别的一个重要研究方向,特征抽取是解决人脸识别的关键问题。通过对各种特征抽取技术和方法的分析比较,认为光照和姿态是影响人脸识别效果的两个主要因素,提出了人脸识别的解决思路和今后的研究趋势。  相似文献   

7.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。  相似文献   

8.
为有效指导服装企业生产经营决策,选取服装网购评论为数据样本和研究对象,提出了基于服装网购评论的消费热点情报分析方法,以探究消费者对所采购的服装的关注热点。采用网络爬虫技术采集服装网购评论数据并进行预处理后,利用SnowNLP技术进行情感倾向性分类。在关键词抽取时针对分词过程存在错分专业词汇问题,引入服装专业领域分词词典和停用词典,并结合GooSeeker方法和人工调整方法进一步提高关键词抽取精准度。关键词抽取后建立共词矩阵,并聚类进行社会网络分析得到消费热点情报信息。以真丝服装网购评论进行实证分析以验证方法的有效性。结果发现:真丝服装网购消费者依次易就面料、颜色、尺码、质量等热点关键词给出负面反馈;此外还得到这些热点关键词关联的负面反馈信息及与其他热点关键词之间的相互关系,如面料的负面反馈主要与薄透、褶皱、缩水和引申的丝料价格贵有关,对面料差评的消费者往往会更关注尺码、物流、价格以及退换货等信息。  相似文献   

9.
检索词扩展是提高信息检索效率的重要方法,扩展的方式分为相似词扩展与相关词扩展。关键词和主题词是文献主要内容的概括,它们间存在相似关系与共现关系,利用这些关系构建关键词相似表、关键词相关表、关-主转换表与主题词共现表,这四个构成词间关系网,由这个关系网实现检索词的各种扩展方式。本文通过理论与实例的方式对关系网的建立与应用进行描述。  相似文献   

10.
针对船舶近海航行安全以往的研究以定性分析为主,无法给出各个影响因素重要性程度的问题,采用定量分析的思想,对影响其安全的诸多因素,如船舶因素、人员因素、管理因素和环境因素等运用层次分析法,对各个影响指标的重要性程度进行比较分析,得到了各个影响因素所占的权重,可为以后相关的研究工作提供重要的参考依据。  相似文献   

11.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

12.
本文提出一种基于词频统计的关键词抽取方法。利用了TextTiling方法、遗传算法和"成对比较法"进行了算法优化。  相似文献   

13.
为了实现关系数据库上自由态的关键词查询,通过创建索引表并运用其存储的知识为每个属性赋予不同的权值来改进信息检索中传统的排序方法.对每个查询用索引表和改进的排序方法来获得Top-N答案.用实际数据集进行了实验,实验结果表明此方法在查询时间和准确性上是有效的.  相似文献   

14.
以“公司人事变动”领域为例,针对实体关系抽取课题,从知识自动获取角度出发,基于Bootstrapping思想提出了层次知识获取模型,利用内外两层模块相互嵌套自动获取知识,获得了实体关系分析所需要的领域专用词典和模板规则。结合全信息理论,对模板添加语义和语用标注,生成全信息知识库。在此基础上,完成关系抽取实验和评测。  相似文献   

15.
提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效果来增强实体链接的结果。采用TextRank关键词提取技术增强目标实体综合描述信息的主题信息,增强文本相似度度量的准确性,从而优化模型效果。使用CCKS2019评测任务二的数据集对模型效果进行验证,实验结果表明,所提方法的实体链接效果明显优于其他实体链接方法,能有效解决实体链接问题。  相似文献   

16.
现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性,且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重,利用词频特性为节点之间的连边加权。在此基础上,基于PageRank算法,并结合人类语言习惯特性定义位置权重系数,提出了一个新的新闻关键词提取算法——LTWPR算法,综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验,结果表明该算法能够快速有效的覆盖新闻作者标注的关键词,且提取效果更佳。  相似文献   

17.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

18.
PMBP—异戊醇—石蜡系统分离测定稀土总量   总被引:1,自引:0,他引:1  
以石蜡为溶剂,用PMBP与异戊醇为萃取剂,利用固-液取法分离测定稀土元素。试验表明,该系统可产生协萃效应,并且讨论了萃取剂PMBP用量对协萃系统分配比的影响,异戊醇加入量对协萃效应的影响,得出了最佳萃取条件。该系统用于分离测定稀土矿样中稀土总量,萃取酸度范围扩大,回收率提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号