首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

2.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

3.
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其它相关主题的分布,和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的结点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其它主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM即可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的结点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。  相似文献   

4.
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。  相似文献   

5.
文章以信息安全相关文章数据为研究对象,分析了目前信息安全研究工作中新闻动态热点的数据处理和分析需求,结合信息安全领域特点,基于自然语言处理技术提出了基于TextRank和LDA的信息安全领域热点感知和可视化技术,并对信息安全领域新闻动态热点进行了关键词分析、关键词共现分析以及主题分析。实验结果表明,该技术可实现信息安全研究热点快速定位与感知,达到辅助深入研究分析的目的。  相似文献   

6.
高质量的问答对有助于从文章中获取知识,提高问答系统性能,促进机器阅读理解,在人类活动和人工智能领域中都起着较为重要的作用.当前主要问答对生成方法依靠提供文章中的候选答案,根据答案生成特定的问题.然而一些候选答案可能会生成无法从文章中回答的问题,或是生成问题的答案不再是候选答案,造成问答对相关性差,影响问答对的质量.针对此问题,本文提出了一个基于关键短语抽取与过滤生成问答对的方法.该方法能够在输入文本中自动抽取适合生成问题的关键短语作为候选答案,再根据候选答案在问题生成器和答案生成器中生成问答对,并通过对比候选答案与生成答案的相似度过滤相关性低的问答对,最终输出保证质量的问答对.本方法在SQUAD1.1和NewsQA数据集上进行了实验验证,并人工检验了生成的问答对的质量,结果表明该方法可以有效提高生成的问答对的质量.  相似文献   

7.
基于LDA模型的主题词抽取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
石晶  李万龙 《计算机工程》2010,36(19):81-83
以LDA模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速Gibbs抽样算法进行。实验结果表明,快速Gibbs算法的速度约比传统Gibbs算法高5倍,准确率和抽取效率均较高。  相似文献   

8.
文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。  相似文献   

9.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

10.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

11.
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息.对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank).通过Word2 Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要.实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好.  相似文献   

12.
论述了网站文章正文中关键词广告的作用和优点,对比了其与搜索引擎关键词广告和文本链接广告的区别,利用AjaSx 技术,提出了在正文中实现关键词广告系统的设计,并给出其关键的实现.  相似文献   

13.
KDC密钥管理方案的研究和设计   总被引:1,自引:0,他引:1  
顾冠群  朱艳琴 《计算机工程》1992,18(4):54-58,63
  相似文献   

14.
随着互联网的纵深发展,信息隐藏技术日益成为一个研究热点。分析了基于文本的信息隐藏方法,设计了一种利用Word文本特征值的信息隐藏系统,集成了多种Word文本特征,详细阐述了信息隐藏模块和信息提取模块的工作流程,采用VBA程序设计语言实现了信息隐藏和信息提取两大核心模块,较好地解决了文本的隐藏与安全问题。实验结果表明:系统具有一定的实用价值。  相似文献   

15.
随着多播通信技术的发展,安全问题逐渐成为多播通信的核心问题。本文主要讨论了安全多播通信中的钥管理问题,提出了一种适于处理多播群组成员动态变化的基于遗传算法的密钥分配机制。实验表明,它比传统的密钥管理算法具有较高的效率和可靠性。  相似文献   

16.
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。该算法融合了多种信息抽取方法,引入支持向量机对信息进行分类,利用S型函数拟合调整模型参数,并采用数据平滑技术优化模型概率空间。实验结果表明,与传统的文本信息抽取算法相比,该算法信息抽取的精确度和召回率明显提高,具有较好的可行性。  相似文献   

17.
异构型数据库的数据转储是异构性数据库系统中非常重要的问题。本文在分析以前数据转储功能的局限性后,介绍了利用ODBC技术实现数据转储的设计思想和实现方法,并对该方法的实现步骤进行了详细的论述。  相似文献   

18.
随着信息技术的发展,文本信息数据正在爆炸式增长,从众多的文本数据中有效地获取有用信息是一个值得研究的问题。针对该任务提出基于层次特征提取的文本分类模型,考虑文本中句子级别的语义内容以及文本级别的语义内容,依次使用两种神经网络模型建模句子级的语义内容和文本级的语义内容,从而得到关于文本的全面特征,进而基于此特征对文本进行分类。实验结果表明,该方法能够更加准确地提取文本的特征,具有更高的分类准确度。  相似文献   

19.
综合利用MPEG视频流压缩域中P帧、B帧的DC系数和运动特征以及非压缩域纹理特征,提出一种基于RoughSVM的关键帧提取方法.该方法首先提取视频流中P帧、B帧的DC系数、分析运动活力性和运动空间分布和宏块类型、提取的纹理特征后,利用Rough Set对这些特征进行约减后,用SVM进行分类识别.实验表明,该方法能有效地识别关键帧.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号