首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
应用于用户兴趣建模的多文本关键词抽取研究   总被引:1,自引:0,他引:1  
寇苏玲  蔡庆生 《计算机仿真》2007,24(2):103-105,109
现有的关键词抽取算法大部分是基于单篇文档的,虽然能成功抽取出单个文章的关键词,却无法满足针对多文档的关联检索.以单文档关键词抽取为基础,引入多文本文摘中的质心概念和MMR公式并加以变形,提出并分析比较了两种多文档关键词抽取算法:对内容相近的多篇文章进行关键词抽取,并按照权重生成关键词向最,建立基于关键词向量空间的用户兴趣模型.通过对5个主题100篇文章的测试表明,使用这两种算法提取出的关键词的准确率和召回率均达到了85%左右,能够较为准确地表示用户的兴趣模型.  相似文献   

2.
针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频-逆向文档频率(TF-IDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(F-score)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。  相似文献   

3.
一种利用BC方法的关键词自动提取算法研究   总被引:5,自引:0,他引:5  
通过分析几种常见关键词自动抽取方法的特点和不足,以KeyGraph算法思想为基础,构建词语网络并利用网络节点中心度(Betweenness Centrality)理论,提出了一种新的自动抽取关键词算法.通过分析和比较,新算法提取的关键词更能体现文档内容,并且相对低频而意义重要的关键词也能被提取出.最后,通过与TF和TFIDF算法的比较和分析,获得了令人满意的结果.  相似文献   

4.
文档的内部语义依赖和逻辑结构远远比句子的复杂,传统的实体关系抽取模型未能充分考虑文档中的多个不连续句子间差异化的关系,导致文档级实体关系抽取任务中模型抽取的关系特征不精确.为此,提出融合双向简单循环网络与胶囊网络的文档级实体关系抽取模型.双向简单循环网络实现多个句子间关系融合表示,同时优化对时间步的依赖,提高并行化效率...  相似文献   

5.
自动知识抽取方法可以自动识别并抽取Web文档中与本体匹配的事实知识.利用这些事实知识既可以构建基于知识的服务,也能够为语义Web的实现提供必要的语义数据.但面向自然语言特别是中文自然语言的自动知识抽取非常困难.提出了基于语义Web理论和中文自然语言处理(naturallanguage processing,NLP)技术的自动知识抽取新方法AKE,用聚集体知识概念刻画N元关系知识,能够在不使用大规模语言知识库和同义词表的情况下自动识别中文自然语言文档内容中显式和隐含的简单事实知识和N元关系复杂事实知识.实验结果表明该方法优于目前已知的其他方法.  相似文献   

6.
;社团划分算法是复杂网络研究中的一个热点问题,为发现复杂网络中的社团结构,更好的研究复杂网络的社团性质,本文利用网络中聚集系数提出了一种新的社团划分的算法,该算法综合运用复杂网络中点和边的信息,根据节点和边的聚集系数,计算出节点问的连接紧密程度,由局部到整体来划分出所有的社团结构。传统的复杂网络社团划分算法通过获得全局网络的信息,但随着网络规模的增加,获得全局网络的信息的难度也随之增加,本文提出的新算法避免这一难度所带来的问题。将该算法应用到Zachary空手道俱乐部网络和海豚社会网络,测试结果证明了该算法的可行性。  相似文献   

7.
一种基于结构化语料库的概念语义网络自动生成算法   总被引:4,自引:0,他引:4  
概念语义网络是为了解决信息检索中的词汇不匹配的问题而提出的,是提高检索效果的基本途径之一.以面向自然语言的网络答疑为应用背景,提出了一种基于半结构化语料库的概念语义网络自动生成算法.通过分析语料的组成特点,对不同的概念关系类型,采取不同的模板进行文档抽取,并设定不同的窗口单元计算概念间的相关度;然后经过阈值筛选和角色转换,获得各种类型的概念关系,在此基础上进行语义网络的优化调整.实验结果表明,本算法获得的概念语义网络可以有效地提高问题检索的效果.  相似文献   

8.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

9.
从单个文档中直接提取关键词不能满足关键词提取的精度要求,而现有基于邻居信息的关键词提取相关研究又耗时较长.因此,文中提出利用科学文献中共同作者关系以构建邻居网络,并联合使用这些邻居网络信息及文档本身内容提取关键词的方法.在此基础上,进一步提出利用领域知识中高频度共现词对以提取关键词,获得更高质量的关键词的方法.实验表明,文中方法性能较优.  相似文献   

10.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号