首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
张芳 《福建电脑》2009,25(6):95-95
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但它只考虑了网页的具体内容和超链接信息,忽略了网页的用户应用信息。在分析了几种PageRank算法基础上,提出了一种新的基于网页更新率和用户行为分析的PageRank算法。实验表明。所提出的算法能较好地改进搜索结果的精确度。  相似文献   

2.
为提升基于TextRank算法的关键词抽取效果,分析中文语义结构和分词算法的特点,提出一种融合语义依存和外部知识库的方法.使用语义依存图代替共现窗口构建词图,增强词图中各节点间的语义联系;在此基础上引入规范化谷歌距离和领域词典这两个外部知识库特征,结合文档内外部信息对词图中的边进行加权计算,对提取出的文档关键词应用前后...  相似文献   

3.
PageRank是一种基于网络超链接结构估计网页重要性的方法。最初的PageRank算法是使用幂法迭代,直到表示网络结构的马尔可夫矩阵收敛到一个最大的特征向量。文章在幂法的理论基础上,利用特征向量二维线性表达的假设,给出了一种新方法,使得修正后的幂法计算PageRank时,求特征向量的过程可以达到快速收敛。  相似文献   

4.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

5.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。  相似文献   

6.
原福永  张园园 《计算机工程与设计》2007,28(7):1630-1631,1662
搜索引擎的相关结果排序技术是信息检索技术发展中的关键问题,也是将来研究的热点问题之一.在分析传统的相关排序方法基础上,介绍了PageRank算法和HITS算法的核心技术,指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处,根据面向主题的思想,在重新计算链接对网页的影响的基础上,提出了一种新的关于链接技术的排序方法,并通过实验对该算法的性能进行分析评价.  相似文献   

7.
Tag-TextRank:一种基于Tag的网页关键词抽取方法   总被引:5,自引:0,他引:5  
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性.  相似文献   

8.
为了改善传统PageRank算法存在的不足,例如平分链接权重、主题漂移和忽略用户兴趣,提出一种基于分布式学习自动机和用户反馈的网页排序算法。利用页面内容的相似性、网页之间的超链接和用户遍历的路径,根据分布式学习自动机来确定网页间的超链接权重。考虑到用户反馈包含大量的价值信息,选择用户的转载、回复以及有效点击特征作为用户的行为特征,获得用户反馈因子。根据网页间的超链接权重和用户反馈因子计算每个网页的排名。仿真实验表明,与传统的PageRank算法和WPR算法相比,该算法在一定程度上提高了信息检索的精准度和用户满意度。  相似文献   

9.
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。   相似文献   

10.
传统的TextRank算法进行关键词提取时词语之间的连接边采用权值均分的形式进行加权,未考虑词语的语义信息。针对这种情况,提出结合拓扑势与TextRank算法的关键词提取方法。方法使用词频和词语在文中的分布情况对词语加权作为词语的全局影响;使用拓扑势的思想结合词语全局影响计算词语间的转移概率作为词语的局部影响;将转移概率矩阵应用于传统TextRank算法中。实验表明,考虑词语全局及局部重要性等语义信息可有效提升TextRank算法的准确率和召回率。  相似文献   

11.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。  相似文献   

12.
本文针对网络新闻报道,提出了一种基于文本内容分析的社会网络自动抽取方法。此方法在对输入文章进行分词标注、共指消解等预处理之后,通过名词合并及主动词识别,得到存在关系的命名实体之间的关系指向和关系描述,最后通过有向图把存在关系的命名实体进行连接,形成由命名实体、实体间关系指向、实体间关系描述构成的关系网络。试验结果表明该方法对新闻中的命名实体关系抽取比较有效。  相似文献   

13.
杨朝举  葛维益  王羽  徐建 《计算机应用研究》2021,38(4):1022-1026,1032
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量模型理论,以文本中的词为节点,通过词语之间的共现关系来构建文本图,接着利用k-truss图分解技术来获取文本语义特征,并结合词频、单词位置特征、复杂网络特征等构造无参评分函数,最终根据评分结果来提取关键词。通过在基准数据集上进行实验验证,结果表明KEK算法在提取短文本关键词上的F1值性能指标优于其他基于文本图的关键词提取方法。  相似文献   

14.
分词系统由于未将合成词收录进词典,因此不能识别合成词。针对该问题,提出一种基于词共现有向图的中文合成词提取算法。采用词性探测方法从文本中获取词串,由所获词串生成词共现有向图,并借鉴Bellman-Ford算法思想,从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径,该路径所对应的词串即为合成词。实验结果显示,该算法的合成词提取正确率达到91.16%。  相似文献   

15.
关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题。现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高。因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重。利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能。实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高。  相似文献   

16.
多语种翻译词汇的在线自动抽取   总被引:1,自引:0,他引:1  
越来越多网页以多种语言的形式在互联网上传播,从中抽取多语种翻译词汇具有重要的研究价值.针对网页的特点,提出了一种新的多语种翻译词汇的在线自动抽取方法.该方法通过对双语网页中超链接信息相似度的计算,获取多语种翻译词汇,相似性越高,对应的词条互为翻译对的可能性越大.通过对中英、德英、法英3类双语网页的抽取,结果证明它具有较高的准确率,是一种高效的与语言无关的多语种词汇对抽取方法.  相似文献   

17.
针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频-逆向文档频率(TF-IDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(F-score)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。  相似文献   

18.
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其它相关主题的分布,和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的结点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其它主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM即可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的结点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号