首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 112 毫秒
1.
网页广告与当前页面内容不匹配使得广告的投放效果降低。本文使用基于站点的贝叶斯模型扩展和基于维基百科的语义扩展两种方法,精确提取网页的标签信息,用更加精确的标签去匹配网络广告,增强了广告效果。本文实现了一个基于语义扩展的网页标签推荐系统,实验证实效果良好。  相似文献   

2.
在计算广告学中,为用户查询返回相关的广告一直是研究的热点。然而用户的查询一般比较简短,广告的表示也局限在简短的创意和一些竞价词上,返回符合用户查询意图的广告十分困难。为了解决这个问题,该文提出利用多特征融合的方法进行广告查询扩展,先将查询输入到搜索引擎中,获得Top-k网页查询结果,将它们作为获取扩展词的外部资源,由于采用一般的特征选取方法获取扩展词采用的特征比较单一,缺乏语义信息,容易产生主题漂移现象,该文通过计算扩展词和查询词在网页查询结果中的共现度,并融合传统的TF特征和词性信息,获得与原始查询语义相关的扩展词。在真实的广告语料上的实验结果显示,基于多特征融合的选择广告扩展词的方法能有效地提高返回广告的相关性。  相似文献   

3.
在领域主题爬虫中,为提高网页爬取的效率和准确性,将扩展主题特征库(extended topic feature library,ETFL)引入进爬虫的网页过滤算法中。将网页抽象为标签块节点集,通过主题特征库扩展算法对静态特征项进行扩充生成扩展主题特征库,利用网页主题特征项提取算法从页面中抽取出特征项,在爬虫抓取网页的过程中,通过基于扩展主题特征库的网页相关性判断方法对页面进行过滤。该算法弥补了传统的基于静态关键词项的网页过滤算法对页面语义层次处理的缺失。实际项目运行结果表明,在领域主题爬虫中引入扩展主题库能够有效提高网页抓取精度,具有较高可用性。  相似文献   

4.
基于Web内容和日志挖掘的个性化网页推荐系统   总被引:1,自引:0,他引:1  
目前的网页推荐服务大都是基于对查询关键词的匹配来实现的,缺乏自动提取用户兴趣并进行推荐的能力。本文设计和实现了一个基于Web内容和日志挖掘的个性化网页推荐系统Webpage-recom- mender,该系统采用特征提取技术,能自动识别用户的兴趣,并主动推荐和筛选与用户兴趣主题相关的网页。实验结果证明了该系统的有效性。  相似文献   

5.
提出一种基于局部统计和语义扩展相结合,面向主题的关键词查询扩展方法。该方法通过对给定主题的初始关键词搜索反馈网页进行分析,采用TF*PSF语义加权方法计算主题候选词的权重来进一步筛选主题关键词。在此基础上,设计了面向Web的主题关键词迭代查询扩展算法,采用主题关键词的组合查询策略,迭代扩展出主题的关键词集合。实验证明该方法是有效的。  相似文献   

6.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。  相似文献   

7.
刘金红  陆余良 《计算机应用》2006,26(12):3012-3014
提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。  相似文献   

8.
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。  相似文献   

9.
针对信息检索中文档与查询之间的词不匹配问题,提出了一种基于共现分析和概念语义的查询扩展方法.该方法结合概念语义空间和局部共现分析来实现扩展,并改进了扩展词筛选函数.实验结果表明,该方法对于传统的查询扩展技术的信息查询效果有了很大提高,具有较好的查询性能.  相似文献   

10.
针对文本检索中所使用的查询词可能与文本词语不匹配而影响检索效果这一问题,提出了一种基于上下文的查询词扩展的方法,该方法根据查询词出现的上下文信息进行扩展词选择,同时考虑到查询扩展词与整个查询语句以及查询词的位置关系。实验结果表明,该方法大大提高了平均查准率。  相似文献   

11.
提出了一种基于语义关联的中文网页主题词提取方法,首先借助滑动窗口和“知网”计算词语间的语义相似度,形成候选名词对集合;然后基于该集合生成无向图表示词语间的语义联系,并通过该无向图对主题词权重进行建模;最后选取权值较高的名词作为主题词。实验结果表明,相比未建立语义关联的主题词提取方法,本方法在查准率、召回率和F1测度值上均有一定的提高,当提取主题词个数为7时,本方法召回率和F1测度值达到最大值,且分别较传统方法最大值提高了12.5%和9.53%。  相似文献   

12.
郭玉栋  左金平 《计算机仿真》2020,(2):394-397,425
为了改善当前数据库引文索引匹配误差检测过程中受语境和歧义词影响,存在检测准确率不高、检测召回率较低、检测耗时较长的缺点,提出了基于APMI的大数据下数据库引文索引匹配误差检测方法。方法采用基于相对词频语境计算模型对数据库引文索引词语做分词消岐处理;采用TF-IDF方法提取数据库引用文献和被引用文献的特征词,并计算每个提取的特征词在语料库中的上下文概率分布,通过对比两个特征词在数据库中的上下文概率分布情况,将消岐后特征词之间的相对熵作为两篇参考文献中特征词之间的语义相似度;并以两篇参考文献中特征词之间的语义相似度平均值作为特征词和参考文献之间的匹配度;结合TF-IF方法计算大数据下数据库参考文献之间的匹配度,完成引文索引匹配误差检测。仿真测试结果显示,所提方法克服了当前方法受语境和歧义词影响的问题,具有较高的检测准确率、检测召回率,极大地缩短了检测耗时。  相似文献   

13.
讨论一种消除中文匹配过程中所产生的交集型歧义的方法。该方法通过词典切分方法对中文文本进行切分,找出文本中的词语,作为理解中文的前提。对于匹配结果中出现的交集型歧义,通过计算匹配词语与其交集词语各自字符之间的互信息值来消除,互信息值较大的词说明该字符组合的可能性比较大。最后给出一个实际的消除歧义的例子,说明该方法的实用性。  相似文献   

14.
微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.  相似文献   

15.
基于中文变形词匹配的贝叶斯邮件过滤模型   总被引:1,自引:1,他引:0  
汪霞  郑宁  徐明  陈默 《计算机应用与软件》2010,27(1):105-107,130
针对特征词变异的中文垃圾邮件问题,提出了一种基于变形特征词匹配还原的新贝叶斯邮件过滤算法。改进的模型能自动发现邮件中的变异特征词,并根据对应的变异类型还原算法将其还原,避免了变异特征词的匹配逃脱。算法提高了对于含有拼音替换、同音字替换、符号插入等变形特征词样本的分类准确率。实验表明,改进的过滤算法比普通贝叶斯算法有更好的性能。  相似文献   

16.
17.
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配.对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法.实验证明该算法具有高效性.  相似文献   

18.
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。  相似文献   

19.
提出了一种基于《知网》的汉语未登录词语义相似度计算方法。该方法首先参照意合网络理论构造了语义关系匹配函数;接着在用概念图表示未登录词语义信息的基础上,根据节点在语义表示中的作用不同对其分类;然后应用匹配函数对弧、节点对及节点对集进行分类;最后设计了未登录词的整体相似度、不同类型节点对及节点对集相似度的计算方法。该方法能够合理分类未登录词的语义信息并能将其充分利用到计算过程中,实验结果证明此方法是有效的。  相似文献   

20.
本文介绍和分析了主观题自动评分的国内外研究现状,在基于模糊数学中贴近度理论和单向贴近度字符串匹配方法的基础上,结合动态规划算法思想,设计并实现了基于语义脉络的自动评分算法。该算法以句子作为基本语义单元,将标准答案分解为代表得分点的词串,并为这些词串加入同义词链去匹配学生答案语句,使语义表达更加完善和准确;同时利用动态规划算法使匹配按照词的顺序进行,避免仅仅按照字的出现次数匹配所造成的机械式匹配错误;最后根据文本中句子与关键词的匹配程度给出得分。在给出基本算法的主要思想以及程序流程图的基础上,结合实例分析证明了该算法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号