首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
李霞  李战怀  张利军  陈群  李宁 《计算机科学》2011,38(10):152-156
基于关键字的XMI、检索技术是近几年信息检索领域的研究热点。但是由于关键字缺少XMI、结构语义信 息,检索结果和用户需求偏差较大,检索质量难以提高;而XML结构检索由于用户难以提出准确描述查询意图的查 询表达式而难以普及。另一个更突出的问题是现有的XML检索研究绝大多数都集中在单文档上,缺乏实用性。因 此提出一种基于关键字的结构检索方法,即用分布式方式实现对多XMI文档的检索,简称为MXDR (Multi-XMI_ Distributed RetrievaD。MXDR首先用一种兼顾结构和内容的聚类方法对多文档进行分类,通过分析查询关键字和类 别结构信息,确定分布查找策略,再结合查询关键字和XMI的结构信息,构建结构查询语句,最后通过结构查询系统 实现关键字检索。在多组真实数据Sigmod数据集上的验证结果表明,与经典的S工CA方法比较,MXDR方法具有较 高的查全率和查准率,尤其在检索效率上MXDR方法有显著优势。  相似文献   

2.
随着生活节奏的加快,用户习惯将简短的查询提交给搜索引擎,并希望搜索引擎能体贴地将自己需要的结果返回在靠前的结果中。面对大量有歧义的或者意义广泛的查询,搜索引擎努力地识别用户意图,并试图用有限的结果取悦更多的用户。为了解决这个问题,搜索结果多样化技术应运而生,其任务是是对搜索结果进行重排序,在有限的搜索结果中满足尽可能多的用户意图。该文重点关注多样化算法中子话题的粒度问题。利用传统方法生成了不同粒度的子话题,并比较了使用不同粒度的子话题对搜索结果多样化算法的影响。实验结果表明,经典多样化算法使用细粒度的子话题时表现更好。  相似文献   

3.
针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出"不同页面点击数"、"点击分布值"和"异源页面点击数"三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。结果表明,该方法对识别用户查询意图是有效的。  相似文献   

4.
为克服查询点移动算法中各加权常数的不确定性,以及权重查询点移动方法中正反馈样本构成的衰减向量非最优化问题,提出了一种新的正相关反馈算法.在确定最优查询向量时,以记忆的前次最优查询向量作为以往正反馈的衰减向量,利用当次用户所选反馈样本动态地确定衰减因子,最后将衰减向量与本次用户所选反馈样本结合不断更新最优查询向量,为后续反馈积累了更多用户检索意图信息.对比实验结果表明,该算法能加快最优查询向量调整速度,改善检索性能.  相似文献   

5.
基于关键字的XML检索技术是近几年信息检索领域的研究热点.但是由于关键字缺少XML结构语义信息,检索结果和用户需求偏差较大,检索质量难以提高;而XML结构检索由于用户难以提出准确描述查询意图的查询表达式而难以普及.另一个更突出的问题是现有的XML检索研究绝大多数都集中在单文档上,缺乏实用性.因此提出一种基于关键字的结构检索方法,即用分布式方式实现对多XML文档的检索,简称为MXDR(Multi-XML Distributed Retrieval).MXDR首先用一种兼顾结构和内容的聚类方法对多文档进行分类,通过分析查询关键字和类别结构信息,确定分布查找策略,再结合查询关键字和XML的结构信息,构建结构查询语句,最后通过结构查询系统实现关键字检索.在多组真实数据Sigmod数据集上的验证结果表明,与经典的SLCA方法比较,MXDR方法具有较高的查全率和查准率,尤其在检索效率上MXDR方法有显著优势.  相似文献   

6.
近几年来,为了解决图像检索系统中由底层视觉特征和高层语义之间的差异所造成的检索困难,从信息捡索中引入了相关反馈技术。在过去几年中,它在该研究领域取得了一定的成功。文章提出了一种利用反馈信息建立“查询子空间”的检索模型,它将用户的语义查询进行基于视觉特征的分类,构造多个“查询子空间”,这些子空间拥有自身的查询模型和检索模型,最后的检索结果根据这多个“查询子空间”的检索结果得到。该模型具有较强的灵活性、扩展性,有效地利用了用户的反馈信息,动态地建立了底层视觉特征和高层语义之间的映射,能适应不同用户的查询。同时,将负反馈信息合理地融入到该模型中,提高了系统的检索效率。实验结果表明采用该检索模型的系统相比现有的检索系统性能有了较大提高。  相似文献   

7.
《软件工程师》2019,(2):5-10
对支持检索结果多样化任务的查询性能预测进行了研究。分析了现有性能预测算法的不足,考虑利用不同方式衡量最终检索结果列表的多样性,并在此基础上提出同时考察查询结果的相关性性能与多样性性能的三种方法。采用TREC Clue Web09B数据集、Web Track任务的查询集及开源的Indri搜索引擎构建实验平台并进行实验。基于Spearman、Pearson和Kendall相关系数的评价结果表明,所提出的三种方法与传统方法相比更适用于预测多样化检索结果,且在不同条件下性能稳定。  相似文献   

8.
彭朝晖  张俊  王珊 《软件学报》2008,19(2):323-337
提出一种基于数据库模式的数据库关键词检索结果展现方法S-CBR(schema-based classification,browsing and retrieving),包括结果分类、用户浏览和再次检索3个过程.S-CBR首先利用数据库模式和查询关键词自动产生第一级类别,将检索结果分配到各个类中;对于比较大的类,按关键词节点内容进行第二级分类;另外赋给每个类别一个类别描述,并将类别描述和每个结果图形化地展现出来,使用户容易阅读和理解检索结果.用户还可以根据S-CBR提供的结果类别模式信息对感兴趣的类别作进一步检索,以尽快找到所需结果或获取更多的相关结果.实验证明了S-CBR方法的有效性.  相似文献   

9.
基于改进TextTiling方法的用户新兴趣发现的研究   总被引:1,自引:0,他引:1  
个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果.提出了用户新兴趣发现子任务,根据用户检索对象的变化识别包含新检索兴趣的查询.同时,引入TextTiling方法并对其进行改进,使系统可以自动选择合适的动态阈值并准确发现用户检索兴趣的转移.在构建的标准评测集上的实验结果表明,改进的TextTiling方法使得用户新兴趣发现系统性能提高了16.4%,而且此子任务使得最终的个性化检索系统的性能提高了3.8%.  相似文献   

10.
智能检索系统的间接查询   总被引:1,自引:1,他引:0  
本文论述了有关智能数据库中的信息检索方面的间接查询问题。提出了推测用户意图、确定用户信息需求、以及能够自动地将间接查询转化为直接查询的方法。通过对智能检索系统的知识库表示、用户行为知识分析、用户行为意图推测等方面的研究,给出一个基于知识的智能检索系统的理论框架,以产生智能应答  相似文献   

11.
面向查询的多文档摘要技术有两个难点 第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。  相似文献   

12.
Topic‐focused multidocument summarization has been a challenging task because the created summary is required to be biased to the given topic or query. Existing methods consider the given topic as a single coarse unit, and then directly incorporate the relevance between each sentence and the single topic into the sentence evaluation process. However, the given topic is usually not well defined and it consists of a few explicit or implicit subtopics. In this study, the related subtopics are discovered from the topic's narrative text or document set through topic analysis techniques. Then, the sentence relationships against each subtopic are considered as an individual modality and the multimodality manifold‐ranking method is proposed to evaluate and rank sentences by fusing the multiple modalities. Experimental results on the DUC benchmark data sets show the promising results of our proposed methods.  相似文献   

13.
Inferring query intent is significant in information retrieval tasks. Query subtopic mining aims to find possible subtopics for a given query to represent potential intents. Subtopic mining is challenging due to the nature of short queries. Learning distributed representations or sequences of words has been developed recently and quickly, making great impacts on many fields. It is still not clear whether distributed representations are effective in alleviating the challenges of query subtopic mining. In this paper, we exploit and compare the main semantic composition of distributed representations for query subtopic mining. Specifically, we focus on two types of distributed representations: paragraph vector which represents word sequences with an arbitrary length directly, and word vector composition. We thoroughly investigate the impacts of semantic composition strategies and the types of data for learning distributed representations. Experiments were conducted on a public dataset offered by the National Institute of Informatics Testbeds and Community for Information Access Research. The empirical results show that distributed semantic representations can achieve outstanding performance for query subtopic mining, compared with traditional semantic representations. More insights are reported as well.  相似文献   

14.
Numerous frameworks have been proposed in recent years for deductive databases with uncertainty. On the basis of how uncertainty is associated with the facts and rules in a program, we classify these frameworks into implication-based (IB) and annotation-based (AB) frameworks. We take the IB approach and propose a generic framework, called the parametric framework, as a unifying umbrella for IB frameworks. We develop the declarative, fixpoint, and proof-theoretic semantics of programs in our framework and show their equivalence. Using the framework as a basis, we then study the query optimization problem of containment of conjunctive queries in this framework and establish necessary and sufficient conditions for containment for several classes of parametric conjunctive queries. Our results yield tools for use in the query optimization for large classes of query programs in IB deductive databases with uncertainty  相似文献   

15.
时序摘要是按照时间顺序生成摘要, 对话题的演化发展进行概括. 已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息. 针对该问题, 本文建立了一种新的主题模型, 即词语对狄利克雷过程, 并提出了一种基于该模型的时序摘要生成方法. 首先通过模型推理得到句子的子话题分布; 然后利用该分布计算句子的相关度和新颖度; 最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要. 实验结果表明, 本文方法较目前的代表性研究方法生成了更高质量的时序摘要.  相似文献   

16.
受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。  相似文献   

17.
子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显著提高。  相似文献   

18.
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。  相似文献   

19.
刘登洪  徐贤 《计算机科学》2017,44(10):234-236, 258
随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。  相似文献   

20.
汪晴  庄卫华 《计算机工程》2010,36(21):78-80
基于TF-IQF模型的建议方法不考虑用户查询行为的上下文,在满足用户个性化需求方面存在缺陷。针对这一情况,在该方法的基础上进行优化改进,根据不同用户的查询上下文来分析用户的查询偏好,重新排序系统推荐的查询。实验结果表明,改进方法能够给出个性化的查询建议,提高用户查询的满意度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号