首页 | 本学科首页   官方微博 | 高级检索  
 共查询到19条相似文献,搜索用时 125 毫秒
黄名选 《电子学报》2021,49(7):1305-1313
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能.  相似文献   

在分布式检索中,基于主题的语言模型集合选择方法首先引入Relevance Model计算用户查询和信息集合中文档的相似度,在此基础上通过文本聚类得到集合中文档的主题信息,加入语言模型计算得到各个信息集合的查询相关度排名,以此完成集合选择.实验表明,与ODRI、CRCS和基于传统语言模型的集合选择算法相比,该方法的检索效果得到了显著提高.  相似文献   

为了提高查询精度,提出了一种个性化元搜索引擎模型.在该模型中,引入了一种基于用户兴趣模型的加权位置/摘要的查询结果排序算法,该算法综合考虑了查询结果的摘要与查询的全局相关度、查询结果在各个成员搜索引擎返回结果中的排列位置信息、各个成员搜索引擎对查询意图主题类别的相关度三方面的信息.实验表明该排序算法能较好地把与用户查询意图相关的结果排在查询结果的最前面,提高了查准率.  相似文献   

基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

基于概率主题模型的文档聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
王李冬  魏宝刚  袁杰 《电子学报》2012,40(11):2346-2350
 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.  相似文献   

有监督主题模型的SLDA-TC文本分类新方法   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能.  相似文献   

基于图的半监督学习近年来得到了广泛的研究,然而,现有的半监督学习算法大都只能应用于同构网络。根据查询及文档自身的内容特征和点击关系构建查询—文档异构信息网络,并引入样本的判别信息强化网络结构。提出了查询—文档异构信息网络上半监督聚类的正则化框架和迭代算法,在正则化框架中,基于流形假设构造了异构信息网络上的代价函数,并得到该函数的封闭解,以此预测未标记查询和文档的类别标记。在大规模商业搜索引擎查询日志上的实验表明本方法优于传统的半监督学习方法。  相似文献   

文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。  相似文献   

基于部分匹配的XML文本文档向量检索模型   总被引:3,自引:2,他引:1       下载免费PDF全文
吴劲  陈泽琳 《电子学报》2002,30(Z1):2169-2171
本文提出了部分匹配模式的XML文本文档向量检索模型,给出了XML文本文档树以及子文档树的向量表示和查询以及子查询的向量表示,并由此提出了查询中的祖先-后代关系映射到文档中的祖先-后代关系的部分匹配模式的检索方式,给出了基于此匹配处理过程的相似度计算,以判断文档与查询的相关程度.在构造的检索原型系统中的实验表明,该检索模型具有较好的查全率和查准率.  相似文献   

文中提出了基于给定的查询词以新闻文档和具有额外情感极性评论信息为排名特征的新闻事件排名算法框架。首先,通过语义相似度交互模块将查询关键词、新闻文档和带有情感色彩的新闻评论转换为语义向量表示,并计算查询词和新闻文档相似度以及查询词和评论语句相似度。然后,基于特征提取查询关键词重要性特征、查询关键词频率特征和新闻事件相关性特征。最后,通过特征聚合模块将提取的特征与一些辅助相关特征合并,产生全局相关性分数,并基于所得出的全局相关性分数对新闻事件进行排名聚类。大型新闻数据集上的实验证明了该算法框架与常见排名算法相比具有明显的性能优势。  相似文献   

For the complex questions of Chinese question answering system, we propose an answer extraction method with discourse structure feature combination. This method uses the relevance of questions and answers to learn to rank the answers. Firstly, the method analyses questions to generate the query string, and then submits the query string to search engines to retrieve relevant documents. Secondly, the method makes retrieved documents segmentation and identifies the most relevant candidate answers, in addition, it uses the rhetorical relations of rhetorical structure theory to analyze the relationship to determine the inherent relationship between paragraphs or sentences and generate the answer candidate paragraphs or sentences. Thirdly, we construct the answer ranking model, and extract five feature groups and adopt Ranking Support Vector Machine (SVM) algorithm to train ranking model. Finally, it reranks the answers with the training model and find the optimal answers. Experiments show that the proposed method combined with discourse structure features can effectively improve the answer extracting accuracy and the quality of non-factoid answers. The Mean Reciprocal Rank (MRR) of the answer extraction reaches 69.53%.  相似文献   

A document retrieval system mainly consists of three components: document representation, user queries, and document evaluation. Each component may involve some uncertainties. Fuzzy set theory is a natural approach to coping with the representation of documents, queries, and the relevance of documents to a given query. The authors propose a fuzzy document retrieval model on the World Wide Web (WWW) environment to support conceptual queries. A flexible query expression is proposed to support different semantics of the queries. A concept network is adopted as the knowledge base to represent the relevance of the concepts. The concept network is explored from the WWW. Moreover, they also support neighborhood queries, which retrieve documents relevant to a document specified by a user. A system is currently being implemented to achieve these functions  相似文献   

史玉珍  单冬红 《电信科学》2016,32(5):96-104
针对用户和查询之间的意图差距导致的查询模糊宽泛和数据稀疏问题,根据流行性和多样性返回可能子主题的排名列表,利用子主题选择与排序的分层结构进行Web 文本挖掘。首先,在名词性短语和可替代部分查询的基础上,使用简单模式提取各种相关的短语作为候选子主题;然后,使用网页文档集合中的相关文档构建候选子主题的三级层次结构;最后,综合考虑流行性和多样性,利用该结构和估计的流行度进行排序。实验使用了NTCIR-9库的100个日文查询和来自TREC 2009库的100个英文查询以及网络跟踪多样性任务,实验结果验证了本文方法可有效应用于各种搜索,对于高排名的子主题挖掘优于外部资源。  相似文献   

王大刚  钟锦  吴昊 《电子学报》2020,48(3):582-589
为解决现有算法对社交网络节点影响力计算准确度不高的问题,本文整合节点不同维度信息,综合考虑节点在多个主题社区上的主题分布向量,提出一种新的节点影响力计算模型.模型首先将主题相关性作为先验信息;然后利用混合隶属度随机块(Mixed Membership Stochastic Block)模型表达节点间的交互关系,用主题模型学习主题内容;最后结合全局拓扑关系迭代计算节点的全局影响力.本文选取社交网络数据,以P@N、MAP等作为评价指标同现有主流算法进行比较.实验结果显示,本文算法有效提升了影响力节点识别的准确度和排名的有效性.  相似文献   

何婷婷  李芳 《中国通信》2012,9(3):38-48
This paper focuses on semantic knowledge acquisition from blogs with the proposed tag-topic model. The model extends the Latent Dirichlet Allocation (LDA) model by adding a tag layer between the document and the topic. Each document is represented by a mixture of tags; each tag is associated with a multinomial distribution over topics and each topic is associated with a multinomial distribution over words. After parameter estimation, the tags are used to describe the underlying topics. Thus the latent semantic knowledge within the topics could be represented explicitly. The tags are treated as concepts, and the top-N words from the top topics are selected as related words of the concepts. Then PMI-IR is employed to compute the relatedness between each tag-word pair and noisy words with low correlation removed to improve the quality of the semantic knowledge. Experiment results show that the proposed method can effectively capture semantic knowledge, especially the polyseme and synonym.  相似文献   

The data is noisy and diverse,with a large number of meaningless topics in social network.The traditional method of bursty topic discovery cannot solve the sparseness problem in social network,and require complicated post-processing.In order to tackle this problem,a bursty topic discovery method based on recurrent neural network and topic model was proposed.Firstly,the weight prior based on RNN and IDF were constructed to learn the relationship between words.At the same time,the word pairs were constructed to solve the sparseness problem.Secondly,the “spike and slab” prior was introduced to decouple the sparsity and smoothness of the bursty topic distribution.Finally,the burstiness of words were leveraged to model the bursty topic and the common topic,and automatically discover the bursty topics.To evaluate the effectiveness of proposed method,the various experiments were conducted.Both qualitative and quantitative evaluations demonstrate that the proposed RTM-SBTD method outperforms favorably against several state-of-the-art methods.  相似文献   

This paper presents a generalized Bayesian framework for relevance feedback in content-based image retrieval. The proposed feedback technique is based on the Bayesian learning method and incorporates a time-varying user model into the formulation. We define the user model with two terms: a target query and a user conception. The target query is aimed to learn the common features from relevant images so as to specify the user's ideal query. The user conception is aimed to learn a parameter set to determine the time-varying matching criterion. Therefore, at each feedback step, the learning process updates not only the target distribution, but also the target query and the matching criterion. In addition, another objective of this paper is to conduct the relevance feedback on images represented in region level. We formulate the matching criterion using a weighting scheme and proposed a region clustering technique to determine the region correspondence between relevant images. With the proposed region clustering technique, we derive a representation in region level to characterize the target query. Experiments demonstrate that the proposed method combined with time-varying user model indeed achieves satisfactory results and our proposed region-based techniques further improve the retrieval accuracy.  相似文献   

胡正平  武丽丽  李朝辉 《信号处理》2014,30(12):1464-1472
为自动分析交通场景的拥挤度与速度属性,提出基于有监督序学习的交通场景拥挤度排序计算模型,利用监督学习思路分别学习交通拥挤度和平均速度两个属性的排序函数。在交通拥挤度排序模型中,首先提取每帧训练图像的Gist特征,而对于平均速度的排序模型,首先提取视频运动信息,然后再分别提取Gist特征,最后引入改进的Ranking SVM投影模型,学习得到拥挤度和速度的排序模型。在三组交通视频数据集的实验结果表明提出的排序模型准确度、稳定性更高。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号