首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

2.
黄名选 《电子学报》2021,49(7):1305-1313
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能.  相似文献   

3.
周秀梅  黄名选 《电子学报》2015,43(8):1545-1554
本文提出一种基于项权值变化的完全加权正负关联规则挖掘算法,解决了基于项权值变化的负模式挖掘问题.该算法考虑项权值依赖于事务记录的特点,采用新的项集剪枝方法和模式评价框架,通过项集的项内权值比和维数比的简单计算和比较,挖掘有效的完全加权正负关联规则.实验结果表明,与现有无加权正负关联规则挖掘算法比较,本文算法能避免无效的模式出现,其挖掘时间和候选项集数量明显减少,减幅最大分别可达94.09%和88.16%.  相似文献   

4.
提出一种新的基于PR(Probability Ratio,简称PR)模型的教育信息化数据矩阵加权正负关联模式挖掘算法.算法从教育信息化数据中挖掘矩阵加权频繁项集和负项集,采用PR模型作为正负关联模式评价标准,对频繁项集和负项集挖掘教育数据矩阵加权正负关联模式,发现有趣的教育信息矩阵加权正负关联模式.通过模式分析,发现教育领域信息化数据中潜在的、有用的教育信息、教学规律和教育发展趋势.以真实的教育信息化数据作为实验数据,实验结果表明,该算法更有效、合理.  相似文献   

5.
查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取多词候选单元,并与常见的基于统计的多词单元抽取方法进行了比较.实验中译文挖掘方法取得了TOP 1包含率62.02%,TOP 10包含率95.35%的效果.  相似文献   

6.
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。  相似文献   

7.
基于统计机器翻译模型的查询扩展   总被引:1,自引:0,他引:1  
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。  相似文献   

8.
为了解决传统查询扩展时查准率低下的问题,基于词义消歧技术提出一种综合扩展语义树和词频共现率的语义查询扩展方法.针对查询词歧义所带来的查询主题漂移现象,利用WordNet知识源及其领域信息进行查询词义消歧,进而根据WordNet的层次结构生成扩展语义树,产生候选扩展词,并根据待扩展词与用户查询的整体最大相关性原则最终确定扩展词及其权重,使得扩展词能够充分表达用户查询请求,提高查询匹配准确率.实验表明,该方法在保证查全率的同时获得了较高的查准率.  相似文献   

9.
刘波  潘久辉 《电子学报》2007,35(8):1612-1616
关联规则挖掘是数据挖掘领域中重要的研究分支,频繁项集或频繁谓词集的计算是其中的关键问题.本文针对包括多值属性的关系数据库,以多维关联规则挖掘为目标,研究频繁谓词集的计算方法,提出了MPG算法及IMPG增量算法.MPG算法通过构建频繁模式图MP-graph,按照深度优先搜索方法,动态挖掘频繁谓词集,只需扫描数据库一次.此外,该方法至多增加一次数据库扫描,就能扩展为IMPG算法,进行增量关联规则挖掘.文章分析了算法时间和空间性能,用实验说明了算法的有效性.  相似文献   

10.
CR:一种逆向的关联规则挖掘算法   总被引:4,自引:0,他引:4  
引入与交易相关的有关概念,对传统关联规则挖掘的概念进行了扩展,并基于交易提出了一种关联规则挖掘算法,该算法从较长的交易入手,试图找出长的频繁项集,再确定它们的子项集,从而避免了组合爆炸问题。该算法对原数据库进行1次扫描,对压缩数据库进行了2次扫描,较Apriori算法减少了扫描次数,提高了挖掘效率。  相似文献   

11.
In this paper, we address some issues related to the combination of positive and negative examples to improve the efficiency of image retrieval. We start by analyzing the relevance of the negative example and how it can be interpreted and utilized to mitigate certain problems in image retrieval, such as noise, miss, the page zero problem and feature selection. Then we propose a new relevance feedback approach that uses the positive example (PE) to perform generalization and the negative example (NE) to perform specialization. In this approach, a query containing both PE and NE is processed in two steps. The first step considers the PE alone, in order to reduce the set of images participating in retrieval to a more homogeneous subset. Then, the second step considers both PE and NE and acts on the images retained in the first step. Mathematically, relevance feedback is formulated as an optimization of the intra and inter variances of the PE and NE. The proposed relevance feedback algorithm was implemented in our image retrieval system, which we tested on a collection of more than 10,000 images. The experimental results show how the NE as considered in our model can contribute in improving the relevance of the images retrieved.  相似文献   

12.
针对物理世界的信息查找在过去几年间也受到广泛关注,但是迄今还缺乏深入的研究.目前针对Web信息空间的搜索算法不适合普适空间内的信息查询,原因有二:面向物理实体查询的支撑技术,如嵌入式设备和无线通信,与传统Web信息搜索不同:物理实体相关的信息与Web网页不同,表现在元数据、信息动态性等方面.同时,由于用户查询用词与文档...  相似文献   

13.
Similarity-based online feature selection in content-based image retrieval.   总被引:2,自引:0,他引:2  
Content-based image retrieval (CBIR) has been more and more important in the last decade, and the gap between high-level semantic concepts and low-level visual features hinders further performance improvement. The problem of online feature selection is critical to really bridge this gap. In this paper, we investigate online feature selection in the relevance feedback learning process to improve the retrieval performance of the region-based image retrieval system. Our contributions are mainly in three areas. 1) A novel feature selection criterion is proposed, which is based on the psychological similarity between the positive and negative training sets. 2) An effective online feature selection algorithm is implemented in a boosting manner to select the most representative features for the current query concept and combine classifiers constructed over the selected features to retrieve images. 3) To apply the proposed feature selection method in region-based image retrieval systems, we propose a novel region-based representation to describe images in a uniform feature space with real-valued fuzzy features. Our system is suitable for online relevance feedback learning in CBIR by meeting the three requirements: learning with small size training set, the intrinsic asymmetry property of training samples, and the fast response requirement. Extensive experiments, including comparisons with many state-of-the-arts, show the effectiveness of our algorithm in improving the retrieval performance and saving the processing time.  相似文献   

14.
为自动调节当前检索任务以使最终查询结果朝着有利于用户要求的方向发展,提出一种基于组合特征双重加权的相关反馈算法。将图像检索中初始权重的设定过程作为优化问题,利用量子遗传算法求取全局最优解,作为图像检索过程中各特征初始权重的加权值;另外,在组合特征权重动态调节的过程中,将灰色关联分析理论中的灰关联度作为特征权重的估计值,同时将反馈结果中每幅图像的评价都考虑到灰色关联分析的计算中,从而来估计不同特征在检索中的相对重要性。实验结果表明,本文算法能够达到精炼检索结果的目的,大幅提高检索全面性和检索准确度。  相似文献   

15.
贺宁 《山西电子技术》2008,(1):71-72,87
提出了一种基于蚁群算法在数据库查询应用中的新方法及其仿真,蚁群算法就是对自然界中蚂蚁的寻食过程进行模拟而得出的一种模拟进化算法。与传统的算法相比,该算法的主要特点是正反馈和并行性,正反馈使得该算法能很快发现较好查询路径,并行性使得该算法易于实现并行查询计算,从而提高了查询的速度。最后,利用Excel对蚁群查询算法和传统查询算法进行了仿真并进行了比较。  相似文献   

16.
一种自适应提取最优特征维的相关反馈算法   总被引:6,自引:1,他引:5  
本文提出一种新的相关反馈算法,该算法依据用户的反馈信息自适应选取用户最感兴趣的特征维用于图像检索,并结合正负反馈图像集的预处理,图像检索精确度得到较大提高。算法在500幅和4500幅两个图像库中做了实验,通过与RuiY特征内相关反馈算法的比较,验证了算法的高效性。  相似文献   

17.
Research has been devoted in the past few years to relevance feedback as an effective solution to improve performance of content-based image retrieval (CBIR). In this paper, we propose a new feedback approach with progressive learning capability combined with a novel method for the feature subspace extraction. The proposed approach is based on a Bayesian classifier and treats positive and negative feedback examples with different strategies. Positive examples are used to estimate a Gaussian distribution that represents the desired images for a given query; while the negative examples are used to modify the ranking of the retrieved candidates. In addition, feature subspace is extracted and updated during the feedback process using a principal component analysis (PCA) technique and based on user's feedback. That is, in addition to reducing the dimensionality of feature spaces, a proper subspace for each type of features is obtained in the feedback process to further improve the retrieval accuracy. Experiments demonstrate that the proposed method increases the retrieval speed, reduces the required memory and improves the retrieval accuracy significantly.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号