首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 91 毫秒
1.
黄名选  蒋曹清 《电子学报》2018,46(12):3029-3036
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.  相似文献   

2.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

3.
针对当前信息检索系统中存在查全率低和查准率低的问题,提出了一种基于分类和语义查询扩展的信息检索方法.该方法结合语义来实现用户检索的查询扩展,并使用文本分类技术辅助检索.实验结果表明,该方法相对传统方法可以提高查全率和查准率,具有较好的查询性能.  相似文献   

4.
一种基于概念的信息检索查询扩展   总被引:8,自引:2,他引:6  
文章针对信息检索中存在的查询词“表达差异”问题,提出一种基于概念的查询扩展方法。一方面将用户查询中使用的词或短语与文档中抽出的概念相连接加入原查询.同时将作为扩展词的概念进行分类查询并采用整合排序算法调整结果;另一方面引入概念图供用户手动调节来进行查询扩展,以达到查询优化的目的。试验结果表明。该方法适宜改进Web上的信息检索,相对没有扩展的查询可以大幅度提高查询精度。  相似文献   

5.
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。  相似文献   

6.
基于统计机器翻译模型的查询扩展   总被引:1,自引:0,他引:1  
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。  相似文献   

7.
词向量的准确性在较大程度上影响了这些自然语言处理任务的运行。词向量通过词嵌入产生,在词嵌入的方法中,都将目标单词及其上下文作为训练的输入,因此上下文的选定对词嵌入有着重要的影响。文中通过使用word2vec词嵌入方法,研究各种变体上下文窗口对词嵌入准确度的影响。根据上下文窗口的各种宽度、偏移量、权值进行了一系列实验。从实验结果中发现,上下文窗口的变化只会对整体训练结果的准确性造成很小的影响,然而对于其中具体的各个单词却有显著影响。从而得出结论,即大量单词各自所适应的上下文窗口区别较大,而统一的上下文窗口难以实现对全部单词的最佳训练。  相似文献   

8.
基于概念格的查询扩展词推荐   总被引:1,自引:0,他引:1  
概念格是一种擅长描述层次关系的数学工具,在规则提取和数据分析中有广泛的应用.引入概念格理论对页面——概念形式背景建立了数学模型,在概念格基础上提出了一种查询扩展词生成算法.利用概念格Hasse图以及关联规则置信度以较高的效率生成扩展词作为二次搜索关键词,使信息搜索达到更好的效果.该算法在Diggol智能元搜索引擎上予以实现,取得了良好的效果.  相似文献   

9.
本文提出了根据用户提交的检索主题对查询关键词进行扩展,从而增强查询结果与用户信息需求的相关性的一种处理方法。  相似文献   

10.
田萱  张骁  孟祥光  陈志泊 《电子学报》2015,43(6):1160-1168
搜索引擎的查询词补全技术给搜索用户提供了较好的用户体验.针对用户检索需求随时间变化而不同这一问题,时间敏感查询词自动补全成为研究热点.时间敏感查询词补全在生成查询词补全候选列表时拟合多种时间因素,呈现出与传统查询词补全不同的特点.本文首先介绍了时间敏感查询词补全的定义和分类,然后从查询词时间敏感类型判断、补全候选词权值计算、候选词排序计算三个步骤分析了关键技术,最后对技术评价方法和技术未来发展难点与热点进行了总结和展望.  相似文献   

11.
为了解决传统查询扩展时查准率低下的问题,基于词义消歧技术提出一种综合扩展语义树和词频共现率的语义查询扩展方法.针对查询词歧义所带来的查询主题漂移现象,利用WordNet知识源及其领域信息进行查询词义消歧,进而根据WordNet的层次结构生成扩展语义树,产生候选扩展词,并根据待扩展词与用户查询的整体最大相关性原则最终确定扩展词及其权重,使得扩展词能够充分表达用户查询请求,提高查询匹配准确率.实验表明,该方法在保证查全率的同时获得了较高的查准率.  相似文献   

12.
基于动态相关性挖掘的信息融合方法   总被引:3,自引:0,他引:3  
徐凌宇  张德干  赵海 《电子学报》2002,30(2):292-294
本文方法通过学习诸多信源在一定时间段内的变化过程,挖掘出那些与结论相关的信源及与结论相关时间片段.形成最终的决策树模式.该方法适用于大规模多因素动态隐含相关性信息融合.  相似文献   

13.
遥感影像检测分割技术通常需提取影像特征并通过深度学习算法挖掘影像的深层特征来实现.然而传统特征(如颜色特征、纹理特征、空间关系特征等)不能充分描述影像语义信息,而单一结构或串联算法无法充分挖掘影像的深层特征和上下文语义信息.针对上述问题,本文通过词嵌入将空间关系特征映射成实数密集向量,与颜色、纹理特征的结合.其次,本文构建基于注意力机制下图卷积网络和独立循环神经网络的遥感影像检测分割并联算法(Attention Graph Convolution Networks and Independently Recurrent Neural Network,ATGIR).该算法首先通过注意力机制对结合后的特征进行概率权重分配;然后利用图卷积网络(GCNs)算法对高权重的特征进一步挖掘并生成方向标签,同时使用独立循环神经网络(IndRNN)算法挖掘影像特征中的上下文信息,最后用Sigmoid分类器完成影像检测分割任务.以胡杨林遥感影像检测分割任务为例,我们验证了提出的特征提取方法和ATGIR算法能有效提升胡杨林检测分割任务的性能.  相似文献   

14.
刘波  潘久辉 《电子学报》2007,35(8):1612-1616
关联规则挖掘是数据挖掘领域中重要的研究分支,频繁项集或频繁谓词集的计算是其中的关键问题.本文针对包括多值属性的关系数据库,以多维关联规则挖掘为目标,研究频繁谓词集的计算方法,提出了MPG算法及IMPG增量算法.MPG算法通过构建频繁模式图MP-graph,按照深度优先搜索方法,动态挖掘频繁谓词集,只需扫描数据库一次.此外,该方法至多增加一次数据库扫描,就能扩展为IMPG算法,进行增量关联规则挖掘.文章分析了算法时间和空间性能,用实验说明了算法的有效性.  相似文献   

15.
王东  张强  严亮 《半导体光电》2017,38(3):419-424
监督局部线性嵌入算法(SLLE)通过数据点的标签信息进行高维数据在低维特征空间的映射,针对SLLE在均匀化高维数据的分布和最小化重构代价时,忽略类内偏离总体分布的稀疏离散数据在线性重构过程中可能错误地投影在其他超平面的情形,引入Kmeans++算法调整样本间距离,进行最优近邻点的选择,从而更有效地反映数据在高维空间中的实际分布,使降维后的数据具备更好的可分性.通过ORL以及Yale人脸数据集上的仿真实验,结果显示,该方法具有更强的泛化能力及更高的识别率.  相似文献   

16.
一种基于随机化视觉词典组和查询扩展的目标检索方法   总被引:1,自引:0,他引:1  
在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words, BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题。针对以上问题,该文提出了一种基于随机化视觉词典组和查询扩展的目标检索方法。首先,该方法采用精确欧氏位置敏感哈希(Exact Euclidean Locality Sensitive Hashing, E2LSH)对训练图像库的局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后,基于这组词典构建视觉词汇分布直方图和索引文件;最后,引入一种查询扩展策略完成目标检索。实验结果表明,与传统方法相比,该文方法有效地增强了目标对象的可区分性,能够较大地提高目标检索精度,同时,对大规模数据库有较好的适用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号