首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
基于文档与搜索结果上下文的查询扩展方法   总被引:1,自引:0,他引:1  
蒋辉  阳小华 《计算机应用》2009,29(3):852-853
在查询扩展方法中,如果通过查询结果中关键词的上下文来计算候选关键词的权重,将权重大的词作为查询扩展词,其候选关键词来源于文档中关键词的上下文,这种方法存在主题漂移的问题。为了解决这个问题,提出一种将初始查询结果过滤,只选择与源文档语境相似的搜索结果,来帮助选择查询扩展词的方法。实验结果表明该方法能获得更合适的查询扩展词。  相似文献   

2.
语义查询扩展中,关键一步是扩展词的选择方法和扩展词权重的计算。提出一种改进的LCA(局部上下文分析法):OLCA(Optimize Local Context Analysis)。OLCA应用于分权重的多关键字查询中,结合WordNet概念树,从语义和实际查询语料两方面对初始查询词进行扩展,并根据初始查询词中多个关键词的位置,结合扩展候选集中词间关系计算修正各扩展词的权重。实验证明,与单独基于统计或基于语义的查询扩展方法相比,其查准率和查全率均有较大提高。  相似文献   

3.
查询扩展是信息检索中优化查询的一种有效方法。针对信息检索中用户查询关键词与文档标引词不匹配的问题,提出一种基于局部类别分析和遗传算法的查询优化算法。该算法分两个阶段实现:第1阶段对用户提交的查询Qold进行扩展,采用基于局部类别分析的查询扩展方法选择查询扩展词构成新查询Qnew;第2阶段对新查询Qnew进行权重分配,采用遗传算法对扩展后的查询进行权重调整得到最优查询向量,再次对测试集中的文档进行二次检索。实验结果表明,该算法比单独使用局部上下文分析算法、局部类别分析算法均有更优的检索性能。  相似文献   

4.
在信息检索过程中,因查询词短少而引起的检索歧义性是影响检索效率的主要原因之一,而查询扩展方法和本体扩展方法能有效改善这一问题.提出一种基于本体和局部上下文分析的查询扩展方法:本体扩展根据本体推理规则对短查询词进行推理,得到与查询词有逻辑关联的推理结果集,为查询词加入了标准化的关联信息.局部上下文分析通过对文档库的分析,在与用户查询词最相关的前m篇文档中抽取与用户查询词最相关的n个扩展词,为查询词加入了统计扩展信息.将两部分扩展查询词合并,再通过扩展查询词相关度计算对搜索结果集进行排序.该方法结合了这两种方法的各自优势,从语义角度扩展关键词.实验分析表明,该方法能有效提高检索查全率和查准率.  相似文献   

5.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

6.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

7.
在垃圾短信检索中所使用的关键词与短信文本集中的词不匹配,从而影响检索效果。为此,提出一种基于上下文查询词扩展的检索方法,该方法根据关键词出现的上下文信息进行查询词扩展选择,同时考虑查询扩展词与整个查询语句及查询词的位置关系。选取3 000条短信文本进行实验,结果表明该方法能提高平均查准率。  相似文献   

8.
由于自然语言本身的歧义性和多样性,少数几个关键词难以表达真实的信息需求。查询扩展技术通过挖掘原始查询项的潜在信息,有效地增强了检索系统的理解能力。该文在上下文分析方法计算公式中加入了句子权重概念,即假设由原始查询项返回的句子越重要,则其中出现的词与查询项越相关。同时进一步假设,句中的词与查询项的位置关系与依赖关系也是选取扩展词的重要依据。为此,该文分别提出基于句子权重与位置上下文分析方法(Sentence Weight&Position-based Context Analysis,SWPCA),以及基于句子权重与依赖关系上下文分析方法(Sentence Weight&Dependency-based Context Analysis,SWDCA)。并将这两种查询扩展技术应用于TREC的定义类问题回答,数据显示这两种方法均取得不错成绩,而SWDCA性能更好。  相似文献   

9.
词项权重已经广泛应用于信息检索模型中,针对传统的词项独立性假设的词袋模型的问题,本文将基于词重要性的词项权重的计算方法应用于Markov网络查询扩展模型中。该词项权重的计算方法须先建立文档的词项图,然后根据词项图得到词项的共现矩阵和词项间的概率转移矩阵,最后利用Markov链的计算方法得到词的权重。将得到的词项权重代入Markov网络扩展模型中,在5个标准数据集上的实验结果表明,采用基于词重要性的Markov网络查询扩展模型的检索结果优于传统的基于词袋的检索结果。  相似文献   

10.
乔亚男  齐勇  史椸  侯迪  王晓 《计算机科学》2009,36(7):197-201
传统的信息检索模型假设查询中的关键词之间是并列关系,但用户的需求往往应该被抽象为一系列的关键词组,组内的关键词间具有更为紧密的语义关系,这就是定义的临近词检索问题.提出了基于权重矩阵的临近词检索问题解决框架,该框架将文档和查询抽象化为文档的权重矩阵表示和查询权重矩阵,通过计算两个矩阵间的相似度来实现临近词检索.实验结果证明,针对临近词检索问题,传统的信息检索模型只是一种简化问题的解决方案,权重矩阵框架从理论上和形式上更加契合临近词检索问题,查准率得到了显著的提高.  相似文献   

11.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

12.
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性。目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性。特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征。基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征。在10个数据集上的实验结果表明了所提算法的有效性。  相似文献   

13.
基于特征相关性的特征选择   总被引:4,自引:1,他引:3       下载免费PDF全文
提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。  相似文献   

14.
特征选择对于分类器的分类精度和泛化性能起重要作用。目前的多标记特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择,没有考虑专家特征,因此多标记特征选择算法的运行时间较长、复杂度较高。实际上,在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息,必将减少特征选择的计算时间,甚至提升分类器性能。基于此,提出一种基于专家特征的条件互信息多标记特征选择算法。首先将专家特征与剩余的特征相联合,再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列,最后通过划分子空间去除冗余性较大的特征。该算法在7个多标记数据集上进行了实验对比,结果表明该算法较其他特征选择算法有一定优势,统计假设检验与稳定性分析进一步证明了所提出算法的有效性和合理性。  相似文献   

15.
王俊红  赵彬佳 《计算机工程》2021,47(11):100-107
不平衡分类问题广泛存在于医疗、经济等领域,对于不平衡数据集分类,特别是高维数据分类时,有效的特征选择算法至关重要。然而多数特征选择算法未考虑特征协同的影响,导致分类性能下降。对FAST特征选择算法进行改进,并考虑特征的协同作用,提出一种新的特征选择算法FSBS。运用AUC对特征进行评估,以相互增益衡量协同作用大小,选出有效特征,进而对不平衡数据进行分类。实验结果表明,该算法能有效地选择特征,尤其在特征数量较少的情况下可保持较高的分类准确率。  相似文献   

16.
特征选择作为一种数据预处理技术被广泛研究,由于其具有NP难度而一直无法找到有效的求解方法。鉴于目前在特征选择中应用较多的遗传算法存在进化机制上的局限,将量子进化算法应用于特征选择,提出了一种基于改进量子进化算法的特征选择算法。以增加种群多样性和提高寻优性能为目标改进了量子进化算法,以Fisher比和特征维度为特征子集的评价准则构造了适应度函数,按照量子进化算法求解优化问题的步骤设计了特征选择算法。使用UCI数据库中的数据集对三种算法作对比验证,通过识别重要特征、提高学习算法性能、特征选择效率三组实验,结果表明,该算法能够识别出重要特征,并随着数据集特征维度升高,特征选择的性能逐渐优于对比算法,到了高维数据集,特征选择效率明显优于对比算法。  相似文献   

17.
面向分类特征的无监督特征选择方法研究   总被引:1,自引:0,他引:1  
针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.  相似文献   

18.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

19.
针对传统的谱特征选择算法只考虑单特征的重要性,将特征之间的统计相关性引入到传统谱分析中,构造了基于特征相关的谱特征选择模型。首先利用Laplacian Score找出最核心的一个特征作为已选特征,然后设计了新的特征组区分能力目标函数,采用前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。该算法不仅考虑了特征重要性,而且充分考虑了特征之间的关联性,最后在2个不同分类器和8个UCI数据集上的实验结果表明:该算法不仅提高了特征子集的分类性能,而且获得较高的分类精度下所需特征子集的数量较少。  相似文献   

20.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号