排序方式: 共有113条查询结果,搜索用时 0 毫秒
1.
特征选择在模式识别和数据挖掘等领域都有十分广泛的应用.然而,当涉及空间数据时,由于传统特征选择方法没有很好地考虑数据的空间特性,所以会导致特征选择结果性能下降.从空间数据本身的特性出发,提出一种特征选择方法MEFS(maximum entropy feature selection).MEFS在基于最大熵原理的基础上,运用互信息和Z-测试技术,采用两步方法进行空间特征选择.第1步,空间谓词选择;第2步,选择与每个空间谓词对应的相关属性集.最后,分别对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较.实验结果表明,MEFS方法不仅可以节约特征提取和分类时间,而且也极大地提高了分类质量. 相似文献
2.
3.
Mining frequent itemsets from large databases has played an essential role in many data mining tasks. It is also important to maintain the discovered frequent itemsets for these data mining tasks when the database is updated. All algorithms proposed so far for the maintenance of discovered frequent itemsets are only performed with a fixed minimum support,which is the same as that used to obtain the discovered frequent itemsets. That is, users cannot change the minimum support even if the new results are unsatisfactory to the users. In this paper two new complementary algorithms, FMP (First Maintaining Process) and RMP (Repeated Maintaining Process), are proposed to maintain discovered frequent itemsets in the case that new transaction data are added to a transaction database. Both algorithms allow users to change the minimum support for the maintenance processes. FMP is used for the first maintaining process, and when the result derived from the FMP is unsatisfactory, RMP will be performed repeatedly until satisfactory results are obtained. The proposed algorithms re-use the previous results to cut down the cost of maintenance. Extensive experiments have been conducted to assess the performance of the algorithms. The experimental results show that the proposed algorithms are very resultful compared with the previous mining and maintenance algorithms for maintenance of discovered frequent itemsets. 相似文献
4.
SuffIndex--一种基于后缀树的XML索引结构 总被引:5,自引:1,他引:5
针对形如∥element1/dement2/…/elementm0的查询,提出了一种基于后缀树(suffix tree)的XML索引结构SuffIndex.SuffIndex的构造通过只对OEM数据树遍历一次以及在SurfIndex中引入后缀链(SuffIink)的方法,从而达到较低的构造代价.SuffIndex中所有结点利用Hash表保存到其所有子结点的指针,最终使查询∥element1/element2/…/elementm的处理代价为O(m). 相似文献
5.
基于Boost和信任函数的多文本分类器组合模型 总被引:2,自引:0,他引:2
人们对文本分类已经进行了大量的研究,取得很多研究成果,设计多种分类器,达到相当高的分类精确度。但使用单分类器进行文本分类有一些缺点,如分类模型对样本的敏感性,而且单分类器的分类精度很难再有很大的提高。因此,使用多分类器以提高分类的精度是一个非常活跃的研究领域。文章提出使用近年在传统概率统计方法之上发展起来的信任函数理论和方法对多个文本分类器进行组合使用。具体方法是使用信任函数将分类结果进行综合,得到最终的分类结果。实验证明,基于信任函数的信息综合方法比已有的方法更合理,精度也得到提高。 相似文献
6.
基于XML的本体表示和检索技术的研究 总被引:10,自引:0,他引:10
基于XML和本体在抽象层次上都可以用带标签的有向图来表示,文章提出了用XML来描述本体,并在此基础上实现对本体中概念的检索。 相似文献
7.
保持时新性的WebView自适应物化和维护策略 总被引:1,自引:0,他引:1
WebView是指存储在WebRepository中的Web页面。WebView对于很多系统来说都非常有用,它可以给用户的查询和分析带来更快的效率,特别适合联机分析处理(OLAP)和决策支持。然而当使用Repository中的信息为用户服务时,笔者无法保证所提供的信息是最新的(与源数据保持up-to-date)。在这种情况下,虽然把这些信息返回给用户,实际上却不知道这些信息是否可以满足用户的需要。为了提高数据质量,系统需要尽可能提高数据时新性(Freshness),保持Repository与数据源相一致。该文围绕数据时新性,对系统存储哪些页面,这些页面又如何更新和维护才能取得系统能力和效率之间的平衡进行讨论,并提出一种基于效益的时新性保持方法(Profit-basedFreshness-keepingMethod,PFM),同时给出了它的近似解。实验结果说明,该方法在系统效率和数据时新性综合评估方面优于传统方法,同时对Web环境具有良好的适应性。 相似文献
8.
Web数据集成系统基于QC模型的物化视图选择 总被引:2,自引:0,他引:2
在Web数据集成系统中,物化视图能够有效地减少网络传输代价,提高系统的查询效率.如何选择查询进行物化,使得选中的查询满足集成层的空间限制,同时获取最大物化收益,成为集成系统中一个迫切需要解决的问题.传统方法没有考虑到海量XML查询之间的包含关系,其选择的物化视图中可能包含冗余的信息.针对上述问题,提出了①Web数据集成系统中海量查询集合的QC(query containment)模型,该模型能够捕捉查询之间最常见的包含关系;②基于QC模型的物化视图选择算法,算法考虑了物化视图选择相关的主要因素,包括查询提交的频率、空间代价、查询重写能力和查询结果的完备性,提出了查询位图的物化视图组织方式,从而获取更加合理的物化视图选择方案.实验结果证明了该方法的有效性. 相似文献
9.
数字图书馆科技文献知识导航 总被引:5,自引:2,他引:5
提出了一种基于分类法和主题词表的科技文献知识导航体系,该体系支持分类法和主题词表知识导航、元数据结构查询和全文检索这三种检索手段以及他们的混合应用。从分类法主题词表的概念浏览和元数据查询的语义支持的角度来说,这是一个支持概念检索的知识导航体系。根据该体系,实现了“北京大学科技文献检索系统”实验数字图书馆。 相似文献
10.
论文元数据信息的自动抽取 总被引:16,自引:1,他引:16
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。 相似文献