首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.  相似文献   

2.
提出了一种基于最大频繁Induced子树的GML文档结构聚类新算法TBCClustering.通过挖掘GML文档集合中的最大频繁Induced子树构造特征空间,并对特征空间进行优化;采用CLOPE聚类算法聚类GML文档,可自动生成最小支持度与聚类簇的个数,无需用户设置;不仅减少了特征的维数,而且得到了较高的聚类精度.实验结果表明算法TBCClustering是有效的,且性能优于PBClustering算法.  相似文献   

3.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

4.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

5.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

6.
为了提高大规模半结构化文档集的聚类质量,提出了一种新的XML文档聚类方法.从XML文档中提取层次路径序列,以此为依据将XML文档表示为VSM中的向量,将欧氏空间对应于粒子群模型的问题空间,采用粒子群聚类方法进行文档聚类.为了加速算法的收敛性,在算法的后续部分采用C-means进行快速局部调优,提出两阶段混合聚类方法,优点是能够跳出局部极值,搜寻整个问题空间的同时又保证了合理的时间.实验结果表明提出的方法具有较高的聚类准确性和较好的收敛程度.  相似文献   

7.
提出了一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。在ACM SIGMOD数据集和人工生成的数据集上进行了实验验证,结果表明:在计算时间基本相同的情况下,CXLI方法具有更好的精确度。  相似文献   

8.
基于单个XML文档结构的数据挖掘   总被引:1,自引:0,他引:1  
提出了一种基于XML的结构进行数据挖掘的算法,该方法使用现有的XML解析工具JAVA DOM对XML文件进行解析,形成XML文档树,把XML中的标签按照层次作为标记路径存储起来,再对标记路径进行关联规则挖掘,得到频繁事务。通过实验表明,只有当XML的结构呈不规则时,挖掘效率才会随最小支持度的增大而提高。  相似文献   

9.
基于UML的XML Schema设计   总被引:1,自引:0,他引:1  
给出了一种基于UML对XML Schema文档进行辅助设计的方法,该方法将设计过程分为3个层次,即概念层、逻辑层和物理层。概念层使用标准的UML类图对对象建模,逻辑层使用自定义的逻辑层UML类图表示,物理层则用最终的XMLSchema文档表示。给出的逻辑层UML类图充分利用了XML Schema文档的嵌套结构特点,结构清晰简明,经过一系列的转换步骤,可以由概念层的UML类图生成逻辑层UML类图,并最终得到XML Schema设计。  相似文献   

10.
针对向量空间模型在文档相似度量方面的局限,提出了基于计算公共子串的文档相似度量算法。对求公共子串算法进行了改进,提高了空间效率。用XML存储学生毕业设计论文文档,通过Java提供的DOM API生成文档对象树。深度优先搜索树中结点,进行结点比较,计算论文文档中出现的雷同文本,结合文档的结构相似性,能有效计算文档相似度。  相似文献   

11.
可扩展标记语言正在成为Web上各种应用交换信息的标准。对高性能可扩展标记语言数据处理技术的需求正日益增长。现有的大部分可扩展标记语言文档相似度计算方法是基于文档结构特征的。该文提出了一个新的基于综合语义的可扩展标记语言文档相似度计算方法。该方法综合利用了可扩展标记语言文档的结构信息和内容信息,具有一定应用前景。  相似文献   

12.
目的提出一种XML文档定义的方法,解决XML文档定义仅是一种简单包含关系和应用简单面向对象的功能、代码重复、横切关注点的分散、扩充XML元素时必须对原有元素修改问题.方法利用面向对象及面向方面定义方式方法的优势互补性,将其引入XML文档定义模式XML Schema中,提出基于面向对象XML文档的面向方面定义方式.结果在XML Schema原有定义方式中增加aspect、pointcut和advice几个定义元素的标识元素,并对XML Schema原有定义方式中简单面向对象方法进行扩充.定义XML元素及对元素进行扩充时采用多继承、阻塞、重命名、重载及织入结合,给出相应的表示符号,并用数学模型描述.结论基于面向对象XML文档的面向方面定义方式减少了XML文档定义中代码的重复,提高文档定义的模块性和可移植性.在实际应用中具有一定的可行性.  相似文献   

13.
关系模式到XML Schema的约束保留映射   总被引:5,自引:0,他引:5  
随着XML逐渐成为网络数据表示和交换的标准,将关系数据描述为XML格式已经成为一种趋势。针对这种情况,提出了关系模式到XML Schema的保留约束映射算法,通过对关系模式和XML Schema数学建模,定义模式映射模板,将关系模式转化为XML Schema模式的描述,实现关系数据到XML文档的转化。由于在数学建模过程中充分保留了语义约束信息,与同类研究相比,算法的映射结果可以更完整的描述关系模式的结构和语义信息,保证了数据的连贯性。  相似文献   

14.
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。  相似文献   

15.
为实现XML数据到关系数据库的映射,提出一种基于模型的映射方案,可以将任何一个格式良好的XML文档存储到结构固定的关系模式中,实现结构互异的XML文档的固定关系模式存储,不受DTD变化的约束,同时在存储的过程中自动插入节点的Dewey编码及深度。利用JDOM提取XML文档信息数据,给出了附加Dewey编码的映射算法实现,实验结果表明该方案设计合理、有效。  相似文献   

16.
针对ORB(oriented FAST and rotated BRIEF)在匹配多相似区域图像时误匹配率高的问题,提出一种基于余弦相似度的改进ORB算法.该算法首先通过汉明距离(Hamming distance)最近邻匹配,计算匹配特征向量的余弦相似度;其次通过梯度计算法计算余弦相似度的最优阈值范围;然后将汉明距离高...  相似文献   

17.
提出了一种基于XML细粒度的服务管理信息的访问控制模型,用于控制服务管理站对服务管理信息的访问.采用了形式化方法定义服务管理信息的访问控制模型的主体、客体和授权规则;讨论了授权规则的冲突解决方法,设计了标记XML文档中哪些节点的元素或属性可以被操作的标签树算法;描述了服务管理系统中细粒度访问控制模型的4种操作.该模型能控制服务管理站对服务管理信息的访问控制,控制粒度可以达到XML文档中的元素或属性.  相似文献   

18.
为了突破目前最流行的2种API,即SAX和DOM的局限,在介绍StAX最新XML数据解析技术的开发背景、分析其解析机理和技术内涵的基础上,分别给出了使用基于指针的API集合解析XML文件和生成XML文件的应用示例.通过这2个应用实例说明使用StAX这种API处理XML文件是十分容易的.在解析XML文件时,不用像DOM那样考虑XML文件的树型结构.同时,它还具有了SAX所没有的写操作功能.因此,StAX这种新式API是DOM和SAX二者优点的结合体,它即具有SAX的效率,又具有DOM的强大功能,并且编码十分简单易读.  相似文献   

19.
根据用户提交的查询路径表达式XPE,提出利用XACT(XML访问控制树)来简化查询路径表达式XPE一种方法。方法在XACT中直接获取一个简洁的受权查询路径表达式auto_XPE,加强了对XML文档信息查询的安全性要求;与用DOM树标识查询方法相比,其优点是极大地减少了实际访问XML文档树中的节点数,从而提高了对XML文档的授权查询效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号