首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
提出一种比较XML文档这种半结构化数据流的模糊技术,并在此基础之上进行分类,主要包括基于结构的文档分类以及基于内容的文档分类。该方法建立在XML文档片段的平面编码基础之上,将XML文档表示成模糊包的形式,使用比较函数,计算出它们结构的相似性。在对XML文档进行基于结构的分类以后,可以进一步考虑其内容,以获得更细的分类。  相似文献   

2.
以完成对杂乱无章的XML文档进行自动分类为目的,提出了一种基于下三角矩阵的XML文档表示方法,经过数学建模后,XML文档间的相似度比较问题转化成了矩阵之间的相似度计算。为了验证其执行效果,在采用该算法进行相似度计算的基础上,运用最近邻分类算法对XML测试文档集进行自动分类。实验结果表明,这种基于矩阵存储的XML相似度计算方法应用于分类中效果良好。  相似文献   

3.
基于语义和结构的XML文档相似度的计算方法   总被引:1,自引:0,他引:1  
个性化信息服务通过了解用户的兴趣爱好,为不同的用户提供不同的信息服务。XML是一种标示语言,是Web文档表示和交换的常用相关标准,因此XML文档之间相似度计算问题对于个性化推荐与信息检索非常重要,为此提出了一个计算XML文档之间的语义和结构相似度的方法XMLSim。首先,基于节点标记对之间的语义相似度和编辑距离计算节点标记对之间的相似度;在分析了路径上节点具有的偏序关系之后,将路径之间相似度问题抽象为最大相似子序列(MSS,Maximal Similar Subsequence)问题,并利用动态规划对MSS问题求解得到路径相似度NpathSim。最后,XML文档之间的相似度XMLSim通过路径集合之间的最大NPathSim的平均值得到。  相似文献   

4.
基于PCA的XML文档特征提取方法   总被引:1,自引:0,他引:1  
郭丽红  王箭 《计算机工程与设计》2011,32(11):3894-3896,3911
为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。  相似文献   

5.
针对当前XML文档信息查询算法的不足,提出一种基于有效路径权重的树匹配算法。在保持XML文档树有效结点和树结构的基础上,树根结点信息最重要,随着树深度增加,结点信息重要性逐渐减弱的特点,按照路径层次自动计算路径权重,并赋予相应路径,根据树结点的有效信息和树结构的有效路径计算树的匹配度。在大规模XML文档查询方面,实验验证了该算法在保证较高查准率和查全率的基础上,有效提高了查询效率。  相似文献   

6.
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据。该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式。在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据。  相似文献   

7.
缪丰羽  王宏志 《计算机科学》2016,43(11):284-290
模糊XML文档是指包含不确定信息的XML文档。在模糊XML文档查询方面,现有的研究成果较少,并且都是基于树型结构的XML文档进行的。针对图结构下模糊XML文档的特征,设计了一组高效的图结构模糊XML文档上的模式匹配算法。该算法基于一种适合于图结构文档的索引方式,采用自底向上的结点匹配顺序,大大减少了结点的重复判断操作,也不需要进行局部匹配结果的归并以及针对PC关系设计额外的过滤函数。理论分析以及实验结果证明,提出的模式匹配算法不仅在小枝查询性能上优于现有的相关算法,而且能够较好地实现DAG模式匹配查询。  相似文献   

8.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

9.
提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner 算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。  相似文献   

10.
一种基于Hash表的XML模式快速提取算法   总被引:1,自引:0,他引:1  
为快速获取XML文档的模式信息,提出一种基于Hash表的XML模式提取算法。该算法首先将XML文档转换为一棵XML文档树;然后遍历这棵文档树,将相关模式信息存储到一个Hash表中;最后,对Hash表中的信息进行处理,得到XML模式的DTD表示形式。将文中的算法用VC++实现,实验结果表明该方法是可行有效的,而且在保证XML模式提取结果正确性的同时,还有效地简化了模式表示形式。  相似文献   

11.
12.
CSCW系统中协同感知的研究   总被引:1,自引:0,他引:1  
协同感知理论的研究与应用是计算机支持的协同工作的重要研究内容之一.在研究分析了传统的协同感知所依赖的CSCW体系结构的基础上,提出了一种基于P2P的三层结构的协同感知框架,该架构很适合于CSCW中项目可以划分为若干个相对独立的模块的情形.最后对该框架的具体感知模块进行了分析,并讨论了下一步研究将要解决的问题.  相似文献   

13.
景象提取的目的是将数字图像中的景物从背景中分离出来,为了更好地实现这一目的,微软亚洲研究院Jian Sun等人于2004年提出Poisson Matting方法.该方法将透明度(α值)作为图像的一种内在属性,变分地寻求其最优解,来达到目标提取的目的.主要介绍Poisson算法,针对Poisson算法中程序运行时间比较长的问题,对算法中耗用时间多的两个步骤:图像初始α值的计算以及前景图像F、背景图像B的计算进行了改进,在VC6.0中进行了实现,并取得了较好效果.  相似文献   

14.
开放环境下信息的安全与保护有着重要的研究价值。对待隐藏文件无需专门分配存储空间,而是将其转移存储到系统文件的内部碎片中。隐藏文件的文件名、带路径的宿主文件名及二者对应关系加密后分别存放在两个普通文件中。实验及研究表明此种方式能够对数据做到深度隐藏。  相似文献   

15.
基于XQuery查询优化的研究   总被引:3,自引:0,他引:3  
XML已经成为网络上信息描述和信息交换的标准,随着XML应用得越来越广泛,人们提出了多种XML 数据的查询方法.但是,很多查询方法都有各自的局限性.利用有意义的最小公共实体结构EntityInMLCAS(Entity In Meaning Lowest Common Ancestor Structure)原理,提出一种优化查询方法.同时采用堆栈技术的方法对XML文档结点树进行自顶向下的遍历,该方法大大提高了优化查询的速度.  相似文献   

16.
基于RBAC的WEB环境下OA系统权限控制的研究   总被引:2,自引:0,他引:2  
WEB环境下OA(Office Automation)系统的权限控制是一个热点问题.针对此问题详细介绍了一种实用的解决方法--基于角色访问控制模型的方法,并在此基础上根据实际项目重点阐述了RBAC数据库的设计方法,以及基于RBAC数据库的权限控制的设计方法,最后给出权限子系统的具体配置步骤,并给出实际运行结果.  相似文献   

17.
研究了基于自动机理论的XML查询重写问题,尤其针对局部查询重写技术作了深入研究.通过实例对其有效性进行了合理的分析.  相似文献   

18.
依据对数字音频广播技术的相关国际标准分析,仔细阐述了目前各类基于数字音频广播技术的数据服务类型,提出了一种基于广播网络的数据服务的基本体系结构.经过对数字音频广播国际标准的协议栈分析,着重介绍了网络层和应用层的划分,以及这两层内目前流行的各种协议.最后,介绍了北京市基于此类标准的数据服务的实现方法.  相似文献   

19.
由于项目管理技术的不断提升和管理模式的多样化,不同行业甚至不同企业对项目管理系统的要求各不相同。如何利用软件构件技术快速地构造新的项目管理系统成为急需解决的问题。从项目管理系统的框架出发,首先对构件进行了形式化定义,然后基于此定义对项目管理系统组成部分进行了形式化描述,最后利用定义好的连接器,通过顺序、选择和并行三种组装方式组装成项目管理系统。并在此基础上提出了基于构件组装的PMS开发模型。  相似文献   

20.
个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特征。针对微博标签、URL、时间等特征,提出一种基于微博特征的事件提取算法。该算法针对微博的特征进行TF-IDF的改进,并加入标签相似度,URL相似度,进行综合相似度计算,最后按时间先分段后合并的改进K-means聚类方法得出事件提取结果。实验结果表明,基于微博特征的事件提取算法对微博关键字提取和事件提取的精确度有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号