共查询到10条相似文献,搜索用时 21 毫秒
1.
一种改进的基于WSDL描述的操作相似性度量方法 总被引:6,自引:0,他引:6
在目前通用的Web服务描述标准WSDL基础上,文中提出一种改进的操作相似性度量方法MOSM.MOSM在数据预处理后将Web服务内含的操作(operation)建模为无序标签树,并通过计算满足约束的编辑距离对其进行相似性度量.其具体做法是抽取操作的XML模式的树形结构,对结构进行变形,只保留标签结点;然后计算生成的无序标签树之间满足约束的编辑距离,将操作相似性度量的问题转化为无序标签树匹配的问题.该文的创新主要在:建模时采用满足约束的无序树模型,在编辑距离算法中引入支持不对称性的代价模型,另外为结构和文字标签匹配引入了相似系数.文中最后给出实验了对比结果,MOSM算法能有效提高top-k查准率,对找寻相似的备选操作具有重要意义. 相似文献
2.
拟态Web服务器中表决器通过计算并比较异构执行体响应网页的相似性来判断响应是否为合法输出,达到网页防篡改的目的.目前表决器中将网页整体作为字符串输入,采用字符串编辑距离方法计算网页的相似性,存在计算量大忽略网页原有结构信息等问题.本文采用改进简单树匹配方法,通过对网页DOM树匹配判别得到网页的相似性,DOM树节点匹配程度由节点字符串的编辑距离决定.将本文算法应用于拟态Web服务器上,进行网页篡改实验验证,与现使用算法相比,本文所采用算法在适应执行体异构性的基础上,提高了表决器的计算效率和准确性. 相似文献
3.
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。 相似文献
4.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 相似文献
5.
不确定树模式聚类是数据挖掘领域中的一个重要问题,提出了一种新的不确定树模式聚类算法,有效地解决了因数据的不确定性而导致的无法聚类的问题.为了更加准确地度量树模式之间的相似性,提出了一种语义相似度计算方法与结构相似度计算方法.设计了一个动态聚类过程,自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化.通过模拟数据和真实环境两部分实验表明,算法有效可行,聚类结果较准确且具有较好的运行效率. 相似文献
6.
传统的网页聚类方法存在准确率不高和计算复杂度高的问题。因此,文章提出了一种新型的基于URL相似性和简单DOM树的网页聚类方法,使用树匹配算法进行去噪,之后再利用统计的方法进行网页类型判断。实验结果表明,该方法达到了较高的准确性。 相似文献
7.
8.
9.
传统的计算数字文档之间的结构相似度(DSS)的方法是基于树的编辑距离或Fourier变换.本文提出利用查询问题的结构化描述树Q与文档元数据描述树T之间的部分-整体匹配求解DSS.给出用字符串表示有向标记树的方法,并把上述树之间的相似度计算转化为对应Q和T的字符串表示之间的匹配计算,从而导出高效的DSS算法.实验表明,对给定的结构化查询,本文算法在查全率和查准率上优于树编辑距离算法. 相似文献
10.
Web Service已经成为主要的计算资源和软件的主要存在形态.为了满足用户的各种需求,使得Web服务的数量快速增加,而能从大量的服务中准确地发现满足用户需求的服务,成为研究热点和难点.结合成熟的基于概念相似度的服务匹配方法,分别将用户需求和语义Web服务描述文档OWL-S profile转化为本体树,并采用分层、分类的方式分别计算对应节点的概念相似度、属性相似度和结构相似度,有效地避免了复杂的推理.根据概念相似度和结构相似度之间的关系定义一系列的约束,并利用约束对查询树进行重组,以提高服务发现的查准率和查全率.最后,给出了语义Web服务发现的算法,并通过开发原型系统OWLS-CSR进行实验,证明了该理论方法的可行性与有效性. 相似文献