共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
基于结构分析和实体识别的信息集成 总被引:4,自引:0,他引:4
针对海量的web数据,提出了一种基于文档结构分析和实体识别的web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性. 相似文献
3.
信息集成中的实体识别解决方案 总被引:1,自引:0,他引:1
分析了实体识别过程中存在的问题,并在基于本体的语义信息集成中模式异构和上下文异构已经得到解决的基础上,提出一个基于两阶段特征向量处理的解决方案来提高分布环境下实体识别的效率.最后针对实体识别中比较函数主要考虑英文字符串特点导致中文字符串精度较低的特点设计了一个基于公共子串的比较函数,实验证明该函数与基于编辑距离的比较函数比较,具有更高的查全率、查准率和更低的时间复杂度. 相似文献
4.
5.
针对现有实体识别方法自动化水平不高、适应性差等不足,提出一种基于反向传播(BP)神经网络的Deep Web实体识别方法。该方法将实体分块后利用反向传播神经网络的自主学习特性,将语义块相似度值作为反向传播神经网络的输入,通过训练得到正确的实体识别模型,从而实现对异构数据源的自动化实体识别。实验结果表明,所提方法的应用不仅能够减少实体识别中的人工干预,而且能够提高实体识别的效率和准确率。 相似文献
6.
陈砚雄 《数字社区&智能家居》2005,(8):29-31
在信息和服务迅猛增长的Web上构建信息集成系统是当前的一个研究热点,本文针对web信息集成的目标,结合XML和RDF等主要的Web技术及本体的概念,构建了一个基于本体的查询-应答框架,它通过有效地集成Web上的各种异构数据源来为终端用户提供更为方便的服务和应用。 相似文献
7.
分析了常见的实体识别方法,提出了一种基于语义及统计分析的实体识别机制(deep Web entity identification mechanism based on semantics and statistical analysis,简称SS-EIM),能够有效解决Deep Web数据集成中数据纠错、消重及整合等问题.SS-EIM主要由文本匹配模型、语义分析模型和分组统计模型组成,采用文本粗略匹配、表象关联关系获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义信息及约束规则来不断精化识别结果;根据可获取的有限的实例信息,采用静态分析、动态协调相结合的自适应知识维护策略,构建和完善表象关联知识库,以适应Web数据的动态性并保证表象关联知识的完备性.通过实验验证了SS-EIM中所采用的关键技术的可行性和有效性. 相似文献
8.
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。 相似文献
9.
10.
张中秋 《数字社区&智能家居》2007,2(5):717-719
介绍了在当前供应链的环境下,成员信息集成交互的重要性,指出了传统的一些分布式信息集成技术的不足,给出了在Web Services技术下供应链信息集成的框架、方案,并指出Web服务的技术优势,在实现异构平台的企业间信息交互的可行性和优点。该方案可以有效的满足供应链信息集成的要求。 相似文献
11.
12.
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的Web信息采集结构模型,该模型以线程并行的方式对Web页面同时采集,实现了全面、高效并且灵活的信息搜集。 相似文献
13.
14.
15.
Web服务搜索技术综述* 总被引:1,自引:0,他引:1
随着Web服务应用的迅速发展与日益普及, 如何快速、准确地搜索到用户所需的Web服务成为了制约Web服务发展的关键问题之一。目前的Web服务搜索技术包括:基于UDDI注册中心、通过Web服务网站、使用专用搜索引擎与使用通用搜索引擎四种方式。对现有主要Web服务搜索技术进行了详细评述。在对典型Web服务搜索技术分析比较的基础上, 指出了建立专用的Web服务搜索引擎的必要性以及所面临的问题与挑战。 相似文献
16.
Web信息检索研究进展 总被引:90,自引:3,他引:90
Web上大量、分布、动态的信息造成了“信息过载”,如何在传统信息检索技术的基础上开展针对Web的检索工作已经成为一基项重要的研究课题,但是,繁多的Web信息检索系统和各种模糊的概念给用户的选择和研究人员的讨论带来了不便。同时,有关Web信息检索最新技术的比较完整的分析又十分缺乏。在此,对Web信息检索技术进行了综述,从Web信息检索系统的层次化分类(搜索引擎与目录、元搜索引擎、信息检索agent)、一般机制和关键新技术(基于超链的相关度排序、检索结果的联机聚类、基于概念的检索、相关度反馈)等方面加以阐述,以期对感兴趣的同行有参考作用。 相似文献
17.
18.
Semantic similarity measures play important roles in many Web‐related tasks such as Web browsing and query suggestion. Because taxonomy‐based methods can not deal with continually emerging words, recently Web‐based methods have been proposed to solve this problem. Because of the noise and redundancy hidden in the Web data, robustness and accuracy are still challenges. In this paper, we propose a method integrating page counts and snippets returned by Web search engines. Then, the semantic snippets and the number of search results are used to remove noise and redundancy in the Web snippets (‘Web‐snippet’ includes the title, summary, and URL of a Web page returned by a search engine). After that, a method integrating page counts, semantics snippets, and the number of already displayed search results are proposed. The proposed method does not need any human annotated knowledge (e.g., ontologies), and can be applied Web‐related tasks (e.g., query suggestion) easily. A correlation coefficient of 0.851 against Rubenstein–Goodenough benchmark dataset shows that the proposed method outperforms the existing Web‐based methods by a wide margin. Moreover, the proposed semantic similarity measure significantly improves the quality of query suggestion against some page counts based methods. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献
19.
A masss of heterogeneous,distributed and dynamic information on the World Wide Web(the Web) has resulted in “information overload“ .It‘s an important and urgent reserach issue to provide users with effective information retrieval service on the Web.Web search enginees attempt to solve this problem,yet their effect is far from satisfying.In this paper,a distributed and cooperative strategy for information retrieval on the Web is proposed to substitute the centralized mode adopted by the current search engines.Then a new information retrieval system model IRSM is presented.which supports the retrieval of metadata about web documents and uses Z39.50 standard protocol to unify the heterogeneous interfaces of uments and uses Z39.50 standard protocol to unify the heterogeneous interfaces of different systems.Based on that,a distributed and cooperative information refieval framework,called DCIRF,is designed to help users in fast and effective information retrieval on the Web. 相似文献