首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于扩展标记图的Web信息抽取器   总被引:2,自引:0,他引:2  
王亮  朱征宇 《计算机工程》2005,31(8):159-161,191
介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实观了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。  相似文献   

2.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

3.
Web信息抽取   总被引:14,自引:0,他引:14  
With the tremendous amount of information available on the Web,the ability to quickly obtain information has become a crucial problem.It is not enough for us to acquire information only with Web information retrieval technology.Therefore more and more people pay attention to Web information extraction technology.This paper first introduces some concepts of information extraction technology,then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns.  相似文献   

4.
基于页面标签的Web结构化数据抽取   总被引:2,自引:0,他引:2  
任仲晟  薛永生 《计算机科学》2007,34(10):133-136
本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim-HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。  相似文献   

5.
提出了一种基于KPS的Web信息抽取方法,它结合了基于K(Keywords)、P(Patterms)和(Samples)抽取方法的优点,能够更加有效地抽取Web信息。  相似文献   

6.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。  相似文献   

7.
在分析当前一些主流的wrapper技术的基础上,提出了一个基于移动Agent的web信息抽取系统框架。在该框架中,利用移动Agent所具有的自治性、移动性、交互性和智能性.将数据抽取和转换任务交给移动Agent.让其移动到Web数据源上去完成信息抽取任务,并将抽取结果传田。这样不但可以减少数据传输量,节约网络带宽。降低响应时间;还可以减少对网络的依赖性,允许网络的间断连接。  相似文献   

8.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

9.
基于多知识的Web网页信息抽取方法   总被引:9,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

10.
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

11.
大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题.以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型.最后结合Web信息提取系统的实验结果,给出了网格应用系统的评价标准.  相似文献   

12.
基于扩展DOM树的Web页面信息抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取.  相似文献   

13.
企业收集和获取用户个人信息是其对用户行为进行分析以制定合理营销决策的前提。注意到当前,由于互联网的高度发展和普及,消费用户往往在Web上以评论文本的形式分享其消费习惯、消费偏好和消费体验,这些海量的评论文本中蕴含着极具价值的信息,为用户个人信息的收集提供良好的资源。针对传统企业收集用户个人信息的方法主要以人工为主导,自动化水平较低的问题,提出一种基于Web挖掘技术以网上评论文本为挖掘对象,对用户个人信息进行自动提取以自动分析用户行为的改进方法。企业可以通过此改进的用户个人信息提取方法对用户行为进行分析以自动获取消费用户对产品的反馈意见并制定有针对性的营销策略。  相似文献   

14.
基于DOM的网页主题信息的抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。  相似文献   

15.
邵辉  李芳 《计算机应用与软件》2007,24(10):99-100,144
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成.提出了一种新的基于树模型算法的动态网页信息抽取方法.它在已有算法和系统的基础上,进行了多方面的扩充.实验表明,这种基于树模型的抽取方法能够准确地定位和抽取动态网页信息.  相似文献   

16.
由于网页信息具有异构和动态的特点,致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此,将传统的文本分类器和隐式马尔可夫学习策略结合起来,提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部最优分类抽取结果基础上,还利用了整个网页文本结构信息对抽取结果进行进一步优化。实验结果表明,该方法不需要对新的站点进行学习,就能获得较高的信息召回率和抽取精度,具有较强的适用性。  相似文献   

17.
提出了一种基于特征信息提取的中文自动文摘方法。通过对文章中可能影响文摘句提取质量的若干特征进行分析,设计了一种基于特征信息提取的句子重要度计算方法,并依此来抽取文摘句以生成摘要。实验结果验证了该方法的有效性,是对中文自动文摘方法中利用文章特征信息来抽取文摘句的一种有益的尝试。  相似文献   

18.
着眼目前气象信息发布现状,结合统一的Web服务对象封装技术,提出并实现了一种跨平台、无缝集成的系统设计方案:采用XML Web服务发布气象信息.实现了跨平台和不同语言的应用集成,促进了气象信息的电子商务化和气象经济的发展.  相似文献   

19.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号