首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

2.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

3.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

4.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

5.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

6.
为了提高酒店在线评论文本数据处理效率,利用无监督聚类方法,采用B/S架构设计,实现基于Web的酒店评论文本观点抽取系统.该系统流程主要分为文本预处理、构建句向量、降维和聚类、冗余观点合并、观点标注和展示5个部分.通过实验验证,该系统能在157.81 s内完成5 468条评论观点的抽取,一方面避免了繁重的数据处理工作,另...  相似文献   

7.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

8.
基于HTMLParser的Web信息抽取系统的设计与实现   总被引:2,自引:2,他引:0  
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。  相似文献   

9.
正则表达式在Web信息抽取中的应用   总被引:1,自引:0,他引:1  
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。  相似文献   

10.
领域本体在信息抽取系统有着重要作用。该文介绍了本体、领域本体的基本概念,并探讨了领域本体与信息抽取的关系。提出了信息抽取系统中领域本体的设计准则和实施步骤,实施步骤包括领域本体需求分析、收集本体信息、构建领域本体框架、形式化编码、确认和评价等。在信息抽取原型系统中实现了显示器领域本体,并将该领域本体应用到信息抽取中的命名实体识别、抽取模式获取和主题概念提取等任务中,应用结果表明该方法、步骤是可行的。  相似文献   

11.
特征提取是文本挖掘基础性、关键性的技术,现将基于粗糙集的属性约简算法应用于文本挖掘中特征项的提取工作,以解决文本特征降维问题.实验表明,利用粗糙集方法进行特征提取,能够去掉多余属性,大大降低文本特征项的维数。  相似文献   

12.
垂直搜索引擎需要对网页的内容进行提取,信息提取算法是研究的关键内容之一,文章提出一种新的基于行模式的索引网页的信息提取算法,该算法基于网页结构,具有较高的分析速度与准确率,使信息的分析与提取变得简单高效。  相似文献   

13.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

14.
实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,对句子语义理解及实体语义知识库构建有着重要作用。回顾了实体关系抽取的发展史,总结了有监督实体关系抽取、无监督实体关系抽取、半监督实体关系抽取和开放式实体关系抽取4类方法的原理和代表性研究,并对各类方法进行了详细比较。  相似文献   

15.
大量的不规范表结构信息是当前Web信息提取所必须解决的问题.在现有方法基础上,给出了归纳学习相邻属性间上下文规则集算法,提出了以Web页为粒度的属性转换机和有限状态自动机包装器概念,最后介绍了采用有限状态自动机包装器提取不规范表结构Web信息的算法.  相似文献   

16.
基于SRI的动态网页信息抽取方法   总被引:1,自引:0,他引:1  
提出了基于相似记录项归纳的动态网页信息抽取方法.该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树.对各种类型网页进行信息抽取实验,取得98.11%的召回率和96.90%的准确率.  相似文献   

17.
基于HTML的Web信息元数据提取技术应用   总被引:3,自引:0,他引:3  
介绍一种基于HTML的Web信息元数据提取技术的应用,包括扫描算法与Web信息元数据描述文档的介绍。  相似文献   

18.
针对LSTM网络进行主题词提取时因没有考虑中心词的下文对主题词的影响而导致提取准确率低的问题,提出了一种双向LSTM引入Attention机制模型(Att-iBi-LSTM)的主题词提取方法。首先利用LSTM模型将中心词的上文和下文信息在两个方向上建模;然后在双向LSTM模型中引入注意力机制,为影响力更高的特征分配更高的权重;最后利用softmax层将文档中的词分为主题词或非主题词。并且还提出了一种两阶段模型训练方法,即在自动标注的训练集上进行预训练之后,再利用人工标注数据集训练模型。实验在体育、娱乐和科技3种新闻文本上进行主题词提取任务,实验结果表明本文提出的Att-iBi-LSTM模型与SVM、TextRank和LSTM相比F1值分别提高了13.78%、24.31%和3.32%,使用两阶段训练方法的Att-iBi-LSTM比一阶段训练的F1值提高了1.56%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号