首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。  相似文献   

2.
为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。  相似文献   

3.
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。  相似文献   

4.
支宗良  陈少飞 《计算机应用》2008,28(1):152-154,
由于缺乏对页面特征适应性的分析,现有的典型系统难以保障抽取规则的健壮性。提出一种优化的Web信息抽取方法,该方法引入了相互关联的三层规则,在分析页面特征适应性的基础上,从准确率和召回率两方面出发提出了抽取规则的优化算法,并用标准XQuery表达复杂对象抽取规则。实验证明,该方法有效地增强了抽取规则的健壮性及可用性。  相似文献   

5.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

6.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。  相似文献   

7.
为了充分利用突发自然灾害发生时微博平台产生的大量灾情相关信息,建立一个微博灾情信息抽取系统具有重要意义。本文设计并实现了一个多线程爬虫系统。该系统基于Flask框架、Echarts可视化类库和百度地图API,并利用MySQL作为数据库管理系统。实际应用结果显示,该系统能够快速的采集微博数据,实现了微博文本灾情信息抽取与可视化分析。  相似文献   

8.
张昕  鄂海红  宋美娜  杨俊 《软件》2014,(9):16-20
随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中。为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人工干预。该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板。通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来。实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果。  相似文献   

9.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

10.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2  
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

11.
通用互联网信息采集系统的设计与初步实现   总被引:7,自引:0,他引:7  
通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。  相似文献   

12.
针对近年会展经济的蓬勃发展,各类展会对提高管理效率,降低交流成本的需求,开发会展网络信息管理系统,实现展前、展中和展后的全方位管理。系统包括展会筹备、网上填报、数据采集、现场管理四个模块,并提供展后数据挖掘和决策分析支持。重点分析RFID数据自动采集技术、C/S和B/S框架开发的系统集成技术、数据库安全保障,以及数据挖掘和决策分析等关键技术。会展系统的投入使用,简化了参展流程,增加了信息来源渠道和利用价值,提升了展会品牌价值。  相似文献   

13.
文章针对远洋运输业业务邮件的特点,结合Ontology技术,信息抽取技术,通过建立领域Ontology,对领域本体进行解析,生成抽取规则,对业务邮件进行信息抽取。试图从繁多的业务邮件中,抽取我们需要的业务信息,以一种结构化的形式呈现在用户面前,提高远洋运输业办公效率。  相似文献   

14.
在当今的信息时代,网上每天都有海量的数字化信息在生成、存储、传播和转换。这种趋势不可避免地加剧了信息获取的困难,如何有效地利用这些海量信息也成为了亟待解决的难题。给出了一个自适应式的海量半结构化数据采集引擎(AEEMSI)的框架,提出了自适应数据模板、数据网关等概念,并利用此结构框架,开发设计出了可投入实际商业应用的运行系统,完成了对Web中的海量半结构化信息进行提取和重新整合的工作。  相似文献   

15.
由于数据挖掘技术具备从大量数据中提取特定数据模型的优势,已得到广泛的认可和应用。目前,数据挖掘在教育领域中应用的主要热点之一是如何构建面向数据挖掘的教学系统的研究。介绍一种面向数据挖掘技术的教学网站的设计思想和实现方法。该网站实现传统教学系统的通用模块,并增加对教学日志的支持功能。该功能为数据挖掘研究提供实验数据和实践平台。  相似文献   

16.
管理信息系统的数据完整性约束及其实现方法   总被引:2,自引:0,他引:2  
介绍了数据完整性的概念、类型以及管理信息系统实现数据的完整性的几种方法。对这几种方法进行了比较,并以远程教学管理系统为实例给予说明。  相似文献   

17.
设计并实现高校就业管理系统,本系统的设计充分考虑高校就业管理系统各方面的需求,采用功能模块化的设计结构,利用数据挖掘技术设计实际系统中的有效数据结构,基于.NET和SQL Server2005数据库系统环境实现。在系统的安全性方面,对应于每一个模块的数据库,充分利用Windows系统内嵌的安全机制,保证系统和数据的安全性。  相似文献   

18.
通过分析医疗保险管理信息化深入发展的需求,从技术的角度提出医疗保险信息系统数据整合及数据挖掘的总体解决方案,并对医疗保险信息系统的数据仓库的设计、数据整合的方案以及数据挖掘的技术和应用进行概要的分析和论述,并用关联规则挖掘算法实证研究医保信息挖掘的可能性与必要性。利用编码、解码技术和SQL的聚集函数,实现基于SQL的FP-Growth算法,从而突破机器内存对数据挖掘的处理效率,实现对海量数据挖掘的高效挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号