首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 929 毫秒
1.
为了有效地在Web上进行数据信息的提取,实现Web数据的清理与集成,针对发布批量格式化数据的网页类型,提出了利用XML和JTidy自动从Web页面批量提取数据信息的方法.根据该类网页的特点,基于开发一种通用程序的思想,对页面标签结构进行分析与分类,讨论了识别数据元素和对数据元素进行分组等提取过程中的难点,在此基础上建立了总体扫描与提取的算法.实验结果表明了批量提取信息方法的可行性与有效性.  相似文献   

2.
随着Internet的飞速发展及Web在全球的进一步普及,WWW上的信息量呈指数级增长。面对这一情形,研究人员开始将数据挖掘技术用于Web,从而产生了一个新的研究方向——Web挖掘。Web挖掘即是对Web文档的内容、可利用的Web资源的使用情况以及Web资源间的关系进行分析。本文分析了Web页面的半结构化特点,介绍了国内外学者针对Web页面的半结构化特点提出的用于从Web页面中提取数据的构建包装器方法。在Web数据提取领域,包装器一般就是一个从Web页面中提取数据的程序。同时介绍了作者本人的一些工作,包括一个新闻下载浏览模块和一个信息…  相似文献   

3.
针对提供大规模数据查询的Web页面,提出了一种基于站点内页面对比分析的web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到主据库中。该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取。  相似文献   

4.
基于Web信息组织模型的元数据检索技术   总被引:1,自引:0,他引:1  
高玉珠  刘瑞 《计算机应用》2006,26(Z1):89-90
针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统.使用基于正则表达式的元数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元数据库进行不断地更新.抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索.  相似文献   

5.
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘的方法,提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析,着重介绍了Web访问挖掘基本流程,并总结了Web挖掘结果在远程教学系统中的重要作用。  相似文献   

6.
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。  相似文献   

7.
为了有效地从Web页面上提取数据信息,本文建立一种基于XML的Web信息收集数据库。利用开源工具JTidy将Web页面加以整理,利用XML良好的结构特性,使用Dom4j工具包解析XML文件;按照XML中的标签层次特点作为对数据进行储存的依据;最后使用Hibernate将数据持久化地储存于数据库中,方便数据的储存与查询。  相似文献   

8.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

9.
Web数据挖掘是当前数据挖掘的热点研究领域之一.由于Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性.本文首先简介如何从Web页面中提取半结构化数据,接着提出一种增量FP-Growth挖掘方法,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘,最后以中国汽车市场为例,挖掘消费者对不同类型、不同型号、不同价格轿车的购买偏好.  相似文献   

10.
基于数据挖掘的个性化网页推送服务模式研究   总被引:1,自引:1,他引:0  
为满足用户及时获取个性化信息的需求,利用数据挖掘中的聚类分析方法对Web日志数据进行聚类,对网站已有用户的访问行为进行划分,得出各类别用户网页推送的数据集;采用关联规则方法提取聚类结果中各个簇的访问规则,完成个性化页面推送服务。结果表明该模式能够实现网站个性化页面推送的功能。  相似文献   

11.
介绍了一种多策略联合信息抽取方法——MSCIE(Multi-Strategy Comtbination Information Extraction).MSCIE将对表格式网页的信息抽取分为基于网页结构特征分析的信息抽取和基于模式匹配的信息抽取,提出了一种对网页DoM(Document Object Moclel)树的冗余信息进行剪枝分析的方法和一种实体特征模式发现算法分别用于这两种信息抽取方法,并通过两种策略联合完成信息抽取工作.应用于互联网竞争情报监测系统中,从大量网站中抽取多种商品的供求信息,取得了较高的准确率和召回率(平均在95%以上)。  相似文献   

12.
网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTMLDOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页U1KL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。  相似文献   

13.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

14.
基于多知识的Web网页信息抽取方法   总被引:10,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

15.
一种全自动生成网页信息抽取Wrapper的方法   总被引:6,自引:2,他引:4  
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。  相似文献   

16.
随着互联网的发展,网络论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。该文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,该文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明该文提出的方法能够有效地提升论坛检索系统的效果。  相似文献   

17.
一种基于语义匹配的Web信息提取方法研究   总被引:1,自引:0,他引:1  
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。  相似文献   

18.
传统的主题抽取方法单纯依靠分析网页内容的来自动获取网页主题,其分析结果并不十分精确.在WWW上,网页之间通过超链接来互相联系,而链接关系紧密的网页趋向于属于同一主题、基于这一思想,本文提出了一种利用Web链接结构信息来对主题抽取结果进行求精的方法,其通过所链接网页对本网页的影响来修正本网页的主题权值.本文还通过一个实际应用例子,分析了这一方法的特点。  相似文献   

19.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

20.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号