首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 593 毫秒

1.  采用树自动机推理技术的信息抽取方法  被引次数:1
   谭鹏许  张来顺《计算机工程与应用》,2010年第46卷第16期
   提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。    

2.  基于DTA的信息抽取技术研究  
   谭鹏许  张来顺  滕婕《计算机应用与软件》,2009年第26卷第12期
   针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。    

3.  基于网页结构树的Web信息抽取方法  被引次数:10
   陈琼  苏文健《计算机工程》,2005年第31卷第20期
   提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。    

4.  机械产品专利技术方案信息抽取方法  被引次数:5
   王朝霞  邱清盈  冯培恩  谢双喜《机械工程学报》,2009年第45卷第10期
   专利因其创新性和实用性的特点成为概念设计的重要知识资源,结构化专利技术方案信息抽取是专利设计原理知识挖掘的基础工作。针对机械产品专利,描述了面向概念设计知识需求的专利技术方案概念模型,将专利技术方案信息抽取任务分解为技术组件抽取和技术关系抽取两部分。研究专利信息抽取知识库建设,利用非确定有限状态自动机识别技术组件,采用专业术语词典进行技术组件语义分析,以框架语义学为理论基础,构建用于技术关系抽取的专利动词语义框架库。提出基于自然语言理解的技术方案信息抽取过程,研究浅层句法分析和语义分析的关键技术,并以美国专利为例进行说明,结果表明该方法可自动获取结构化专利技术方案信息,有助于专利在概念设计中的深入应用。    

5.  面向分层结构的网页分类与抓取  
   王振宇  唐远华  郭力《计算机工程与科学》,2012年第34卷第11期
   传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。    

6.  基于后缀树的Web论坛信息抽取  
   肖建鹏  张来顺  任星  宋晓光《计算机工程与设计》,2008年第29卷第7期
   针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法.将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA(非确定型有穷自动机)达到抽取论坛信息的目的.该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题.实验结果表明,该方法具有较高的准确性和实用性.    

7.  模式发现在Web抽取中的应用及设计  被引次数:3
   蔡霞  张森  周宇《控制工程》,2003年第10卷第3期
   WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。    

8.  基于CSS选择器的HTML信息抽取研究  
   刘全志  于治楼《信息技术与信息化》,2015年第3期
   基于网页结构特征的信息抽取是现阶段最为常用的抽取手段。为了将待抽取的信息从DOM树中准确地抽取出来,需要对欲抽取的信息进行准确地定位。本文提出了一种新的定位方法,在HTML DOM树的基础上,借助于CSS选择器,抽取所需要的信息。    

9.  新闻网页主题内容提取方法研究  
   罗永莲  秦振吉《微计算机应用》,2007年第28卷第5期
   网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。    

10.  网页结构化信息抽取技术方法研究  被引次数:2
   郝爱峰《山西电子技术》,2008年第4期
   分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。    

11.  基于内容相似度的网页正文提取  被引次数:6
   王利  刘宗田  王燕华  廖涛《计算机工程》,2010年第36卷第6期
   提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。    

12.  基于网页聚类的Web信息自动抽取  
   邱韬奋  杨天奇  曾洪波《微型机与应用》,2011年第30卷第4期
   针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。    

13.  基于预定义模式的Web网页结构化数据抽取  
   王红卫  马红  张素智  赵宇《郑州轻工业学院学报(自然科学版)》,2008年第23卷第6期
   设计了一种基于预定义模式W eb网页结构化数据抽取包装器软件.该软件利用最新W eb技术、信息处理技术、人工智能技术对W eb网页结构化信息解析,从非结构化的、不包括任何语义的HTML文档中抽取结构化语义数据.选取了几个出版社的新书发布W eb页面进行了数据抽取验证和抽取结果分析.结果表明该软件可实现W eb网页新书发布信息集成,并提供新书检索服务.    

14.  基于树先剪枝的网页正文抽取方法研究  
   王亮  高屹《科技创新与应用》,2013年第36期
   本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。    

15.  一种全自动生成网页信息抽取Wrapper的方法  被引次数:6
   梅雪  程学旗  郭岩  张刚  丁国栋《中文信息学报》,2008年第22卷第1期
   Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。    

16.  基于多层模式的多记录网页信息抽取方法  被引次数:3
   朱明  王军  王俊普《计算机工程》,2001年第27卷第9期
   为有效解决网页信息抽取所需知识的获取问题,提出一种基于多层模式的网信息抽取方法,(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结构所表成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容,有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网而信息自适应抽取能力。    

17.  基于统计的中文网页正文抽取的研究  
   ZHAO Wen  TANG Jian-Xiong  GAO Qing-Feng《数字社区&智能家居》,2008年第1期
   信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。    

18.  基于相似度的网页标题抽取方法  
   李国华  昝红英《中文信息学报》,2011年第25卷第2期
   目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系.该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题.实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力.    

19.  Web信息的自主抽取方法  被引次数:12
   许建潮  侯锟《计算机工程与应用》,2005年第41卷第14期
   提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。    

20.  基于主题词表和 FCA的网页语义概念树构建研究  
   孙亚琳  赵林林  杨小平《计算机应用研究》,2014年第11期
   针对用户使用网站效率低和网站质量差的问题,提出了利用形式概念分析(FCA)来构建网页语义概念树的方法。该方法首先利用信息抽取、自然语言处理等技术对网页集进行文本抽取、分词,提取出描述文本语义的特征词;再以主题词表为参照,设计基于搜索引擎的词语相似度算法,将抽取的特征词全部转换成主题词表中主题词,对将抽取的语义信息转换成形式背景,利用规则、聚类等技术对形式背景进行约简。最后通过设计的建格算法构建概念格,实现概念树构建。实验结果表明,利用该方法构建的概念树可以作为网站本体模型的基础,对语义评估具有积极的意义,具有一定的应用价值和借鉴意义。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号