首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 843 毫秒

1.  基于DOM模型扩展的Web信息提取  被引次数:5
   顾韵华  田伟《计算机科学》,2009年第36卷第11期
   提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.    

2.  基于DOM的Web主题信息提取系统的设计与实现  
   那赫《计算机与网络》,2010年第7期
   本文在深入分析国内外相关研究工作的基础上。提出了一种新的网页主题信息提取方法。基于STU—DOM模型,设计了基于该模型的HTML结构过滤和分块算法以及基于主题相关度的剪枝算法.设计并实现了网页主题信息提取系统。    

3.  企业社会媒体主题信息提取算法研究  
   孙宝华《煤》,2014年第1期
   鉴于已有信息提取方法的可改进之处,结合对HTML网页性质的统计和分析,针对社会媒体中的用户生成数据,提出一种网页主题信息提取算法。算法依据DOM的树型结构特点,充分考虑节点中非链接文字总数和超链接总数这些语义信息,对其进行基于HTML标签的过滤和基于语义的剪枝,能够准确地提取出网页HTML文档的主题信息。实验证明,提取到的主题信息具有较高的准确性和完整性。    

4.  树和模板的文献信息提取方法研究*  被引次数:1
   李文立  王乐超  宋春雷《计算机应用研究》,2010年第27卷第12期
   教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。    

5.  基于DOM和网页模板的Web信息抽取  
   王丽  唐建雄《数字社区&智能家居》,2007年第18期
   文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.    

6.  面向Web的新闻网页正文信息抽取策略研究  
   Chen Leilei Zhang Rujing《数字社区&智能家居》,2008年第Z2期
   本文介绍了一种结合STU-DOM树和文本字数统计的新闻网页正文信息抽取方法,它赋予节点语义属性后,过滤主题无关节点,最终利用相关标记包含的中文字符数从中选择包含正文信息的节点。这种策略能够准确地提取正文内容外,还无损地保留了正文中与主题相关的链接。    

7.  网页数据自动抽取系统  被引次数:6
   王茹  宋瀚涛  陆玉昌《计算机工程与应用》,2004年第40卷第19期
   在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOM based Automatic Extraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。    

8.  基于DOM的网页主题信息的抽取  被引次数:1
   刘军  张净《计算机应用与软件》,2010年第27卷第5期
   随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。    

9.  网页信息提取技术  
   邵振凯《计算机技术与发展》,2013年第9期
   随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。    

10.  基于DOM树和DBSCAN算法的Web信息提取  
   何云钢  曹宝香《电子技术》,2015年第6期
   文章针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法,提出了新的Web信息提取算法.并详细介绍了构建DOM树和基于DBSCAN算法的网页内容提取.最后通过实验证明该算法能有效地获取网页中的正文信息,不依赖于网页结构,具有较强的通用性.    

11.  基于DIV标签树的网页主题信息抽取方法①  
   欧阳柳波  杨柱  易显《计算机系统应用》,2010年第19卷第5期
   随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。    

12.  基于DIV标签树的网页主题信息抽取方法①  
   欧阳柳波  杨柱  易显《计算机系统应用》,2010年第19卷第7期
   随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。    

13.  基于DOM树的网页去噪技术  
   朱逢春《电子制作.电脑维护与应用》,2015年第8期
   在网页文本信息自动采集的实际应用中,网页检索采集到的资源存在着大量与网页主题内容无关的“噪音”信息,本文主要内容是研究基于DOM树的网页去噪技术,通过对网页结构的转化,将网页转化成DOM树,在此基础上过滤掉网页噪音信息,提取网页文本的正文内容。    

14.  网页结构模板生成新方法研究  
   冯少卿  都云程《北京机械工业学院学报》,2007年第22卷第3期
   Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.    

15.  一种基于信息熵的Web页面主题信息抽取方法  
   贺智平  徐学洲  李爱玲《计算机工程与应用》,2007年第43卷第4期
   提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以厦PDA等移动设备的信息获取方面。    

16.  一种基于人工策略的WEB信息精确提取系统  
   刘玲《四川建材学院学报》,2009年第2期
   如何从海量的WEB信息中提取感兴趣的内容,传统的基于关键字检索的信息提取方法,适用于较为复杂的信息环境。针对特定信息的提取,提出了一种利用DOM树及HTML标签实现大量的特定格式化信息的精确提取方法。实验结果表明,在提取特定WEB信息的应用中达到100%的精确提取率。    

17.  基于局部语义的网页净化算法  
   谢华  刘卫国《计算机系统应用》,2007年第16卷第5期
   网页净化算法的目的是除去影响搜索引擎获取网页主题的噪音.本文提出一种基于局部语义的网页净化算法.算法遍历转化成DOM树后的网页,通过计算相邻节点的相似度,确定局部语义节点范围,然后提取局部语义信息,建立局部语义树模型,最后除去与网页主体的相关性低于预定阈值的局部语义节点,达到网页净化的目的.实验表明算法是有效的.    

18.  基于正文特征及网页结构的主题网页信息抽取  
   段晓丽  王宇  谷静  刘玮楠《计算机工程与应用》,2012年第48卷第30期
   Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。    

19.  航班信息抽取规则的自动生成技术  
   张志远  徐涛  冯霞《计算机工程》,2011年第37卷第6期
   在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。    

20.  网络信息采集中链接与主题相关性的判定研究  
   王兰成  朱建华《计算机应用与软件》,2012年第29卷第5期
   面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号