首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于扩展标记图的Web信息抽取器   总被引:2,自引:0,他引:2  
王亮  朱征宇 《计算机工程》2005,31(8):159-161,191
介绍了一种新的Web信息抽取器,该抽取器基于扩展标记图模型,实观了数据和模式的分离,应用于Web检索系统中,能够有效地支持标记级实时信息检索、抽取和重组。还介绍了其在Web信息检索系统PowerSearcher中的实际应用。  相似文献   

2.
一种基于重复标记属性的多网页信息隐藏方法   总被引:3,自引:0,他引:3  
信息隐藏技术作为信息安全的热点,被应用于版权保护和隐蔽通信等领域.通过分析浏览器解析超文本标记语言的特性,提出重复标记属性的网页信息隐藏技术,同时针对网页中可隐藏信息量少的特点,采用了多网页隐藏方法.实验证明该方法的信息隐藏性较好,具有较高的使用价值.  相似文献   

3.
罗永莲  赵昌垣 《计算机应用》2014,34(10):2865-2868
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。  相似文献   

4.
基于扩展标记图的虚拟网页技术   总被引:2,自引:2,他引:0  
大量的Web信息资源采用HTML文档形式存放,带来诸多不利因素。其一,HTML文档因包含具体数据内容,不可避免地会涉及到数据冗余和一致性维护的问题。比如,在一个电子商场网站设计中,为服务于不同客户群,一双皮鞋的基础数据(厂家介绍、产品说明和图片等)可能会重复地放入多个网页中,如按分类、按品牌和按厂家等方式组织的网页。其二,HTML文档不利于构建新网页的重用,难以适应变化需求,如当有新客户群希望按老中幼年龄段来浏览商品时,新网页须从头组织,且可能产生新的数据冗余。其三,HTML文档的信息检索和查询优化较为困难。然而,关系数据模型中由于采用基表和视图技术,使类似问题得到很好解决。由此得到启发,提出了虚拟网页设计技术。通过建立素材库和定义扩展标记图,将网页的数据组织结构和具体内容分离,使问题得到较好解决。虚拟网页技术,还有利于借鉴标记图、OEM和OIM等数据模型已有研究成果,有利于Web查询语言和信息检索优化的研究。  相似文献   

5.
当前互联网的基础语言是HTML。HTML的核心是信息的显示,而不是信息的内容和结构。XML的出现扩展了标记语言的功能,允许用户根据需要自定义标记,具有数据内容与显示相分离、开放、跨平台等特点,能够从根本上解决分布式环境下基于异质平台的应用系统间的数据交换问题。因而,“以数据库存储和处理数据,以XML作数据交换媒介”逐渐成为数据管理的主流方式。  相似文献   

6.
XML语言在网页中的应用   总被引:1,自引:0,他引:1  
SGML是一种在互联网上发布信息所使用的"出版"语言,是所有计算机都能够理解的标准通用标记语言,目前流行的HTML、XML等语言是SGML的实际应用。本文对网页制作中使用的HTML、XML尤其是XML等标记语言相关知识做了介绍,比较了两种种语言的不同与优缺点。  相似文献   

7.
围绕网页的头部内容展开,介绍了网页标题title标记、基址base标记、链接文件的link标记等相关知识。通过对每个标记的详细介绍说明了网页头部内容的重要性,它和网页的主体一样发挥着重要的作用。  相似文献   

8.
基于XML元数据的研究与开发   总被引:2,自引:2,他引:2  
王津涛  白乃侠 《计算机工程与设计》2004,25(7):1086-1088,1103
XML(eXtensible Markup Language)可扩展标记语言是W3C组织于1998年2月发布的第二代Internet网页设计语言标准。XML的出现为Web应用注入了新的活力,其自定义标记语言的特点使标记更加灵活,语义明确。XML把显示格式从文档中分离出去,并使超链接属性具有自动跟踪功能。对XML元数据进行了相应的开发,创建和使用可搜索的元数据,使现有Web中的信息更加有用,可快速准确地获得所需数据,从而大大地提高了搜索引擎的效率。  相似文献   

9.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

10.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

11.
针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法。研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型。实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%。基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进。  相似文献   

12.
刘伟  严华梁  肖建国  曾建勋 《软件学报》2010,21(12):3220-3236
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.  相似文献   

13.
Olera is a semisupervised information-extraction system that produces extraction rules from semistructured Web documents without requiring detailed annotation of the training documents. It performs well for program-generated Web pages with few training pages and limited user intervention.  相似文献   

14.
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。  相似文献   

15.
The Web is a huge network composed of Web pages and hyperlinks. It is often reported that related Web pages are densely linked with each other. Finding groups of such related pages, which are called Web communities, is important for information retrieval from the Web. Several attempts have been made for the discovery of Web communities such as Kumar’s trawling and Flake’s method. In addition to the communities of related Web pages, there are communities of users sharing common interests. Finding the latter communities, which we called user communities in this paper, is also important for clarifying the behaviors of Web users. It is expected that the characteristics of user communities in the Web correspond to those in real human communities. A method for discovering user communities is described in this paper. Client-level log data (Web audience measurement data) is used as the data of users’ Web watching behaviors. Maximal complete bipartite graphs are searched from term-user graph obtained from the log data without analyzing the contents of Web pages. Experimental results show that our method succeeds in discovering many interesting user communities with labels that characterize the communities.  相似文献   

16.
一种全自动生成网页信息抽取Wrapper的方法   总被引:6,自引:2,他引:4  
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。  相似文献   

17.
一种基于语义匹配的Web信息提取方法研究   总被引:1,自引:0,他引:1  
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。  相似文献   

18.
Given a user keyword query, current Web search engines return a list of individual Web pages ranked by their "goodness" with respect to the query. Thus, the basic unit for search and retrieval is an individual page, even though information on a topic is often spread across multiple pages. This degrades the quality of search results, especially for long or uncorrelated (multitopic) queries (in which individual keywords rarely occur together in the same document), where a single page is unlikely to satisfy the user's information need. We propose a technique that, given a keyword query, on the fly generates new pages, called composed pages, which contain all query keywords. The composed pages are generated by extracting and stitching together relevant pieces from hyperlinked Web pages and retaining links to the original Web pages. To rank the composed pages, we consider both the hyperlink structure of the original pages and the associations between the keywords within each page. Furthermore, we present and experimentally evaluate heuristic algorithms to efficiently generate the top composed pages. The quality of our method is compared to current approaches by using user surveys. Finally, we also show how our techniques can be used to perform query-specific summarization of Web pages.  相似文献   

19.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号