首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
垂直搜索引擎需要对网页的内容进行提取,信息提取算法是研究的关键内容之一,文章提出一种新的基于行模式的索引网页的信息提取算法,该算法基于网页结构,具有较高的分析速度与准确率,使信息的分析与提取变得简单高效。  相似文献   

2.
由于网页信息呈现的多样性和复杂性,基于Web数据挖掘的信息提取准确率不高。为了提高科技专家Web信息挖掘的正确率,提出一种基于Web数据挖掘的多因素科技专家信息提取方法,对于网页给定统一资源定位符(URL)先进行网页正文提取,综合特征词在网页正文中的位置及特征词与特征词之间的距离构成最短距离匹配方法,抽取科技专家姓名、性别、出生年月、出生地点、职称等信息。实验结果表明,该方法获得了94.43%的查全率和92.34%的准确率,较好地满足了应用需求。  相似文献   

3.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

4.
视频内容安全分析,是多媒体内容安全的重要研究领域和热点问题。本文提出一种Web新闻视频内容语义分析方法,该方法在新闻视频故事单元分割的基础上,根据ASR(Automatic Speech Recognition)识别的脚本在语音上的相似性,通过计算拼音相似度的方法来获取语义关键词。然后,利用Web获得与脚本相似的网页,从而得到新闻片段比较准确的内容语义。通过对TRECVID2005内中文新闻视频CCTV4_NEWS进行的实验表明,提出的方法是可行的。  相似文献   

5.
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。  相似文献   

6.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

7.
基于文件过滤驱动的网页防篡改方法研究   总被引:1,自引:0,他引:1  
为了避免Web页面被篡改,提出了一种文件过滤驱动的分布式网页防篡改系统.系统包括Web文件监控、内容发布、Web代理、备份恢复、监控中心5个子系统,并采用Windows文件过滤驱动实现Web文件监控,基于代理实现Web入侵检测,具备灾难备份恢复功能,可以有效地防止网站内容被篡改,适用于各种编程语言和Web服务器.实验对Web文件监控做了功能性验证.  相似文献   

8.
大量的不规范表结构信息是当前Web信息提取所必须解决的问题.在现有方法基础上,给出了归纳学习相邻属性间上下文规则集算法,提出了以Web页为粒度的属性转换机和有限状态自动机包装器概念,最后介绍了采用有限状态自动机包装器提取不规范表结构Web信息的算法.  相似文献   

9.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。  相似文献   

10.
提取和恢复嵌入信息是隐写分析的最终目的,嵌入算法识别是秘密信息提取的前提。目前研究者针对隐写算法识别提出了多种隐写分析系统,但这些系统各有优缺点,因此实际应用中难以取舍。文章提出基于模糊积分的多分类器融合方法来识别JPEG图像隐写算法。实验结果表明,相对于单个隐写分析系统,通过分类器融合后识别精度提高约5%。  相似文献   

11.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

12.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

13.
针对传统Web服务在服务发现中存在效率低的问题,应用语义Web技术和本体理论,提出了一种基于相似度的语义Web服务发现模型。采用Web本体语言(OWL-S)描述Web服务,发布服务时包含充分的语义信息,在服务搜索中加入本体推理过程,综合度量服务的功能匹配程度和信誉值。实验结果表明,语义Web服务发现方法的查准率和查全率高于UDDI基于关键字的查找方法。  相似文献   

14.
源自当今互联网的语义网研究的目的是定义信息语义和网络服务,因此需要赋予网络智能以便能够自动对网络内容进行推理。各种描述逻辑(DLs)在语义网的研究中扮演着重要角色,构成了W3C推荐的网络本体语言(OWL)的基础,而OWL源于为达到语义网目标的人工智能(AI)本体论研究。语义网的知识和数据量巨大、分散、来源众多且因此通常不具有协调性。因此,必须开发针对非协调本体的实用的推理技术。该文基于Hunter的拟经典逻辑(QCL),构造了新型超协调拟经典描述逻辑(QCDLs),避免了逻辑爆炸问题,同时,针对基于非周期TBox的知识库推理问题,建立了QCDLs语义表演算,进而定义了一种可靠、完备且可判定的推理关系,从而构建了完整的语义网推理框架。与其他重要的超协调描述逻辑进行了比较,结果表明QCDLs具有更强的表达语义和推理能力,并且其相关行为在目标层次上表现出经典性。  相似文献   

15.
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.  相似文献   

16.
The information integration method of semantic web based on agent ontology (SWAO method) was put forward aiming at the problems in current network environment, which integrates, analyzes and processes enormous web information and extracts answers on the basis of semantics. With SWAO method as the clue, the following technologies were studied: the method of concept extraction based on semantic term mining, agent ontology construction method on account of multi-points and the answer extraction in view of semantic inference. Meanwhile, the structural model of the question answering system applying ontology was presented, which adopts OWL language to describe domain knowledge from where QA system infers and extracts answers by Jena inference engine. In the system testing, the precision rate reaches 86%, and the recalling rate is 93%. The experimental results prove that it is feasible to use the method to develop a question answering system, which is valuable for further study in more depth.  相似文献   

17.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

18.
针对异构环境和多媒体技术的复杂性为建立多媒体通用平台所带来的困难,利用Web Service技术建立了一个跨平台、跨语言、松散耦合的分布式多媒体应用平台,整合了H.264编码器和基于内容图像检索的2个应用实例,并详细介绍了平台架构、优越性以及实现方法.服务器端利用现有的应用服务器,部署Web Service,提供H.264的编码服务以及按内容匹配图像的服务.客户端采用传统windows GUI程序,浏览器以及嵌入式平台模拟器进行访问和调用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号