共查询到18条相似文献,搜索用时 78 毫秒
1.
随着Internet的快速发展,网络已成为人们查询信息的重要渠道。Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一。在这些海量信息中,大多都是基于HTML的。该文提出一种基于HTML结构的Web就业信息抽取模型。 相似文献
2.
基于本体的WEB表格信息抽取 总被引:9,自引:0,他引:9
本文给出了一个基于本体的WEB表格信息抽取方法,在信息的抽取过程中,利用学习手段,逐渐完善本体的构造,从而增强本体对应用领域的描述能力,使系统的信息抽取自动化程度逐渐提高。 相似文献
3.
随着互联网的发展和普及,Internet上的信息急剧增长,能够自动获取适用,简单和精炼的信息,成为人们的迫切希望.同时针对农村互联网条件差而手机越来越普及的情况,我们设计实现了一个基于WEB信息抽取和GSM的主动服务系统.本文在分析农产品供求信息网页结构的基础上,提出了一种基于内容和web文档结构路径(DOM)相结合的信息抽取算法.最后实验结果说明该抽取算法能够很好地制定抽取规则并能够准确的抽取所需要的内容. 相似文献
4.
web信息抽取是对html文本中包含的信息进行结构化处理,抽取出有用的信息。本文提出了一种web信息抽取方法,通过清洗半结构化的HTML页面信息将其转化为结构化的XHTML格式信息,再利用DB29的SQL/XML语言,实现web信息的抽取。实验表明,该方法能够准确地提取数据块,正确抽取块内信息。 相似文献
5.
王立志 《网络安全技术与应用》2022,(3):12-13
随着互联网的快速发展,网络中的信息正在爆炸式地增长,网页作为网络中信息表达的方式之一,其结构也变得越来越复杂。而如何精确、高效地从网页中获取目标信息成为一个问题。本文总结现有的针对网页的信息抽取方法并加以分类,同时分析其优缺点,最后对未来的研究内容进行展望。 相似文献
6.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享. 相似文献
7.
8.
9.
吴振慧 《数字社区&智能家居》2006,(12):21-21,24
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。 相似文献
10.
11.
对因特网中一些重要数据信息进行还原和提取,是保证网络应用的健康发展和打击网络犯罪的一个重要手段。根据因特网中的实时网络数据大多基于HTTP协议进行构建与传输这一应用背景,针对HTTP1.1中增加的持续性连接(Persist Connection)与块编码(Chunked Encoding)技术,探讨了在新技术下的信息还原方法,实现了对某些应用场合所关心数据的还原、提取和存储。所给出的还原方法经实践验证,处理效率和效果达到了预期目标,对识别因特网中的不良网页信息具有较大的实用价值。 相似文献
12.
WEB上存在着大量数据,为了有效地利用这些数据,必须把它们从WEB页面中获取出来存放到数据库中.本文首先介绍了WEB环境下数据获取的相关概念与技术,基于此,提出了一种基于XML的WEB数据获取系统结构,讨论了它的主要组成.最后,给出了系统的实现方法. 相似文献
13.
陈连波 《数字社区&智能家居》2009,5(2):1004-1005,1013
WEB信息系统交付一组复杂的内容和功能给大量的终端用户,使与服务器连接的所有客户机都能共享使用WEB信息系统提供的内容和功能。WEB信息系统测试通常包括:功能测试、性能测试、可用性测试、安全性测试、系统兼容性测试和接口测试。 相似文献
14.
WEB信息检索与WEB数据挖掘 总被引:12,自引:0,他引:12
首先分析了WEB信息检索的现状,主要针对WEB信息检索的局限性,引出WEB数据挖掘,并对WEB数据挖掘技术作了概要的介绍。然后,讨论了WEB数据挖掘与WEB信息检索之间的关系,最后阐述了如何将WEB数据挖掘的研究成果应用到WEB信息检索领域中,从而提高WEB信息检索的效率和质量。 相似文献
15.
于春燕 《数字社区&智能家居》2007,(21)
根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据. 相似文献
16.
于春燕 《数字社区&智能家居》2007,(11):599-600
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。 相似文献
17.
18.
基于Ontology的信息抽取 总被引:17,自引:0,他引:17
为了提高Internet上的信息搜索效率,基于内容的搜索引擎成为迫切的用户需求。但内容信息的手工获取是一项繁重的工作。从文本或半结构化文档中自动地抽取用户关心的内容信息且表示成计算机能理解的形式是一项极具实用价值的挑战性研究。该文从知识表示与推理的角度研究了提高信息抽取智能性的途径,提出了将Ontology与模板规则相结合的技术,并针对线性模板表示的局限提出了基于二侧树结构的模板规则表示,同时实现了此表示下的假设生成———冲突消解推理。该技术成功地应用于招聘广告的信息抽取。 相似文献