共查询到19条相似文献,搜索用时 187 毫秒
1.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统. 相似文献
2.
包骏杰 《重庆科技学院学报(自然科学版)》2003,5(2):57-59
随着社会的信息化和各种媒体的数字化 ,Web数据挖掘逐渐成了一个研究热点。作者结合信息检索技术和数据挖掘技术设计并实现了Web信息聚类引擎系统 ,使其能够以语义的和在线的方式对搜索引擎的搜索结果进行聚类 ,从而使用户很容易地在WWW上找到自己真正需要的信息。 相似文献
3.
一种聚类引擎系统的研究与实现 总被引:2,自引:0,他引:2
包骏杰 《重庆石油高等专科学校学报》2003,5(2):57-59
随着社会的信息化和各种媒体的数字化,Web数据挖掘逐渐成了一个研究热点。作者结合信息检索技术和数据挖掘技术设计并实现了Web信息聚类引擎系统,使其能够以语义的和在线的方式对搜索引擎的搜索结果进行聚类,从而使用户很容易地在WWW上找到自己真正需要的信息。 相似文献
4.
信息抽取技术在LBS中的应用 总被引:1,自引:0,他引:1
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。 相似文献
5.
6.
7.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。 相似文献
8.
分析了Web服务技术与数据仓库相结合的优势,提出了一种基于Web服务技术的分布式数据仓库模型,该模型采用XML的消息传递机制实现了分布式计算。将Web服务技术与数据仓库相结合,扩充了数据仓库的网络功能,解决了与服务器端数据交换的效率、提高了客户端的执行效率,从而可以方便地从大量的数据中抽取有价值的信息,因此.企业和用户能够更加方便地获取信息。 相似文献
9.
基于隐马尔可夫模型的招聘网络信息抽取 总被引:1,自引:0,他引:1
俞琰 《北京电子科技学院学报》2008,16(4):93-98
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。 相似文献
10.
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术-文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望. 相似文献
11.
为解决站内搜索引擎页面和用户之间的交互性,用公用网关接口技术CGI完成动态网页的制作。由Web浏览器提交搜索引擎页面的查询语句给web服务器后,Web服务器调用搜索程序,把检索到的相关结果再回传给web服务器和web浏览器,通过CGI技术成功实现了浏览器和可执行程序之间的动态交互性,达到用户快速获得查询信息的目标。系统介绍了用CGI程序实现搜索引擎页面的提交和编码转换处理的实施步骤。实验表明,用C语言编写的CGI脚本程序能够很好的实现用户和页面的交互性。 相似文献
12.
搜索引擎的本质在于信息聚合,把处于各地的信息通过有限个关键词聚合到一个展示窗口中,而这种信息聚合受到开放式搜索引擎内在制约,难于进行细致的信息处理和深度聚合。在信息发达的当今社会,越来越多的行业、企业需要更加特定的信息聚合方式,了解媒体口碑和普通网民口碑。因此迫切需要一种廉价的领域可移植的信息聚合方法适应这样的要求,然而,核心的难点在于自动获得领域词汇,这成为解决领域可移植的首要难点,也就是说系统能沟通过尽可能少的词汇,获得属于该领域的全部词汇,而且这种领域词汇具有时新性,保持和领域的同步更新。通过对搜狗和百度两家企业的信息聚合实现了低成本,可大规模移植的要求。 相似文献
13.
互联网上的信息资源是以分散和无序的形式存在的,一般的搜索引擎的搜索面很宽,但其搜索深度不够.而采用智能主体对不同来源的信息资源进行集成、管理,解决了分布式系统中的异地不同领域用户信息资源共享问题. 相似文献
14.
李兰兰 《武汉纺织工学院学报》2009,(1):45-48
提高搜索引擎检索结果的精度并向用户提供个性化信息查询服务已经成为搜索引擎技术的一个研究热点。搜索引擎个性化信息查询服务技术有Web挖掘技术、基于移动Agent的个性化信息服务技术等,介绍了基于Web挖掘的个性化技术的发展趋势。 相似文献
15.
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里准确地、迅速地查找自己所要的信息受到各方面因素的影响。针对这种情况,本文从搜索引擎的分类、各种搜索引擎优缺点进行了比较、指出了每种搜索引擎在今后的研究过程中应注意的侧重点,为搜索引擎在信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的进一步应用提供参考。 相似文献
16.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。 相似文献
17.
A new information search model is reported and the design and implementation of a system based on intelligent agent is presented. The system is an assistant information retrieval system which helps users to search what they need. The system consists of four main components: interface agent, information retrieval agent, broker agent and learning agent. They collaborate to implement system functions. The agents apply learning mechanisms based on an improved ID3 algorithm. 相似文献
18.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。 相似文献
19.
为解决信息检索时不同用户对搜索结果有不同期望的问题,提出了一种基于向量空间模型的个性化网页搜索算法.针对用户不同兴趣,利用用户画像能够更加全面地表示用户兴趣的特点,通过向量空间模型建立用户画像来表达用户兴趣,结合传统的网页排序算法得出最终的网页排序结果.对于不同用户可得到不同的网页搜索结果,排序靠前的网页中符合用户兴趣... 相似文献