共查询到20条相似文献,搜索用时 205 毫秒
1.
2.
模糊C均值聚类算法在Web使用挖掘上的应用研究 总被引:5,自引:3,他引:2
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提.通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度.在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类.实验表明改进的FCM算法的有效性. 相似文献
3.
4.
Web日志中含有大量的用户浏览信息,从中将相似用户及相关页面进行聚类是建立自适应网站的必要前提。通过基本的预处理,实现了日志的数据净化、用户识别会话识别及数据规约,形成了用户访问页面的序列数据库,同时通过离散化技术计算出用户访问页面频度。在这些数据准备工作的基础上,构造了用户一页面关联矩阵,作为改进的模糊C均值聚类算法的输入,实现了相似用户及相关页面的聚类。实验表明改进的FCM算法的有效性。 相似文献
5.
Web页面两种模型对照研究 总被引:3,自引:1,他引:2
Web技术可实现Internet上跨平台超文本和超媒体的链接,使得信息查询和发布方便快捷,于是Web页面的相关技术有了深入的发展,出现了静态和动态两种页面模型。对这两种模型页面的模型及其原理、页面制作、信息(数据)传送方式、数据库的连接与访问技术等四个方面进行了对照研究。 相似文献
6.
序列数据是一种重要的数据类型,在诸多领域都有应用,比如说文本、生物数据库以及Web访问日志等。在对该类型数据进行分析的时候,对于相关信息的获取一般都是通过相似性查询得到的。本文首先根据序列查询算法的特点,提出了SSQ_MF,也就是多重过滤算法。并在此基础上设计了最优过滤顺序模型和过滤集大小估计的相关实验。实验结果表明,SSQ_MF算法的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法。 相似文献
7.
WEB数据库应用程序安全性设计的一种实现 总被引:8,自引:0,他引:8
Web应用程序和数据库结合可以创建动态页面,从而建设功能强大的商务网站。但是由于HTTP协议的无记忆性,使得每个Web页面相互独立,页面之间缺少必然的因果关系,可以通过URL跳过某个页面而直接去访问其它页面,使得基于Web应用程序数据访问的安全存在很大问题。文章对此进行了讨论,并给出解决该问题的一种方法,即用户所访问的页面必须经过权限验证页面的认可才能访问,并用程序进行了实现。 相似文献
8.
9.
都艺兵 《电脑编程技巧与维护》1999,(5):36-37,40
一、World Wide Web的最大好处之一是能与上百万的用户交互以获得和提供不同的信息,由于这些信息的动态本质,仅有静态HTML页面是不够的,因此需要有一种方法来向访问Web站点以获得所需信息的用户显示动态信息。随着网络技术的高速发展,基于Web/lnternet的Intranet正改变着信息系统的构成模式,现有的数据库系统需要和Web或Internet/Intranet集成,使得可以通过Internet的浏览器访问数据库中的信息,并且可以创建基于Web/Intranet的联机事务处理。如何将数据库信息发布到Web上,创建含有数据库信息的动态页面?最常用的中间件技术有CGI(通用网关接口)和 相似文献
10.
一种基于Web的数据库访问技术 总被引:5,自引:0,他引:5
基于 Web页面访问数据库技术是当前研究的热点方向之一 ,本文介绍了 Web的一般访问结构和数据库体系结构 ,讨论了一种基于 Power Builder的 Web页面访问数据库的技术 ,提出了正确引用此技术的方法 . 相似文献
11.
抽取网页中的行情数据进行预测和分析具有重要意义。提出了Web中的行情数据抽取算法,该算法主要基于“行情数据通常在网页中表现为区域最大的数据表格”等实践规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法自动抽取行情区域而无需用户定义抽取数据区域。设计了一个农产品价格预测原型系统,该系统针对某个农产品,自动从特定网站获取价格数据,对月度价格进行预测,实验表明预测性能较好。 相似文献
12.
针对小文本的Web数据挖掘技术及其应用 总被引:4,自引:2,他引:4
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。 相似文献
13.
随着网络技术和电力信息化业务的不断发展,网络信息越发膨胀,将导致互联网和电力信息网中存在海量网页冗余的现象,这类现象将会使数据挖掘、快速检索的复杂度加大,从而对网络设备和存储设备的性能带来了巨大的挑战,因此研究海量网页快速去重是非常有必要的。网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发,但是针对海量网页去重问题,目前还没有很好的解决方案,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出了一种快速去重算法IMP-CMFilter。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。实验表明,IMP-CMFilter算法的有效性。 相似文献
14.
15.
Daiyue Weng Jun Hong David A. Bell 《International Journal of Software and Informatics》2012,6(3):453-472
A rapidly increasing number of Web databases are now become accessible via their HTML form-based query interfaces. Query result pages are dynamically generated in response to user queries, which encode structured data and are displayed for human use. Query result pages usually contain other types of information in addition to query
results, e.g., advertisements, navigation bar etc. The problem of extracting structured data from query result pages is critical for web data integration applications, such as comparison shopping, meta-search engines etc, and has been intensively studied. A number of approaches have been proposed. As the structures of Web pages become more and more complex, the existing approaches start to fail, and most of them do not remove irrelevant contents which may affect the accuracy of data record extraction. We propose an automated approach for Web data extraction. First, it makes use of visual features and query terms to identify data sections and extracts data records in these sections. We also represent several content and visual features of visual blocks in a data section, and use them to filter out noisy blocks. Second, it measures similarity between data items in different data records based on their visual and content features, and aligns them into different groups so that the data in the same group have the same semantics. The results of our experiments with a large set of Web query result pages in di?erent domains show that our proposed approaches are highly effective. 相似文献
16.
一种全自动生成网页信息抽取Wrapper的方法 总被引:6,自引:2,他引:4
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。 相似文献
17.
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 相似文献
18.
根据用户行为网上导航的方法 总被引:3,自引:0,他引:3
随着因特网的成长,网络浏览使人们从本地或远程更方便地获取各种信息.网页数量的疯狂增长已经使得用户面对庞大的数据群无所适从,急需导航技术的帮助.一个新的马尔可夫链模型被引入用来跟踪所有团体成员的网页访问活动,并且推荐一些有用站点,引导人们更有效率地浏览网站.还提出一个基于半形式化过程描述的数据搜集算法,来获得有用数据,以推导出最好结果,并在原型系统中分析了代理服务器上的访问日志,对该算法进行描述. 相似文献
19.
20.
Deep Web数据集成研究综述 总被引:24,自引:1,他引:24
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析. 相似文献