排序方式: 共有3条查询结果,搜索用时 17 毫秒
1
1.
一种使用双阈值的数据仓库环境下重复记录消除算法 总被引:2,自引:1,他引:2
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的阈值将导致误检率上升。文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。 相似文献
2.
基于Linux集群的Web服务的研究和构建 总被引:8,自引:1,他引:8
集群是指将两台或更多的互连的计算机整合在一起,对外表现为一个统一的计算资源。它通常有三个特征:高性能、高可用性和可伸缩性。该文在深入研究集群技术后,根据用户构建高性能、高可用性实用Web服务的需求,提出了一个基于Linux集群的解决方案,并在增强其可管理性,可靠性方面进行了探讨,使其达到实际应用需求。 相似文献
3.
1