排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
2.
为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,模拟IE的浏览行为,实现了针对Vip、ISI和Metalib三个数据源的Deep Web Crawler,并研究了通用Deep Web Crawler的系统框架和功能模块. 相似文献
3.
kNN文本分类器类偏斜问题的一种处理对策 总被引:5,自引:0,他引:5
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point, CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 相似文献
4.
基于距离与熵的混合属性数据流聚类算法 总被引:1,自引:0,他引:1
针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象问的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性. 相似文献
5.
随着各种资源信息库的大量涌现,让用户从海量的资源信息库中找到自己感兴趣的资源成了每个资源信息库提供者迫切需要解决的问题,提出一种通过对用户兴趣模型与信息资源模型的匹配度比较从而实现资源精确检索的算法,并在相关系统中进行了实现.该算法对实现资源信息的个性化推荐也具有很好的借鉴价值. 相似文献
6.
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。 相似文献
7.
提出新的数据结构ESBF(Extensible and Scalable Bloom Filter)-可扩展的Bloom Filter.并提出基于ESBF的数据流中频繁项近似挖掘算法,该算法在保证较高精度的同时,实现比同类算法具有更好的时间效率且在一般情况下具更好的空间效率,并证明只需ln(-M/lnρ)·e/ε·1/(ε·M)个计数器就能保证满足用户规定的误差ε及可信度ρ要求. 相似文献
8.
9.
10.
作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能. 相似文献