排序方式: 共有12条查询结果,搜索用时 15 毫秒
1.
2.
为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,模拟IE的浏览行为,实现了针对Vip、ISI和Metalib三个数据源的Deep Web Crawler,并研究了通用Deep Web Crawler的系统框架和功能模块. 相似文献
3.
随着各种资源信息库的大量涌现,让用户从海量的资源信息库中找到自己感兴趣的资源成了每个资源信息库提供者迫切需要解决的问题,提出一种通过对用户兴趣模型与信息资源模型的匹配度比较从而实现资源精确检索的算法,并在相关系统中进行了实现.该算法对实现资源信息的个性化推荐也具有很好的借鉴价值. 相似文献
4.
基于距离与熵的混合属性数据流聚类算法 总被引:1,自引:0,他引:1
针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象问的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性. 相似文献
5.
kNN文本分类器类偏斜问题的一种处理对策 总被引:5,自引:0,他引:5
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point, CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 相似文献
6.
7.
Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。 相似文献
8.
提出新的数据结构ESBF(Extensible and Scalable Bloom Filter)-可扩展的Bloom Filter.并提出基于ESBF的数据流中频繁项近似挖掘算法,该算法在保证较高精度的同时,实现比同类算法具有更好的时间效率且在一般情况下具更好的空间效率,并证明只需ln(-M/lnρ)·e/ε·1/(ε·M)个计数器就能保证满足用户规定的误差ε及可信度ρ要求. 相似文献
9.
10.
基于本体的Deep Web查询接口分类 总被引:1,自引:0,他引:1
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%. 相似文献