期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张世明覃正徐和祥夏德元《计算机工程》2010,36(3):76-78,8

针对《基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于Deep Web集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。相似文献

2.

kNN文本分类器类偏斜问题的一种处理对策 总被引：5，自引：0，他引：5

郝秀兰陶晓鹏徐和祥胡运发《计算机研究与发展》2009,46(1)

类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷.提出了文本训练集的临界点(criticaI point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权七NN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子问进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 相似文献

3.

基于个性化图书馆的Deep Web Crawler研究与实现

张云冬徐和祥胡运发邓河《计算机应用与软件》2009,26(4)

为了整合复旦图书馆数字化论文资源,来为教授提供个性化推荐服务,使用sniffer监听网络信息,模拟IE的浏览行为,实现了针对Vip、ISI和Metalib三个数据源的Deep Web Crawler,并研究了通用Deep Web Crawler的系统框架和功能模块. 相似文献

4.

基于用户兴趣模型匹配的资源检索算法的设计和实现

张世明覃正徐和祥郑衍衡《计算机应用与软件》2009,26(10):250-251,277

随着各种资源信息库的大量涌现,让用户从海量的资源信息库中找到自己感兴趣的资源成了每个资源信息库提供者迫切需要解决的问题,提出一种通过对用户兴趣模型与信息资源模型的匹配度比较从而实现资源精确检索的算法,并在相关系统中进行了实现.该算法对实现资源信息的个性化推荐也具有很好的借鉴价值. 相似文献

5.

基于距离与熵的混合属性数据流聚类算法 总被引：1，自引：0，他引：1

王述云胡运发范颖捷徐和祥《小型微型计算机系统》2010,31(12)

针对越来越多的应用领域要求数据流聚类算法能处理同时包含数值属性特征与分类属性特征的数据,同时由于在已有的流数据聚类算法中,大多只针对单一数据类型的聚类,为此,提出混合属性数据流聚类算法.该算法在聚类分析过程中,同时利用数值属性与分类属性来定义聚类对象问的相异性,保存了对象的完整信息,使得聚类结果更能真实反映数据流中数据的分布情况.实验结果表明,该算法具有良好的聚类质量及较快的数据处理能力,同时具有良好的可扩展性. 相似文献

6.

数据流中频繁项近似挖掘算法

王述云张成洪范颖捷徐和祥胡运发《小型微型计算机系统》2009,30(8)

提出新的数据结构ESBF(Extensible and Scalable Bloom Filter)-可扩展的Bloom Filter.并提出基于ESBF的数据流中频繁项近似挖掘算法,该算法在保证较高精度的同时,实现比同类算法具有更好的时间效率且在一般情况下具更好的空间效率,并证明只需ln(-M/lnρ)·e/ε·1/(ε·M)个计数器就能保证满足用户规定的误差ε及可信度ρ要求. 相似文献

7.

一种安全验证模式下Deep Web爬虫的研究

徐和祥张永忠胡运发《计算机应用与软件》2010,27(5):9-11,26

Deep Web信息大约是Surface Web信息的400到500倍,这些信息对传统搜索引擎不可见。Deep Web爬虫的研究,是搜索引擎获得Deep Web信息的重要步骤,仍处于研究的早期阶段。目前对于爬虫的研究,主要成果集中在Surface Web,而很少有对Deep Web爬虫的研究。分析Deep Web的访问模式,并在此基础上提出一种安全验证模式下Deep Web爬虫的算法。试验表明:该算法可以有效实现特定安全验证模式下的Deep Web信息的抓取。相似文献

8.

基于元数据语义模型的数字资源Top-N检索 总被引：1，自引：0，他引：1

下载免费PDF全文

徐和祥张世明《计算机工程》2010,36(22):272-273

提出一种以元数据为语义基础的用户查询模型用于数字资源的检索。通过改进传统关系库中的Top-N算法,以不同数据类型和元数据为语义基础,给出一种基于语义的相似度度量新方法。在此基础上开发一套智能检索系统,并将其用于上海教育资源库。应用结果表明,该系统可有效提高信息检索的准确度。相似文献

9.

基于Deep Web的教育资源检索系统

下载免费PDF全文

张世明覃正徐和祥夏德元《计算机工程》2010,36(3):76-78,82

针对联基础教育教学资源元数据应用规范》中资源建设标准的缺陷,提出一种基于DeepWeb集成技术的教育资源跨库检索系统设计方案。该系统包含知识发现、集成查询、知识库和系统监控等模块,加入了环境变化监控构件,并在多个环节中采用自动化方式。相似文献

10.

基于特征选择及Condensing技术的文本取样

郝秀兰陶晓鹏王述云徐和祥胡运发《模式识别与人工智能》2009,22(5)

作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能. 相似文献