排序方式: 共有5条查询结果,搜索用时 15 毫秒
1
1.
对文本分类评测方法稳定性的研究 总被引:1,自引:0,他引:1
文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题,本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标newmacro-F1.这一评测指标将数据集的因素从评测过程中独立出来,使得newmacro-F1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集卜的分类质量. 相似文献
2.
"天网"目录导航服务研究 总被引:9,自引:0,他引:9
为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务。基本思想就是利用有指导的机器学习方法实现中文网页的自动分类。主要贡献有两点:①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集,这是实现中文网页自动分类的前提和基础;②针对中文网页信息的自身特性以及CHI方法的固有缺陷,提出一种自动清除“噪音”的特征选取算法,并实现了一个能够处理海量中文网页的分类器。实验结果表明该分类器有较高的分类质量,满足了搜索引擎目录导航服务的要求。 相似文献
3.
4.
5.
基于Web挖掘的个性化技术研究 总被引:20,自引:5,他引:20
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。 相似文献
1