排序方式: 共有13条查询结果,搜索用时 19 毫秒
1.
2.
连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。 相似文献
3.
模糊kNN在文本分类中的应用研究 总被引:1,自引:0,他引:1
自动文本分类是根据已经分配好类标签的训练文档集,来对新文档分配类标签.针对模糊kNN算法用于文本分类的性能进行了一系列的实验研究与分析.在中英文两个不同的语料集上,采用四种著名的文本特征选择方法进行特征选择,对改进的模糊kNN方法与经典kNN及目前广泛使用的基于相似度加权的kNN方法进行实验比较.结果表明,在不同的特征选择方法下,该算法均能削弱训练样本分布的不均匀性对分类性能的影响,提高分类精度,并且在一定程度上降低对k值的敏感性. 相似文献
4.
基于类信息的文本特征选择与加权算法研究 总被引:3,自引:1,他引:2
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。 相似文献
5.
林永民王涵赵德信孙玉娟 《建筑经济》2023,(1):77-83
当前装配式建筑数字化应用中的BIM软件间集成效率低、BIM设计软件无法与智能化加工设备对接、信息传递在装配式产业链中出现脱节等问题没有得到很好解决。本文依托BIM技术,结合计算机辅助工艺设计系统(CAPP)、企业资源计划平台(ERP)、制造执行系统平台(MES)构建装配式建筑信息管理平台。以SH市某装配式建筑项目为例,从协同深化设计、构件生产、物流运输和现场装配四个阶段,分析各阶段信息管理平台的应用情况,以期为提升装配式建筑信息化管理水平提供参考。 相似文献
6.
文本特征加权方法TF·IDF的分析与改进 总被引:2,自引:0,他引:2
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用.但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu.实验结果表明,这种加权方法具有很好的分类性能. 相似文献
7.
本文在讨论数据结构课程教学过程中存在问题的基础上,从理论教学和实验教学两个方面提出了相应的教学方法。通过教学实践表明,本文提出的教学方法有助于提高数据结构课程的教学质量。 相似文献
8.
9.
针对传统的信息检索方法无法实现用户查询的语义理解、检索效率低等问题,本文提出基于领域本体进行查询扩展的贝叶斯网络检索模型。该模型首先将用户查询通过领域本体进行语义扩展,然后将扩展后的查询作为证据在贝叶斯网络检索模型中进行传播,进而得到查询结果,实验表明本文提出的贝叶斯网络检索模型能提高检索效率。 相似文献
10.
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。 相似文献