首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径包含关键字的个数、包含路径的文档个数、路径的层次等影响关键字语义的因素,用于计算关键字权重,从而提高了关键字权重度量的准确性。在多个数据集上的实验结果表明,将该方法应用于XML文档的分类时,与传统的tf-idf方法和基于规则的方法相比,分类的查全率、查对率及F1均有所提高。  相似文献   

2.
以图文要素构成的word 2003版面存储文档为研究对象,提出了一种利用信息熵评估版面文档复杂度的方法.首先,从图像和文本存储特点出发,提出一种利用文件字节流信息熵度量版面全局复杂度的方案; 其次,将文件视为信源,每个字节视为信源符号,以二进制方式读取文件,然后根据字节相关性,采用N 次扩展信源计算信息熵; 最后,通过实验验证表明,本文方法切实可行,给出的版面全局复杂度定量描述不仅能很好地符合人的视觉直观感受,而且能够为版面数据可压缩性提供依据.  相似文献   

3.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

4.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

5.
传统的信息检索方法一般都采用对文本内容的词频进行分析的统计方法,这种索引方法仅仅考虑词语在文本中的出现率,因此不能抽取出表达文本语义的索引词。为了解决这个问题,本文提出了一种新的信息检索方法,即基于概念的权重索引方法。本方法引入了概念类的概念,并且提出了用概念之间存在的关系来表示文档中的词汇和概念的语义重要度。本方法比单纯的词汇信息更能体现文本的概念特征,提高信息检索的性能;同时还能降低文本向量的维数,减少计算量,提高检索效率。  相似文献   

6.
为改善余弦相似度不能反映词袋模型中词项间顺序差异的缺点,提出了一种基于编辑距离的文档相似度度量方法.首先分析了基于 tf - idf 的词袋模型和余弦相似度计算方法所存在的问题; 其次利用Jaccard系数和编辑距离描述两个字符串的公共子串中词语之间的顺序差异,并提出了一种词序敏感相似度计算方法; 最后利用实验数据对算法的有效性进行了验证,结果显示本文方法在Top1、Top3上的F1指标比原始的余弦相似度方法分别提高了0.082 5、 0.112 6,表明本文方法能够有效地提升信息检索系统的性能,具有很好的应用价值.  相似文献   

7.
针对传统方法在计算属性权重方面的不足,提出了一种与领域无关的基于Renyi熵的属性权重计算方法.基于概率论方法分析了属性的取值分布特征与属性权重之间的关系,并利用Renyi熵描述属性取值分布特征的合理性,最后得出基于Renyi熵的属性权重计算方法.该方法能从链接数据集中自动获取属性取值分布的Renyi熵,并自动计算出属性在共指分析中的权重.通过基于开放语义数据集的实验,以及与已有方法的结果对比,详细分析了该方法在属性权重计算方面的优势.  相似文献   

8.
针对文档互操作性测试目的,在分析互操作种类和需求的基础上,系统地定义了相关概念,提出了互操作度量模型,并实际度量了ODF、OOXML和UOF三种文档格式的互操作性。互操作性测试是系统互操作性的重要保障,所提出的文档互操作性度量方法为测试文档的互操作性提供了量化的依据。  相似文献   

9.
为了提高Web图像的检索质量,提出了一种融合文本关键字和图像视觉内容的Web图像检索方法.通过改进的图像自动标注模型,将Web图像本身所蕴含的低层视觉特征映射到图像高层语义特征,即图像文本标注;再将词汇相似性计算技术作为语义信息的度量手段,将图像文本标注转换成带有权重的文本标注;利用贝叶斯推理网检索模型内在的多信息融合能力,将带权重的Web图像文本标注特征和Web文档中的文本信息无缝地融合在一起实现Web图像检索.实验结果表明,将Web中的文本关键字和Web图像视觉内容融合起来可在一定程度上提高Web图像检索质量.  相似文献   

10.
文本相似度度量对于促进信息处理领域的发展具有重要意义。针对评论文本提出了一种基于树形结构的内容相似性度量方法。该方法利用评论文本的内容组织特征,将其分解为对应树各层之间的相似性度量,从而使得每层相似度的度量对象都为同类型的词语,进而分别采用合适的相似性度量方法,最后再对各层相似度赋予不同的权重,并通过融合树各层的相似度最终得到整体的相似度。在Amazon数据集上的实验结果表明文章方法较之于其它常见度量方法更加有效,准确率更高。  相似文献   

11.
针对传统雷达图的不足,提出一种改进的组合赋权雷达图,并用于电网电能质量综合评估.运用概率与数理统计的分析方法对主、客观赋权方法得到的指标权值分别处理,基于组合权值与原主、客观权值之间的偏差总和最小的优化思想,得到雷达图中各项指标的组合权值.根据组合权值对各指标对应的扇形区域排序并分配扇区大小,用扇形区域的对角线作为指标轴绘制雷达图.评估过程既突出各评估指标的不同重要性,又反映了指标之间的相互作用.通过算例和实际应用验证了组合赋权雷达图评估方法的合理性和在电能质量综合评估中的有效性.  相似文献   

12.
关于敏捷性评价指标权重的研究   总被引:4,自引:0,他引:4  
以动态联盟敏捷性评价指标的权重为研究对象,建立了综合赋权模型,将层次分析法、熵值法和均方差法综合,得到一个主客观综合赋权方法。使评价结果既可反映决策者的意志,又可避免评价结果的主观随意性,弥补了主观赋权法和客观赋权法的不足。该方法可以运用到敏捷性评价指标权值的确定中。  相似文献   

13.
一种新的基于粗糙集的案例特征权值确定方法   总被引:1,自引:0,他引:1  
为克服传统权值确定方法的主观性和任意性,探讨了粗糙集理论中知识熵的概念及度量方法,分析了案例特征属性的知识熵与权重之间的联系,提出了基于知识熵的案例特征权值确定方法.通过实例验证了运用该方法确定的权值具有更高的可信度.  相似文献   

14.
分形维数在城市发展综合实力分析中的应用   总被引:2,自引:0,他引:2  
在城市发展综合实力评价的研究中,求权重的方法多种多样.在分析部分主要方法的优点和不足的基础上,提出用分形维数求权重的方法,并结合东北地区90个城市发展的综合实力的排序分析,阐述利用分形维数求权重的方法在判断城市综合实力中应用的具体步骤.与传统求权重的方法相比,该方法能更客观地反映评判对象的差异.  相似文献   

15.
电动汽车电池换电站的选址定容是具有多变量和多约束的复杂非线性问题,?难以用一般的数学方法进行求解,本文对此提出一种Voronoi图与改进蝙蝠算法(Improved?Bats?Algorithm,?IBA)联合求解的选址定容方法.考虑集中充电站的影响,?建立以年建设投资成本、选址满意度和年电池换电成本为目标的多目标决策模...  相似文献   

16.
面向多属性多指标评估系统,在测评者对各指标及受测者都很熟悉的情况下,探索一种适合的赋权方法。主要阐述了熵权法的原理及计算过程,并结合实例进行应用分析,结果表明,熵权法比其他方法能更好地解决该情况下的指标赋权问题。由此得出结论:熵权法是非专业性评估系统中各指标的最佳赋权方法。  相似文献   

17.
为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类间分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.  相似文献   

18.
针对现有含分布式电源(DG)配电网在孤岛模式下运行时,负荷削减过程中对负荷赋权的随意性以及赋权途径过于单一的问题,提出一种基于层次-熵权法的主客观综合赋权算法.首先建立负荷重要程度衡量指标体系,其次基于层次分析法对负荷中各指标主观赋权,然后利用熵权法对各指标客观赋权,最后引入Kender和谐系数得出指标综合权重.该算法...  相似文献   

19.
为改进房地产投资决策方法,提出了以各权重向量偏差平方和最小为目标函数的复合权重方法.基于线性规划理论,从指标权重的确定入手,将主观赋权法(模糊层次分析,FAHP法)的主观权重和客观赋权法(熵分析法)进行有效结合,建立了基于复合权重方法的房地产投资决策模型,既能反映决策者的主观判断,又能反映客观数据的真实信息.具体应用表明,与其他复合权重确定方法相比,该方法简便实用,有效合理.  相似文献   

20.
在对系统进行评价过程中,针对评价指标建立适当的权重,能充分反映评价体系中各指标的重要程度。选择客观赋权方法,能有效避免在评价过程中受到更多的人为因素影响。利用信息熵理论计算权重,首先需要解决为什么能利用信息熵来建立权重,讨论信息熵和权重之间的等价性,然后必须提供切实可行的计算方法。最后通过实例证明通过信息熵得到的权重,完全根据评价指标的客观数据间的关系进行计算,充分体现数据间差异性,是一种合理的客观赋权法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号