共查询到19条相似文献,搜索用时 78 毫秒
1.
作战数据库文件与记录的文本格式涉及到作战文书的自动生成,文本分类直接关系到情报信息检索效率及准确性。针对军事情报信息的特点,建立了一个基于情报数据库的文本分类模型,然后分析了模型中的文本表示、自动分词、特征提取关键技术,并对互信息特征选取方法提出了改进措施。应用表明,该文本分类模型可有效地从文字信息中分离出规范化的情报要点,不仅辅助作战决策,而且能直接写入数据库。 相似文献
2.
3.
4.
基于规则的自动分类在文本分类中的应用 总被引:8,自引:3,他引:8
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术(k近邻分类器、支持向量机分类器和朴素贝叶斯分类器),剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为:当类别之间分类特征的交叉变大时,分类精度呈下降趋势,在多层分类的情况下,此局限尤为突出。针对此局限性,为了提高自动分类的精度,我们引入了基于规则的自动分类来对其进行改进和扩充,并整合两种自动分类技术的优点,设计出了混合分类器系统,从而获得了比较理想的分类效果。 相似文献
5.
比较研究了中文文本分类中四种不同的特征选择统计方法对k近邻分类器分类性能的影响。这四种特征选择采用的统计方法是:卡方、信息增益、互信息、交叉熵。相应地得到四种不同的特征集合。据不同的特征集合,分别进行了基于特征词布尔值和基于特征词的词频的中文文本分类实验,提出了文本分类系统流程,并给出了评估方法和实验结果。 相似文献
6.
分析了文本分类挖掘的一般特点,即数据密集、计算密集,讨论了网格技术对文本分类的支持.为适应网格环境,对文本特征向量的权重确定算法作了调整,提出了基于词频、词语首现位置、词语长度的单文档综合平衡权重算法.最后,构建了一个基于桌面网格的并行文本分类系统,并进行了对比实验.实验结果表明该系统是可行的、有效的. 相似文献
7.
吴国祥 《数字社区&智能家居》2011,(9X):6618-6620
该文在领域知识中的概念之间语义关系数量化的基础上,利用概念间的层次结构,根据不同概念的抽象程度,提出具体的量化公式,在类别比较相近情况下有更好的区分能力。 相似文献
8.
陈骏 《计算机工程与应用》2009,45(8):153-157
随着因特网上信息的大量增加,如果不依靠自动分类而完全通过手工进行文本分类,文本分类是不可能完成的。因此,文本自动分类成为一个重要的研究领域。首先介绍语义网及其相关技术,最后介绍基于本体技术的语义网的自动分类器。 相似文献
9.
10.
11.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性. 相似文献
12.
基于模糊软集合理论的文本分类方法 总被引:3,自引:0,他引:3
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。 相似文献
13.
细粒度的图片分类是深度学习图片分类领域中的一个重要分支,其分类任务比一般的图片分类要困难,因为很多不同分类图片中的特征相似度极高,没有特别鲜明的特征用以区分,因而需要优化一个传统的图片分类方法.在一般的图片分类中,通常通过提取视觉以及像素级别的特征用来训练,然而直接应用到细粒度分类上并不太适配,效果仍有待提高,可考虑利用非像素级别的特征来加以区分.因此,我们提出联合文本信息和视觉信息作用于图片分类中,充分利用图片上的特征,将文本检测与识别算法和通用的图片分类方法结合,应用于细粒度图片分类中,在Con-text数据集上的实验结果表明我们提出的算法得到的准确率有显著的提升. 相似文献
14.
构建公安大情报平台是当前公安信息化中的一项重要工作,文章通过对现有文本倾向性分类技术的研究,探讨将这项技术应用到公安情报收集分析工作中的方式和难点,并设计一套能够融合到公安大情报平台中的文本倾向性分类器,以提高公安情报收集分析的效率。 相似文献
15.
该文介绍了藏文文本分类技术的研究与进展.首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议. 相似文献
16.
Julian SzymańSki 《控制论与系统》2013,44(2):180-199
In our work, we review and empirically evaluate five different raw methods of text representation that allow automatic processing of Wikipedia articles. The main contribution of the article—evaluation of approaches to text representation for machine learning tasks—indicates that the text representation is fundamental for achieving good categorization results. The analysis of the representation methods creates a baseline that cannot be compensated for even by sophisticated machine learning algorithms. It confirms the thesis that proper data representation is a prerequisite for achieving high-quality results of data analysis. Evaluation of the text representations was performed within the Wikipedia repository by examination of classification parameters observed during automatic reconstruction of human-made categories. For that purpose, we use a classifier based on a support vector machines method, extended with multilabel and multiclass functionalities. During classifier construction we observed parameters such as learning time, representation size, and classification quality that allow us to draw conclusions about text representations. For the experiments presented in the article, we use data sets created from Wikipedia dumps. We describe our software, called Matrix’u, which allows a user to build computational representations of Wikipedia articles. The software is the second contribution of our research, because it is a universal tool for converting Wikipedia from a human-readable form to a form that can be processed by a machine. Results generated using Matrix’u can be used in a wide range of applications that involve usage of Wikipedia data. 相似文献
17.
18.
19.
Web文本挖掘是Web数据挖掘的一个重要研究领域.文本挖掘的主要方法是文本分类和聚类.本文主要讨论了在文本挖掘中文本的表示,以及文本聚类的算法描述. 相似文献