首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
网页查重技术在企业数据仓库中的应用   总被引:1,自引:0,他引:1  
白广慧  连浩  刘悦  程学旗 《计算机应用》2005,25(7):1713-1715
介绍了处理网页排重的三类通用方法,并介绍了在企业数据仓库系统中,通过利用相似性检索技术实现情报资料自动排重的应用。通过对测试结果的评估表明,这种基于相似性检索技术的自动排重的方法能够达到较好的效果,实现了企业情报资料智能化预处理的应用。  相似文献   

2.
本文就与航空相关的情报资料分类技术与模糊数学理论结合进行了讨论.首先对现有情报资料的正文内容进行数学量化,然后根据现有的大量情报资料信息建立不同类别的标准数学模型,根据这些模型来计算新情报资料对应各个分类的隶属度.新情报资料一般属于最大隶属度的分类.  相似文献   

3.
基于本体的文档自动分类系统的研究   总被引:4,自引:0,他引:4  
讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类一使用一调整”逐步求精的分类方法。结合企业知识管理需求,开发了原型系统,进行了初步验证。  相似文献   

4.
基于FIFA算法的文本分类   总被引:9,自引:0,他引:9  
本文提出了一种简单有效的文本分类方法,其中采用基于FIFA算法的内容主题分析技术,实现文本的自动分类过程。文中详细论述了文本自动分类的基本过程和FIFA算法描述,最后给出了文本自动分类的实验结果和评价。  相似文献   

5.
面向程序自动修复的缺陷分类方法研究*   总被引:1,自引:0,他引:1  
程序自动修复是近年软件工程的研究热点,但其发展难以满足工业应用的要求。分析了自动修复技术的局限性,引入了缺陷分类的思想,并与正交缺陷分类方法相结合,提出了面向软件自动修复的缺陷分类方法(APRDC)。基于APRDC提出了自动修复技术集成的思想。实验中将基于APRDC与基于随机的自动修复技术集成工具作了比较。实验结果表明基于APRDC方法的自动修复技术的集成提高了修复效果,同时也表明了APRDC方法的有效性。  相似文献   

6.
为了提高电子信息自动归档能力,提出基于VBA技术的电子信息自动归档率影响建模方法。构建电子信息自动归档的网格聚类模型,进行电子信息自动归档的分类模型设计,提取电子信息自动归档的属性特征集,根据电子信息的语义相关性属性进行自动分类,采用联合相关性检测方法进行电子信息归档的统计分析,构建电子信息自动归档的大数据分类识别模型,实现电子信息自动归档的模糊聚类处理,对提取的电子信息归档大数据的关联特征集进行分类融合,实现电子信息归档率优化,实现电子信息自动归档率影响建模优化。仿真结果得知,采用该方法进行电子信息自动归档的分类性较好,查全查准率较高,提高了电子信息的自动归档和管理能力。  相似文献   

7.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。  相似文献   

8.
随着教育技术与信息技术的融合,实现面向小学生的语文写作自动辅助成为可能。快速自动地进行范文素材的分类入库是实现写作自动辅助的关键。作文素材语义信息丰富、种类较多,若采用现有方法进行自动分类入库操作往往难以取得好的效果。因此,在分析小学作文的类别特征并构建了一个数据集的基础上,提出基于TextRank和字符级卷积神经网络的小学作文自动分类模型。运用基于TextRank的关键句提取模型为范文素材,去除部分冗余的语义信息。应用word embedding对数据集进行文本表示,并将其作为卷积神经网络的输入。通过不断地迭代训练和测试,最终实现了该模型。实验表明了该方法对于作文分类任务能显著地提高分类的性能。  相似文献   

9.
针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现档案的自动分类。实验结果表明,相比传统基于特征选择的短文本分类方法,该方法的分类错误率下降了24.2%,可有效改善系统性能。  相似文献   

10.
为了从海量数据空间中快速、准确获取用户所需Web信息,设计并实现了一个基于分类本体的Web信息集成系统.设计了Web信息自动归类算法,研究了基于分类本体的异构分类体系集成方法,实现了异构分类体系的合并,形成逻辑统一的、基于分类的Web集成视图.通过Web数据抽取机制以及Web信息分类技术实现了检索结果的分类和层次化展示,方便用户浏览、快速定位所需信息.  相似文献   

11.
本文提出一种基于损失最小化的SVM多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM分类算法和KNN相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了SVM分类算法的准确性。  相似文献   

12.
在研究基于支持向量机进行文本分类一般步骤的基础上,针对Key-Substring-Group文本分类算法存在非线性支持向量机对核函数和参数C的强依赖的问题,用欧氏距离代替支持向量机训练得到的分类决策面进行分类决策,对文本分类算法进行改进。通过对比试验,发现分类效果不会随着核函数及参数C的变化而有明显的波动。  相似文献   

13.
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。  相似文献   

14.
Pairwise optimized Rocchio algorithm for text categorization   总被引:1,自引:0,他引:1  
This paper examines the Rocchio algorithm and its application in text categorization. Existing approaches using global parameters optimization of Rocchio algorithm result in choosing one fixed prototype representing each category for multi-category text categorization problems. Therefore, they have limited discriminating power on different category’s distribution and their parameter optimization methods are based on weak representation ability of the negative samples consisting of several categories. We present a pairwise optimized Rocchio algorithm, which dynamically adjusts the prototype position between pairs of categories. Experiments were conducted on three benchmark corpora, the 20-Newsgroup, Reuters-21578 and TDT2. The results confirm that our proposed pairwise method achieves encouraging performance improvement over the conventional Rocchio method. A comparative study with the top notch text classifier Support Vector Machine (SVM) also shows the pairwise Rocchio method achieves competitive results.  相似文献   

15.
本文针对传统公安情报工作中的不足,介绍了情报自动分类原理,结合多Agent思想构建了基于支持向量机的公安情报自动分类系统模型。  相似文献   

16.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。概念格是规则提取和数据分析的有效工具,然而概念格的构造效率始终是概念格应用的一大难题。本文研究了基于扩展概念格模型的文本分类规则提取,利用粗糙集和扩展概念格模型来进行分类规则提取。该方法利用概念树,极大地除去了冗余的概念,只需要建造很少的概念就能够提取出全部的分类规则,不仅效率较高,而且同时提取的分类规则与概念格相同。本文算法在MATLAB7.0的环境中运行的实验表明,查全率比KNN算法和SVM算法稍低,但是查准率比它们都高,因此该分类规则用于文本分类时效果与KNN和SVM相当。  相似文献   

17.
随着互联网的普及,人类获取特定信息需求的增加,如何快速获取特定类别信息是当前搜索引擎,门户网站等必须解决的问题。当前网页分类的任务都由机器学习的文本分类算法完成,但传统的机器学习分类方法基本没有考虑文本数据特征,提供无差别的分类服务。该系统充分考虑网页文本数据的特征,以文本标题为突破口实现快速分类以及依据SVM的普通分类。快速分类依据文本标题通过分词模型训练快速对应到分类标签上,完成快速分类。如果快速分类不成功则将文本内容通过结巴分词器分词,word2vec进行分词向量的训练,再根据分类要求通过SVM进行分类,完成普通的分类。通过提供两种不同的服务来完成不同的需求。  相似文献   

18.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

19.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

20.
Multiple kernel learning (MKL) aims at simultaneously optimizing kernel weights while training the support vector machine (SVM) to get satisfactory classification or regression results. Recent publications and developments based on SVM have shown that by using MKL one can enhance interpretability of the decision function and improve classifier performance, which motivates researchers to explore the use of homogeneous model obtained as linear combination of various types of kernels. In this paper, we show that MKL problems can be solved efficiently by modified projection gradient method and applied for image categorization and object detection. The kernel is defined as a linear combination of feature histogram function that can measure the degree of similarity of partial correspondence between feature sets for discriminative classification, which allows recognition robust to within-class variation, pose changes, and articulation. We evaluate our proposed framework on the ETH-80 dataset for several multi-level image encodings for supervised and unsupervised object recognition and report competitive results.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号