首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到7条相似文献,搜索用时 0 毫秒
1.
基于支持向量机的Web文本分类方法   总被引:7,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

2.
近邻法参考样本集的最优选择   总被引:6,自引:0,他引:6       下载免费PDF全文
张鸿宾  孙广煜 《电子学报》2000,28(11):16-21
为克服近邻分类法需要大量计算和存储的缺点,本文利用Tabu搜索来求解满足一定错误率条件的最小参考样本集.当错误率阈值设为0时,可以得到原训练集的一致子集.当错误率阈值设为适当的非零值时,可以较好地克服近邻估计的偏置.通过在Tabu搜索中引入适当的激活(aspiration)条件,避免了在可行和不可行解区间无意义的来回搜索,加快了收敛的速度.实验结果表明,本文算法在压缩比和分类性能上都优于经典的算法.本文还证明了Dasarathy的算法[6]得到的最小一致子集(Minimal Consistent Set: MCS)不是最小的,其MCS也不一定是单调减的.  相似文献   

3.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

4.
In practical applications of information retrieval, such as the search engine, the query user submitted contains only several keywords usually. This will cause unmatched issues of words between relevant files and the user's query, and result in more seriously negative effects on the performance of information retrieval. On the basis of analyzing the process of producing query, this paper puts forward a new method of query expansion based on the model of statistical machine translation. The approach extract related terms between documents and query through statistical machine translation model, then expand the query with them. The experiment on TREC data collection shows that our method achieved 4 - 17% of the improvement all the time more than the language model method without expanding. Compared to pseudo feedback, our method has the competitive average precision.  相似文献   

5.
基于一种混合语言模型的自动文本分类技术研究   总被引:1,自引:0,他引:1  
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。  相似文献   

6.
基于统计机器翻译模型的查询扩展   总被引:1,自引:0,他引:1  
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常都只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题,对检索性能有较严重的负面影响。该文在分析了查询产生模型的基础上,提出了一种新的基于统计机器翻译的查询扩展方法。通过统计机器翻译模型提取文档集中与查询词相关联的词,用以进行查询扩展。在TREC数据集上的试验结果表明:基于统计翻译的查询扩展方法不仅比不扩展的语言模型方法始终有12%~17%的提高,而且比流行的查询扩展方法-伪反馈也具有可比的平均准确率。  相似文献   

7.
物联网参考模型的分析   总被引:1,自引:0,他引:1  
研究物联网参考模型是开发和标准化物联网技术的关键而困难的课题,涉及到网络理论和技术中一系列基本概念和方法。通过研究欧盟有关物联网体系结构项目中的相关文稿,探讨了物联网的体系结构参考模型、参考体系结构的概念,分析了欧盟提出的物联网参考模型的建模方法,指出了欧盟物联网参考模型在物理实体、虚拟实体、数字实体和装置等概念方面的合理之处,阐述了物联网交互基本抽象方面的不适合之处,提出了一种改进物联网交互基本抽象的建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号