期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Stefan Kaufmann 《Computational Intelligence》2000,16(4):511-524

Similarity in contextual behavior between words is considered a source of 'lexical cohesion,' which is otherwise hard to measure or quantify. Such contextual similarity is used by an implementation for text segmentation, the VecTile system, which uses precompiled vector representations of words to produce similarity curves over texts. The performance of this system is shown to improve over that of the TextTiling algorithm of Hearst (1997). 相似文献

2.

SVD Algorithms: APEX-like versus Subspace Methods

Andreas Weingessel Kurt Hornik 《Neural Processing Letters》1997,5(3):177-184

We compare several new SVD learning algorithms which are based on the subspace method in principal component analysis with the APEX-like algorithm proposed by Diamantaras. It is shown experimentally that the convergence of these algorithms is as fast as the convergence of the APEX-like algorithm. 相似文献

3.

基于本体的Web文本挖掘与信息检索 总被引：1，自引：0，他引：1

艾伟孙四明张峰《计算机工程》2010,36(22):75-77

针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。相似文献

4.

基于语义空间的支持向量机的文本过滤 总被引：2，自引：0，他引：2

沈丽虹周昌乐《计算机应用》2005,25(3):664-665

传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。相似文献

5.

基于社会标注质量的文本分类模型框架

李劲张华吴浩雄向军辜希武《计算机应用》2012,32(5):1335-1339

社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估。在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量。同时采用支持向量机分类算法进行分类实验。实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%。相似文献

6.

一种基于LSA和Kohonen网络的文本分类新方法

王国勇徐建锁《计算机应用》2004,24(2):53-55,68

文中根据隐含语义分析理论(LSA)和Kohonen网络理论提出一种文本分类新方法。应用Kohonen网络进行文本分类存在训练速度慢的缺点,因此在网络训练阶段引入了有监督机制,提高了网络的分类速度和精度;但是对于高维的文本特征向量来说,分类速度很低,甚至应用Kohonen网络进行分类,不能取得理想结果;新方法应用LSA理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而大大提高了文本分类的精度和速度,同时根据因子分析理论给出了维数K的选取方法。相似文献

7.

主成分分析方法(PCA)在车辆牌照识别中的应用

邬岚张桂林《计算机与数字工程》2007,35(3):110-112

将主成分分析方法（PCA）应用于车牌识别。首先根据采集到样本分类构造各类样本对应特征子空间,然后对待识别字符图片进行预处理,再分别向各类特征空间投影,根据重构误差判断类别识别字符。相似文献

8.

一种针对聚类问题的量子主成分分析算法

下载免费PDF全文

刘文杰王博思陈君琇《计算机研究与发展》2022,59(12):2858-2866

聚类问题中的离群点容易影响簇中心的选择,且样本数据量规模的扩大会造成样本点间的距离计算需要消耗大量计算资源.为了解决上述问题,从簇中心选取和最短距离搜索2个方面出发,提出了一种针对聚类问题的新型量子主成分分析算法.利用阈值更新奇异值并得到主成分,再通过势函数得到簇中心,从而减少异常值对簇中心选取的影响.此外,采用量子最小值搜索算法寻找距离样本点最近的簇中心,减少聚类所需迭代次数.以小规模数据集为例,采用Cirq量子编程框架对算法进行电路设计和仿真实验.实验结果表明,该算法与已有的量子聚类算法相比,在聚类准确度上有所提升.性能分析表明,与现有经典和量子算法比较,该算法在簇中心选取和最短距离搜索时间复杂度上有不同程度的改进,消耗资源有所降低. 相似文献

9.

Feature Weighting in k-Means Clustering 总被引：3，自引：0，他引：3

Modha Dharmendra S. Spangler W. Scott 《Machine Learning》2003,52(3):217-237

Data sets with multiple, heterogeneous feature spaces occur frequently. We present an abstract framework for integrating multiple feature spaces in the k-means clustering algorithm. Our main ideas are (i) to represent each data object as a tuple of multiple feature vectors, (ii) to assign a suitable (and possibly different) distortion measure to each feature space, (iii) to combine distortions on different feature spaces, in a convex fashion, by assigning (possibly) different relative weights to each, (iv) for a fixed weighting, to cluster using the proposed convex k-means algorithm, and (v) to determine the optimal feature weighting to be the one that yields the clustering that simultaneously minimizes the average within-cluster dispersion and maximizes the average between-cluster dispersion along all the feature spaces. Using precision/recall evaluations and known ground truth classifications, we empirically demonstrate the effectiveness of feature weighting in clustering on several different application domains. 相似文献

10.

隐含语义索引技术在供求信息分类中的应用

朱学昊王儒敬《计算机工程与应用》2007,43(14):192-194

本文介绍了一种信息抽取和自动分类的新应用,分析了传统分类方法的不足,介绍了一种基于隐含语义索引技术的文本分类改进方案。该技术是一新型的检索模型,它通过奇异值分解,或增强或消减词在文档中的语义影响力,使得文档之间的语义关系更为明晰,从而能容易地剔除掉那些语义关联弱的噪声数据,提高特征值提取精度和最后的分类准确度。相似文献