共查询到18条相似文献,搜索用时 62 毫秒
1.
快速、准确获取BBS论坛主题已成为目前Web信息获取中一个极其重要的研究方向。针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于潜在语义分析的主题发现方法,其思想是借助计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现。系统对BBS主题发现过程进行可视化和交互,从而更直观反映主题的变化过程,更好地验证了算法的有效性。 相似文献
2.
3.
利用潜在语义分析和关联规则挖掘构造同义与关联词集 总被引:1,自引:0,他引:1
由于大量同义词和关联词的存在,使得在文本挖掘过程中文本特征空间无法准确表达文本语义以及计算高维复杂性。本文利用潜在语义分析和关联规则挖掘构造同义和关联词集,用于减少文本特征空间中的同义词和关联词,降低信息冗余,改进挖掘效率。文中对相应的算法进行了描述,实验结果令人满意。 相似文献
4.
在基于Web的电子商务数据挖掘过程中,如何从大量的商品交易记录中发掘出有用的信息是目前研究的主要课题,通过对目前网络交易的商品名称信息的特征进行分析,使用自定义的网页抓取工具获取在线商品交易的信息,分词处理后使用潜在语义分析方法对数据集的类别进行分析,实现了一个商品类别分类算法.从划分结果来看,该算法能较好地清除冗余信息,有效地区分不同类别的商品. 相似文献
5.
基于Bayes算法实现图像语义分类 总被引:1,自引:0,他引:1
介绍了根据图像的逻辑特征和抽象属性进行检索的基于语义分类的图像检索技术,并用Bayes分类算法设计了一个语义分类器,该语义分类器通过计算用户要查询图像的后验概率,对被查询的图像进行语义分类。 相似文献
6.
7.
针对传统pLSA模型中语义建模和参数求解不足的问题,提出一种基于先验信息的pLSA场景分类方法.首先对概率模型中的参数矩阵增加同类场景数据的低秩性及单幅图像相对语义主题的稀疏性约束,建立基于先验信息的优化决策模型;然后采用非精确增广拉格朗日乘子法给出模型参数求解算法;最后将基于潜在语义分析的场景分类方法应用到较大规模的场景分类任务中.与其他基于pLSA模型的分类算法进行比较的实验结果表明,文中方法便于产生低维空间中紧致有效的场景语义表示,避免了EM算法收敛性欠佳引起的局部最优问题,具有更好的场景分类性能. 相似文献
8.
9.
10.
11.
一种基于潜在语义分析的查询扩展算法 总被引:5,自引:0,他引:5
该文提出一种新的查询扩展算法。通过对文本进行潜在语义分析,引入计算词语间语义相似度的方法,将文本聚类应用到检索的交互过程中,以提高信息检索的质量。实验结果表明该算法对于提高检索的准确率是十分有效的。 相似文献
12.
文中研究的是基于常问问题库(FAQ库)的智能答疑系统。FAQ库是很多智能答疑系统中的一个重要组成部分,它把用户常问的问题和相关答案保存起来,对于用户输入的问题,可以首先在FAQ库中查找答案。如果能够找到相似的问题,就可以直接将问题所对应的答案返回给用户。为解决智能答疑系统因词的同义或多义现象而导致的“漏答”或“错答”,采用一种基于加权潜在语义分析模型的相似度计算方法。针对特定教育领域的智能答疑系统.改进了反映词与词之间相关性的权值计算。通过对特定课程中常问问题的实验,结果显示明显优于向量空间模型。 相似文献
13.
推荐系统在电子商务中得到广泛运用,但是专门针对农民的推荐系统还寥寥无几。本文根据农村实际情况和现有条件,研究和设计一个基于潜在语义分析的农户个性化推荐系统。潜在语义分析技术(LSA)克服了多义词和同义词问题,具有可计算性强等优点,从而提高推荐系统的运行效率。本系统所采用的方法和处理形式,对其它推荐系统具有一定的借鉴意义。 相似文献
14.
15.
This paper proposes a projection-based symmetrical factorisation method for extracting semantic features from collections
of text documents stored in a Latent Semantic space. Preliminary experimental results demonstrate this yields a comparable
representation to that provided by a novel probabilistic approach which reconsiders the entire indexing problem of text documents
and works directly in the original high dimensional vector-space representation of text. The employed projection index is
derived here from the a priori constraints on the problem. The principal advantage of this approach is computational efficiency and is obtained by the exploitation
of the Latent Semantic Indexing as a preprocessing stage. Simulation results on subsets of the 20-Newsgroups text corpus in
various settings are provided.
This revised version was published online in August 2006 with corrections to the Cover Date. 相似文献
16.
分类规则可以挖掘出某些共同特性,是数据挖掘的重要方法之一。将贝叶斯理论应用于分类模式挖掘算法的设计中,可使分类的错误率最小,设计出更加完善的挖掘算法,从而提高数据挖掘的准确性和有效性。 相似文献
17.
Extended Naive Bayes classifier for mixed data 总被引:2,自引:0,他引:2
Chung-Chian Hsu Yan-Ping Huang Keng-Wei Chang 《Expert systems with applications》2008,35(3):1080-1083
Naive Bayes induction algorithm is very popular in classification field. Traditional method for dealing with numeric data is to discrete numeric attributes data into symbols. The difference of distinct discredited criteria has significant effect on performance. Moreover, several researches had recently employed the normal distribution to handle numeric data, but using only one value to estimate the population easily leads to the incorrect estimation. Therefore, the research for classification of mixed data using Naive Bayes classifiers is not very successful. In this paper, we propose a classification method, Extended Naive Bayes (ENB), which is capable for handling mixed data. The experimental results have demonstrated the efficiency of our algorithm in comparison with other classification algorithms ex. CART, DT and MLP’s. 相似文献
18.
Latent semantic analysis (LSA) is a tool for extracting semantic information from texts as well as a model of language learning based on the exposure to texts. We rely on LSA to represent the student model in a tutoring system. Domain examples and student productions are represented in a high-dimensional semantic space, automatically built from a statistical analysis of the co-occurrences of their lexemes. We also designed tutoring strategies to automatically detect lexeme misunderstandings and to select among the various examples of a domain the one which is best to expose the student to. Two systems are presented: the first one successively presents texts to be read by the student, selecting the next one according to the comprehension of the prior ones by the student. The second plays a board game (kalah) with the student in such a way that the next configuration of the board is supposed to be the most appropriate with respect to the semantic structure of the domain and the previous student's moves. 相似文献