共查询到20条相似文献,搜索用时 46 毫秒
1.
基于改进LSA的文档聚类算法 总被引:1,自引:0,他引:1
俞辉 《小型微型计算机系统》2009,30(5)
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的. 相似文献
2.
传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验。在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。 相似文献
3.
4.
Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。 相似文献
5.
TCBLSA:一种中文文本聚类新方法 总被引:7,自引:3,他引:7
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。 相似文献
6.
俞辉 《计算机工程与科学》2008,30(7):30-32
面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话一页面矩阵权值计算中考 虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。 相似文献
7.
和导航中应用广泛。文本聚类作为一种无监督学习算法,其依据是聚类假设:同类的文档相似程度大,不同类的文档相似程度小。文中主要研究汉语文本聚类算法在新闻标题类文本中的应用。首先对采集到的若干条新闻标题进行分词和特征提取,将分词后的文本转化为词条矩阵;然后使用TF-IDF技术处理词条矩阵,得到基于分词权重的新的词条矩阵,对新的词条矩阵进行奇异值分解,得到主成分得分矩阵,提取主成分分析文本特征并根据主成分得分矩阵进行K-均值和分层聚类分析;最后将聚类结果用词云图的形式展示出来并评价聚类效果的好坏。实证显示,对词条矩阵的奇异值分解能降低向量空间的维数,提高聚类的精度和运算速度。 相似文献
8.
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。 相似文献
9.
信息过滤的模糊聚类模型 总被引:8,自引:2,他引:6
针对Internet信息过滤问题,运用模糊聚类方法建立了一个用于信息过滤的聚类模型。该模型不仅考虑了文档间的语义联系,而且,又对文档集进行了进一步的分类,增强了类内的耦和性,减少了类间的关联性。最后,给出了一个模糊聚类算法。 相似文献
10.
11.
12.
基于用户模式聚类的智能信息推荐算法 总被引:1,自引:0,他引:1
基于数据挖掘的智能信息推荐日益成为一个重要的研究课题。针对现有智能信息推荐算法存在的不足,提出了一种基于用户模式聚类的智能信息推荐算法(IRUMC)。该算法将相似的用户模式聚类到一起,生成用户聚类模式,然后将用户访问操作与用户聚类模式进行匹配,最后形成推荐集。它比较适合新用户、访问站点较少的用户和有新颖性信息需求的用户。实验结果表明,该算法是有效的。 相似文献
13.
A collaborative team usually consists of team members with various domains. These members’ demands for knowledge are also different from each other. For recommending potentially useful knowledge to suitable members, their user profiles should be well managed and maintained. User profile can be input by the members, but a more intelligent way should be the automatic extraction of the user profiles. Workflow and information flow are two types of collaborative processes, which exist behind every collaborative team. This paper is mainly concerned with how to extract these team members’ user profile from the two types of contexts: workflow and information flow. This paper defines a model for the user profile. Then some methods are proposed for extracting the profile information on the basis of workflow and information flow. This study on the user profile extraction can pave the way for developing knowledge recommender systems, which can recommend proper knowledge to proper team members with a collaborative team. 相似文献
14.
为了能准确挖掘用户兴趣点,首先利用概率潜在语义分析PLSA模型将“网页 词”矩阵向量投影到概率潜在语义向量空间,并提出“自动相似度阈值选择”方法得到网页间的相似度阈值,最后提出将平面划分法与凝聚式层次聚类相结合的凝聚式层次k中心点HAK medoids算法,实现用户兴趣点聚类。实验结果表明,与传统的基于划分的算法相比,HAK medoids算法聚类效果更好。同时,提出的用户兴趣点聚类技术在个性化服务领域可提高个性化推荐和搜索的效率。关键词: 相似文献
15.
Atslands R. Rocha Luci Pirmez Flávia C. Delicato Érico Lemos Igor Santos Danielo G. Gomes José Neuman de Souza 《Computer Networks》2012,56(5):1627-1645
We propose a semantic clustering model based on a fuzzy inference system to find out the semantic neighborhood relationships in wireless sensor networks in order to both reduce energy consumption and improve the data accuracy. As a case study we describe a structural health monitoring application which was used to illustrate and assess the proposed model. We conduct experiments in order to evaluate the proposal in two different scenarios of damage with different data aggregation methods. We also compared our proposal, using the same data set, with a deterministic clustering method and with the LEACH algorithm. The results indicate that our approach is an energy-efficient clustering method for WSNs, outperforming both the deterministic clustering and LEACH algorithms in about 70% and 47% of energy savings respectively. The energy saving comes from the fact that we have a more efficient in-network data aggregation process since by exploiting the semantic relation between sensor nodes we can potentially aggregate more similar data and consequently, decrease the data redundancy (thus minimizing transmissions). Nodes that are semantically unrelated can operate in low-duty cycle, further reducing the energy consumption. Moreover, our proposal has the potential to improve the data accuracy provided for the application where accuracy is a QoS requirement in typical WSN applications. 相似文献
16.
基于CURE的用户聚类算法研究 总被引:1,自引:0,他引:1
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。 相似文献
17.
针对利用金融机构进行洗钱的犯罪行为,为了提高可疑行为客户的识别效率,智能信息技术与KYC标准的结合为反洗钱工作提供了新的思路。论文将模式识别技术应用于反洗钱领域,提出基于聚类方法的客户交易行为模式识别,通过判断客户交易行为模式,识别具有异常交易行为的可疑客户。实验结果验证了该方法的可行性与有效性。 相似文献
18.
19.
20.
针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了基于稳定性语义聚类的相关模型(SSRM)。首先利用初始查询前N个结果文档构成反馈数据集;然后探测数据集中稳定的语义类别数量;接着从稳定性语义聚类中选择与用户查询最相似的语义类别估计SSRM;最后通过实验对模型的检索性能进行了验证。对TREC数据集5个子集的实验结果显示,SSRM相比相关模型(RM)、语义相关模型(SRM),平均准确率(MAP)性能最少提高了32.11%和0.41%;相比基于聚类的文档模型(CBDM)、基于LDA的文档模型(LBDM)和Resampling等基于聚类的检索方法,MAP性能最少提高了23.64%,19.59%和8.03%。实验结果表明,SSRM有利于改善检索性能。 相似文献