首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于改进LSA的文档聚类算法   总被引:1,自引:0,他引:1  
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.  相似文献   

2.
潜在语义分析在进行大规模语义检索时计算效率较低、存储开销较大。针对该问题,提出一种基于聚类的潜在语义检索算法。通过文档之间的结构关系对文档进行聚类,利用簇代替文档分析潜在语义,以此减少处理文档的个数。实验结果表明,该算法能减少查询时间,且检索精确度较高。  相似文献   

3.
基于概率潜在语义分析的Web用户聚类   总被引:1,自引:1,他引:0  
Web用户聚类知识可以为改进信息搜索效率和提供个性化服务提供帮助。通过对海量日志记录分析,构建会话-页面矩阵;根据信息论理论,在会话-页面矩阵中权值计算中考虑局部和全局权值贡献;利用概率潜在语义分析将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。  相似文献   

4.
结合LSA的中文谱聚类算法研究   总被引:2,自引:2,他引:0  
传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验。在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。  相似文献   

5.
TCBLSA:一种中文文本聚类新方法   总被引:7,自引:3,他引:7  
王国勇  徐建锁 《计算机工程》2004,30(5):21-22,37
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。  相似文献   

6.
面对因特网上急剧增加的网页内容,通过对Web日志中的浏览记录进行聚类分析,可以改进信息搜索和个性化服务的效率。根据信息论理论,在会话一页面矩阵权值计算中考 虑局部和全局权值的贡献;利用PLSA将隐式变量Z对页面P的条件概率转换为隐式变量Z对会话S的条件概率,然后在聚类分析中以此作为相似度计算依据。聚类算法采用了基于距离的k-medoids算法,以进一步改善聚类精度。实验结果验证了该算法的有效性和局限性。  相似文献   

7.
汉语分词技术和文本聚类是自然语言处理的重要环节,在文本信息的组织、摘要和导航中应用广泛.文本聚类作为一种无监督学习算法,其依据是聚类假设:同类的文档相似程度大,不同类的文档相似程度小.文中主要研究汉语文本聚类算法在新闻标题类文本中的应用.首先对采集到的若干条新闻标题进行分词和特征提取,将分词后的文本转化为词条矩阵;然后...  相似文献   

8.
强保华  李巍  邹显春  汪天天  吴春明 《计算机科学》2013,40(11):228-230,247
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。  相似文献   

9.
信息过滤的模糊聚类模型   总被引:8,自引:2,他引:6  
针对Internet信息过滤问题,运用模糊聚类方法建立了一个用于信息过滤的聚类模型。该模型不仅考虑了文档间的语义联系,而且,又对文档集进行了进一步的分类,增强了类内的耦和性,减少了类间的关联性。最后,给出了一个模糊聚类算法。  相似文献   

10.
随着移动设备的普及、同时大数据时代数据过载问题的日益严重,如何更准确地根据用户的兴趣及行为向用户推荐其可能感兴趣的应用软件成为亟待解决的问题.现有的推荐系统方法大多面临着推荐内容较为单一乏味等问题,且在推荐时没有将用户所处情境加以考虑,导致推荐效果欠佳.该文提出一种基于用户特征聚类联合情境特征的多维度应用推荐系统.经奇...  相似文献   

11.
A collaborative team usually consists of team members with various domains. These members’ demands for knowledge are also different from each other. For recommending potentially useful knowledge to suitable members, their user profiles should be well managed and maintained. User profile can be input by the members, but a more intelligent way should be the automatic extraction of the user profiles. Workflow and information flow are two types of collaborative processes, which exist behind every collaborative team. This paper is mainly concerned with how to extract these team members’ user profile from the two types of contexts: workflow and information flow. This paper defines a model for the user profile. Then some methods are proposed for extracting the profile information on the basis of workflow and information flow. This study on the user profile extraction can pave the way for developing knowledge recommender systems, which can recommend proper knowledge to proper team members with a collaborative team.  相似文献   

12.
We propose a semantic clustering model based on a fuzzy inference system to find out the semantic neighborhood relationships in wireless sensor networks in order to both reduce energy consumption and improve the data accuracy. As a case study we describe a structural health monitoring application which was used to illustrate and assess the proposed model. We conduct experiments in order to evaluate the proposal in two different scenarios of damage with different data aggregation methods. We also compared our proposal, using the same data set, with a deterministic clustering method and with the LEACH algorithm. The results indicate that our approach is an energy-efficient clustering method for WSNs, outperforming both the deterministic clustering and LEACH algorithms in about 70% and 47% of energy savings respectively. The energy saving comes from the fact that we have a more efficient in-network data aggregation process since by exploiting the semantic relation between sensor nodes we can potentially aggregate more similar data and consequently, decrease the data redundancy (thus minimizing transmissions). Nodes that are semantically unrelated can operate in low-duty cycle, further reducing the energy consumption. Moreover, our proposal has the potential to improve the data accuracy provided for the application where accuracy is a QoS requirement in typical WSN applications.  相似文献   

13.
针对利用金融机构进行洗钱的犯罪行为,为了提高可疑行为客户的识别效率,智能信息技术与KYC标准的结合为反洗钱工作提供了新的思路。论文将模式识别技术应用于反洗钱领域,提出基于聚类方法的客户交易行为模式识别,通过判断客户交易行为模式,识别具有异常交易行为的可疑客户。实验结果验证了该方法的可行性与有效性。  相似文献   

14.
Bu  Xuxiao  Zhu  Jihua  Qian  Xueming 《Multimedia Tools and Applications》2020,79(31-32):22157-22175
Multimedia Tools and Applications - As the e-commerce shopping websites like Amazon become more and more popular, amounts of products spring up on the internet and bring great difficulties to...  相似文献   

15.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

16.
We consider the community detection problem from a partially observable network structure where some edges are not observable. Previous community detection methods are often based solely on the observed connectivity relation and the above situation is not explicitly considered. Even when the connectivity relation is partially observable, if some profile data about the vertices in the network is available, it can be exploited as auxiliary or additional information. We propose to utilize a graph structure (called a profile graph) which is constructed via the profile data, and propose a simple model to utilize both the observed connectivity relation and the profile graph. Furthermore, instead of a hierarchical approach, based on the modularity matrix of the network structure, we propose an embedding approach which utilizes the regularization via the profile graph. Various experiments are conducted over two social network datasets and comparison with several state-of-the-art methods is reported. The results are encouraging and indicate that it is promising to pursue this line of research.  相似文献   

17.
使用基于关键词匹配的方法,分析了 HTML 语言描述的Web文档,提取网页中有用的特征信息,得到两类标记中的内容:一类是网页的全局描述信息,如;另一类起局部修饰作用,强调了网页的部分内容,如.从而提出了基于层次概念的用户模型,并使用向量空间模型方法建立了以突发事件新闻为基础的用户兴趣模型.实验表明,这种方法有一定的可行性.  相似文献   

18.
基于语义相似度与优化的构件聚类算法   总被引:1,自引:2,他引:1  
为克服刻面分类表示法的人为主观因素,采用了刻面分类与全文检索相结合的方法对构件进行了表示.同时,从语义角度出发,结合优化技术,提出了一种基于语义相似度与优化的构件聚类算法.该算法有效地减少了刻面分类的主观性因素,进一步提高了构件查询的效率和准确性,并与基于向量空间模型的构件聚类效果进行比较.实验结果表明,基于语义相似度与优化的构件聚类算法的有效性,它在一定程度上改善了构件聚类的效果,提高了聚类质量.  相似文献   

19.
基于信息粒度的文本聚类算法   总被引:1,自引:0,他引:1  
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法.首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并.该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率.  相似文献   

20.
Collaborative filtering is one of widely used recommendation approaches to make recommendation services for users. The core of this approach is to improve capability for finding accurate and reliable neighbors of active users. However, collected data is extremely sparse in the user-item rating matrix, meanwhile many existing similarity measure methods using in collaborative filtering are not much effective, which result in the poor performance. In this paper, a novel effective collaborative filtering algorithm based on user preference clustering is proposed to reduce the impact of the data sparsity. First, user groups are introduced to distinguish users with different preferences. Then, considering the preference of the active user, we obtain the nearest neighbor set from corresponding user group/user groups. Besides, a new similarity measure method is proposed to preferably calculate the similarity between users, which considers user preference in the local and global perspectives, respectively. Finally, experimental results on two benchmark data sets show that the proposed algorithm is effective to improve the performance of recommender systems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号