共查询到20条相似文献,搜索用时 156 毫秒
1.
在优化文本文件问题的研究中,为了提高文本聚类的准确率,得到更高质量的聚类结果,在深入研究K-means算法的基础上,提出了一种改进的K-means聚类算法,并将算法应用于文本聚类仿真系统中。该算法可以自动计算聚类结果中簇的个数,消除了孤立点对聚类结果的影响,为建立文本聚类系统提供了先决条件。在文本聚类仿真实验中,对数据集进行了多次测试,测试结果表明基于改进K-means算法的文本聚类系统具有更好的聚类特性,取得了良好的应用效果。 相似文献
2.
短文本聚类一直是信息提取领域的热门话题,大规模的短文本数据中存在“长尾现象”,传统算法对其聚类时会面临特征纬度高,小类别信息丢失的问题,针对对上述问题的研究,本文提出一种频繁项协同剪枝迭代聚类算法(Frequent Itemsets collaborative Pruning iteration Clustering framework,FIPC).该算法将迭代聚类框架与K中心点算法相结合,运用协同剪枝策略,实现对小类别文本聚类,实验结果证明该聚类算法能够有效的提高小类别短文本信息聚类的精确度,并能避免聚类中类簇重叠的问题. 相似文献
3.
针对推荐系统算法中覆盖率和多样性偏低所带来的长尾问题,提出了一种长尾物品的推荐框架以及关注长尾物品的推荐算法FLTI。长尾物品的推荐框架是基于卷积神经网络(CNN)模型构建的,分为数据处理层、推荐算法层和推荐列表生成层。将FLTI算法加入到了框架中的推荐算法层,该算法首先计算了频繁推荐项以及非频繁推荐项,然后采用使用长尾物品替换频繁推荐项的方法来满足系统中指定的长尾比例。实验结果表明,在Movielens 1M和BookCrossing数据集上,FLTI算法比传统的基于用户的协同过滤(UserCF)算法、基于物品的协同过滤(ItemCF)算法、奇异值分解(SVD)推荐算法以及协同去噪自动编码(CDAE)算法在覆盖率指标上最多提高了51%,多样性指标上最多提高了59%。 相似文献
4.
5.
设计了一种在中英文环境下、能够对Nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由Nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。 相似文献
6.
信息过载问题使得推荐系统迅速发展并广泛应用,同时也出现不法商家将虚假消费记录定量地输入到系统数据库从而改变推荐系统的推荐结果以获利.因此,本文围绕3个问题展开,即:为了提高推荐系统对虚假评论的鉴别能力,首先需要准确标注虚假评论的类标,如何能获取大量准确标定的虚假评论信息;如何有效过滤虚假评论从而提高推荐的可靠性;如何实现一种高效可靠的推荐系统.针对虚假评论信息难以准确标定,本文提出了一种基于文本生成式对抗网络的自动点评技术,依据历史评论文本自动生成虚假评论文本,并依据情感分析确定生成文本的对应评分;为了提高推荐系统对包含虚假信息数据的推荐效果,本文提出了一种基于图过滤的快速密度聚类双层网络推荐算法.该算法首先提出了一种能快速确定节点执行度阈值的基于图的过滤器,有效过滤数据内虚假信息,并设计了一种快速密度聚类双层网络推荐算法,提高推荐效果.将所提出的推荐算法应用到Yelp数据集上展开试验,验证本文提出的推荐方法的有效性. 相似文献
7.
8.
维吾尔语文本聚类中特征选择对聚类的效率和效果都有直接影响。根据维吾尔语构词法规律,在原有基于文档频率特征选择算法基础上,提出新的维吾尔语文本聚类的特征提取算法。新方法将词干作为文本的特征项,在原算法上融合了基于特征贡献度的选择方法,并使用Java语言实现了一个维吾尔语文本聚类系统。使用该系统在人工分类的文本集上进行实验,结果表明:新的特征提取算法有效地降低了文本向量空间维度,在准确率、召回率和F-Measure等指标方面均有不同程度提高。 相似文献
9.
结合文献资料特征利用层次聚类算法,实现了自动推荐学术领域专家系统。主要介绍了文本聚类的过程及关键技术;完成对学科领域内作者簇内学术水平的评价,将h指数应用到评价作者的学术水平之中,推荐出该领域中的专家群。将文献资源的层次聚类划分与专家社区发现结合在一起,采用修正h指数公正地评价了作者的学术水平。 相似文献
10.
陶程仁 《数字社区&智能家居》2004,(26)
本文从实际应用角度探讨了WEB文本挖掘系统的设计实现问题,文章首先分析了WEB文本挖掘的实现流程,并在此基础上对应用较为广泛的WEB文本挖掘聚类算法进行了对比分析,并采用SOM聚类算法作为系统的实现算法,在本文最后一部分,文章对SOM聚类算法的具体实现进行了深入的阐述分析。 相似文献
11.
本文在文章的思路下(即根据不同机种机型具有不同的运动性能对飞机进行机种机型的识别),以美军战斗机和攻击机为例,对识别过程中存在的关键问题的解决进行了讨论。 相似文献
12.
针对K-means算法对初始聚类中心和噪声敏感的缺点,提出了d-K-means算法(distance & density),在K-means算法的基础上权衡了密度和距离对聚类的影响,对数据进行加权处理,在权值基础上引入最小最大原则选择初始聚类中心,自动确定类中心个数。实验结果表明,d-K-means算法在低维数据与高维数据上都可以取得较好的聚类效果,并且更好地应对低密度区域数据,更好地进行类中心选择。 相似文献
13.
基于相异性选择的密度聚类算法研究 总被引:4,自引:0,他引:4
在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算(EOptiSim)。由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用0ptiSim或EOptiSim多样化代表性子集选择技术。在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的. 相似文献
14.
基于页面聚类的推荐算法常被应用在个性化推荐系统中,但是很少考虑页面访问的顺序性.针对这种弊端,提出了一种新的路径相似度系数,同时在推荐算法中运用了关联规则,提高了推荐结果的准确性. 相似文献
15.
高维数据流子空间聚类发现及维护算法 总被引:3,自引:2,他引:3
近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性. 相似文献
16.
17.
现有半自动跟踪系统将操作员等效为准线性环节,增大了训练的难度和成本,不适应复杂战场环境下多个快速机动目标的选取和跟踪.利用特征提取方法得到视场的“潜在目标”集,引入模糊聚类方法,通过对操作响应进行分类,建立操控意图与目标运动特征之间的关系模型.通过充分的仿真试验,对比研究了跟踪平稳性、快速性、准确性等指标,结果说明该方法能够有效提升整体跟踪性能. 相似文献
18.
为解决社会关系网络图中节点没有坐标值、不能采用传统的欧几里得距离和曼哈坦距离进行聚类的问题,提出采用最短路径算法,来衡量点与点之间的相异度.针对最短路径算法具有时间复杂度大的缺点,引入基于参考节点嵌入的最短距离估算思想来估算两点之间的近似距离.在此基础上,针对DBLP数据集构成的社会关系网络图进行聚类,使用基于划分的k-medoids算法,分别采用以上两种距离算法,比较其优劣.实验证明改进后的算法和最短路径算法中的Dijkstra 算法相比,距离误差率小,时间复杂度大大降低,在提高效率的同时,取得了同样好的聚类效果. 相似文献
19.
为了处理网络日志规模过大及其相关问题,并为后期日志分析提供简洁的数据源,提出一种多协议网络日志二次聚类方法。该方法采用划分网格的方式把网络日志进行网格内初次聚类,然后再依据相似度判断对初次聚类簇进行二次聚类,最后输出聚类后的日志记录及一些稀疏数据和孤立点数据。经实验测试证明,在不破坏网络日志的完整性和准确性,且不影响用户正常网络访问的前提下,该方法日志规模压缩效果显著,时间复杂度低以及能够处理实际的动态数据,实现增量式聚类。 相似文献
20.
根据高维数据具有方向性的特征,结合概率模糊聚类算法与粗糙集理论提出了一种粗糙的方向性模糊聚类算法。该算法在概率模糊聚类算法中引入了数据方向相似性函数,能对不确定数据进行处理。在算法中利用粗糙集中的下近似集与边界集来确定目标对象函数,属于下近似集的数据在聚类时是确定的,属于边界的数据具有模糊性。实验结果表明,该算法能有效地对高维的方向性数据进行聚类。 相似文献