共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
3.
在传统的协同过滤推荐算法中, 相似度计算是算法中的核心, 然而之前的计算方式过于依赖用户的评分, 没有考虑到用户本身的属性以及信任度, 并且没有对恶意用户进行区分, 为解决上诉问题, 本文将一种改进的新型信任关系度量方式融入到相似度计算中, 这种新型的方法不仅考虑了恶意用户的影响, 并且有效地结合用户本身的属性. 另外, 文章就热点问题对相似度计算也进行了改进. 算法最终利用初始用户聚类不断迭代得到相邻用户, 有效的消除了冷启动和数据稀疏的问题. 实验部分, 通过与其它几种推荐算法的比较可以证明, 提出的算法能够有效提升推荐准确度. 相似文献
4.
5.
针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.单个概念的意义识别问题被转换为概念空间中上下位关系的意义识别.首先利用并列语境解决语境稀疏问题,获取上下位关系意义的语境.然后利用<同义词词林>对每个语境进行词义修正,以三种特征计算特征词权重,构建"关系一词'的高维向量空间,然后通过潜在语义分析降维,获取上下位关系意义的潜在语义,最后组平均聚类后得到关系的意义划分.在实验中,给出了聚类阈值自动调整函数,分析了词林和潜在语义分析的作用,实验结果证实了方法的有效性. 相似文献
6.
对密度分布不均匀的数据采用近邻传播的谱聚类,存在误将不同类的样本传入同一高相似度的子集中的情况,因而得不到真实的相似度矩阵和准确的聚类结果.针对这一问题,提出一种基于局部密度估计和近邻关系传播的谱聚类(LDENP-SC)算法.该算法首先对样本进行密度估计并升维,然后对新数据采用传播算法更新相似度矩阵并谱聚类.在计算密度时提出一种简易的局部密度计算方法,该方法既能反应样本的密度又能减少运算时间;在更新相似度矩阵时基于传播算法提出一种更新子集间样本相似性的方法,使更新后样本的相似度更接近实际.实验结果表明,LDENP-SC算法能够得出取得理想的相似度矩阵和准确的聚类结果,具有较好的泛化能力,且对一定范围内的参数σ表现出鲁棒性. 相似文献
7.
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 相似文献
8.
蚂蚁等群居式昆虫具有分布式、自组织、基于信息素间接通信(pheromone)等群体协作能力,模拟其智能行为的蚁群算法解决了许多复杂的问题并在并在数据聚类分析领域取得成效。本文首先介绍了基于蚂蚁的聚类算法的基本理论,讨论了参数σ对邻域平均相似度的影响并做了实验分析比较,然后提出利用离散点对算法进行改进,通过对离散点的检测算法能够对蚂蚁行为进行控制,使蚂蚁快速地决定下一个负载节点,从而有效地缩短聚类分折的执行时间。实验表明改进后的蚂蚁聚类算法具有较好的聚类特性,其收敛性也得到了有效改善。 相似文献
9.
《计算机应用与软件》2016,(7)
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。 相似文献
10.
11.
12.
传统动态时间规整算法(Dynamic Time Warping,DTW)及其变种算法被广泛应用于多维时间序列的相似性分析,但它们通常只关注单个时间点的信息而忽略了上下文信息,从而很可能匹配两个形状完全不同的点。因此提出一种结合形状特征及其上下文的多维DTW算法(Multi-Dimensional Contextual Dynamic Time Warping,MDC-DTW)。该算法首先计算多维时间序列的一阶梯度,然后对其进行采样处理,并以多维梯度矩阵表示当前时间点的形状信息及其上下文信息,最后利用DTW求解多维时间序列间的最短匹配路径。为检测算法设计的合理性,对算法进行了定性分析和定量分析,实验结果表明MDC-DTW算法设计是合理的;为检测MDC-DTW的性能,选用5个多维时间序列数据集,并与4个优异的多维DTW算法进行对比实验,实验结果表明MDC-DTW具有较高的准确率和运行效率。 相似文献
13.
14.
15.
点互信息(PMI)边界检测算法能准确检测图像中的边界,但算法效率受制于采样点的提取。针对采样过程中存在随机性和信息冗余的问题,提出一种利用超像素分割提供的中层结构信息来指导点对选取的方法。首先使用超像素算法对图像进行初始分割,将图像划分成大小形状近似的像素块;然后选取落在相邻超像素中的像素点对,从而使样本点的选取更有目的性,在采样点数目较少时,保证样本点仍能有效完整地获取图像信息。实验通过与原始的PMI边界检测算法在伯克利分割数据库(BSDS)上进行比对验证得出,基于超像素的PMI边界检测算法在采样点对为3500时,平均精准度(AP)达到0.7917,而原始算法则需要6000个同样环境下的采样点对。基于超像素的PMI边界检测算法在保证了检测精度的同时减少了所需的采样点数目,从而能有效提高算法的实时性。 相似文献
16.
针对传统谱聚类算法中亲合矩阵构造不准确和聚类结果不稳定的问题,提出一种基于邻里关系传播与模式合并的谱聚类算法。根据邻里关系传播原则更新子集内样本的相似度,设计局部最大相似值更新方法更新子集间样本的相似度,使用模式合并技术对子集个数较多的集合加以合并得出粗类,再对粗类间样本相似度进行二次更新,构造出亲合矩阵并将其用于谱聚类运算。实验结果表明,二次更新后,同类中样本的相似度被相对性放大,而不同类中样本的相似度则相对性缩小。与近邻传播的谱聚类算法相比,使用该算法能够得到更准确、稳定的聚类结果。 相似文献
17.
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。 相似文献
18.
在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(joint Laplacian regularization and adaptive feature learning,简称LRAFL)的数据聚类算法.基于自适应近邻进行图拉普拉斯学习,并将低维嵌入、特征选择和子空间聚类纳入同一框架,替换传统谱聚类算法先图Laplacian构建、后谱分析求解的两级操作.通过添加非负加和约束以及低秩约束,LRAFL能获得稀疏的特征权值向量并具有块对角结构的Laplacian矩阵.此外,提出一种有效的求解方法用于模型参数优化,并对算法的收敛性、复杂度以及平衡参数设定进行了理论分析.在合成数据和多个公开数据集上的实验结果表明,LRAFL在效果效率及实现便捷性等指标上均优于现有的其他数据聚类算法. 相似文献
19.
20.
在信息处理研究领域,现有的大多数聚类算法都需要人为地给出一些参数.然而,在没有先验知识的情况下,人为地确定这些参数是十分困难的,而且现有的聚类算法的时空效率也有待于进一步提高.为了解决这一难题,首先根据样本分布特性,通过数学分析,得到确定样本空间划分间隔数的数学函数,然后,再根据样本分布特性,采用爬山的策略得到样本类的划分,最后提出了一种实用而高效的聚类算法.从多个角度分析了该算法的性能,并将该算法应用于中文文本聚类.理论分析和应用结果都表明,该算法不仅不需要人为确定参数,同时,还可以提高信息处理的时空效率和性能. 相似文献