首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
王贤明  谷琼  胡智文 《计算机应用》2015,35(11):3130-3134
针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法.该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类.实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右.随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势.此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单.  相似文献   

2.
海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测.提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对.在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对.  相似文献   

3.
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法.该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题.算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率.  相似文献   

4.
针对PathSim算法只能度量异构网络同类节点和预设元路径的问题,提出可度量任意类型节点的加权融合元路径的相似性度量算法Multi-WPathSim.基于随机游走与CBOW模型进行元路径的表示学习,获得路径集合及权重,在元路径融合算法的基础上进行相似性度量,解决PathSim算法需要预设元路径的不足,通过双向游走克服PathSim算法只能度量同类节点相似性的局限性.在真实数据集中进行Top-K查询、相似性度量和聚类实验对比,Multi-WPathSim算法在对称和非对称元路径上,相似度准确率和聚类精度都有明显提升.  相似文献   

5.
针对密文的相似性度量问题,提出了一种新的密文文本相似性度量方法。该方法通过定义关键词的有效作用域、相对作用域、分散域的概念,有效克服了现有的关键词权重量化方法不能对篇幅不同、结构不同的文档进行相对公平的关键词权重量化的不足,同时显著减少了文本度量时所依赖的关键词数量。进一步对文档的关键词进行重提取,并建立文档的关键词密文索引条目,通过密文的索引条目来度量密文的相似性。将该方法在真实文档上进行实验,并同其它算法进行比较,结果表明所提出的方法在准确率和召回率两方面优于其它参与比较的算法,并能在准确率和召回率之间取得比较好的平衡。  相似文献   

6.
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。  相似文献   

7.
基于最大-最小相似度学习方法的文本提取   总被引:1,自引:0,他引:1  
付慧  刘峡壁  贾云得 《软件学报》2008,19(3):621-629
应用最大-最小相似度(maximum-minimum similarity,简称MMS)学习方法,对基于高斯混合模型的文本区域提取方法中的有关参数进行优化.该学习方法通过最大化正样本相似度和最小化反样本相似度获得最佳分类能力.根据这种判别学习思想,建立了相应的目标函数,并利用最速梯度下降法寻找目标函数最小值,以得到文本区域提取方法的最优参数集合.文本区域提取实验结果表明:在用期望最大化(expectation maximization,简称EM)算法获得参数的极大似然估计值后,使用最大-最小相似度学习方法,使文本提取综合性能明显提高,开放实验的召回率和准确率分别达到98.55%和93.56%.在实验中,最大-最小相似度学习方法的表现还优于常用的判别学习方法——最小分类错误(minimum classification error,简称MCE)学习方法.  相似文献   

8.
提出一种融合化学反应优化与K均值的文本聚类算法.结合K均值聚类的局部快速开发寻优能力和化学反应优化的全局勘探能力,以K均值聚类解集合作为化学反应优化的初始分子结构群,通过引入单分子碰撞、单分子分解、分子间碰撞和分子间合成4种化学反应操作,增加种群分子多样性;利用融合余弦相似度和欧氏距离的适应度函数评估分子优劣,在扩展搜索空间的基础上求解最优文本聚类.聚类测试结果表明,在多数数据集上,算法在适应度、准确率、精确率、召回率和F度量等指标上均表现更好.  相似文献   

9.
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。  相似文献   

10.
为了解决协同过滤算法推荐精度低的问题,提出基于用户相似度和信任度的药品推荐算法。该方法通过离线使用DBSCAN算法对药品进行聚类来降低时间复杂度。引入共同评分药品阈值使用户相似度计算更准确,同时设置相似度阈值来限定相似性邻居的选取以克服KNN算法选取邻居的缺陷。根据用户的推荐可信度和评分可信度建立信任计算模型,计算基于相似邻居集的可信邻居集。通过两次邻居选择策略为目标用户产生药品推荐。仿真结果表明,该算法与其他算法相比在平均绝对误差、准确率和召回率上有更好的性能,提高了系统推荐精度。  相似文献   

11.
针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。  相似文献   

12.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

13.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

14.
张宇波  张亚东  张彬 《计算机应用》2019,39(8):2414-2419
针对桌面灰尘检测在光照变化时有灰尘与无灰尘图像相似度区分界限不明显的问题,提出一种基于兰氏距离改进的图像相似度算法。该算法融合指数函数性质,将模板图与有灰尘和无灰尘图像之间的兰氏距离转换为(0,1]区间的相似度值,同时扩大相似度差值。为增强灰尘纹理特征信息,将灰度图进行拉普拉斯算子卷积,再用共生矩阵特征提取算法提取特征参数并将其组合成一维向量。用改进后的相似度算法计算模板图与待检测图的特征参数向量相似度,根据向量相似度判断桌面是否具有灰尘。实验结果表明在300~900 lux光照范围内,无灰尘图像之间的相似度高于90.01%,有灰尘与无灰尘图像之间的相似度低于62.57%。两种相似度的均值能够作为阈值,在光照变化时有效地判断桌面是否具有灰尘。  相似文献   

15.
王刚  钟国祥 《计算机科学》2010,37(9):222-224
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Based on Ontology).该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系.设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法.实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量.  相似文献   

16.
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.  相似文献   

17.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

18.
针对原始kmeans算法对聚类数k很敏感这一问题,设计一种改进的kmeans算法。该算法基于共现词的原理计算词向量之间的相似性,并根据相似性阈值将数据划分为k+x个簇,再将kmeans算法用于k+x个簇中。将改进后的算法应用于文本聚类中,实验结果表明,改进后的算法比原算法聚类准确性更高。  相似文献   

19.
专利网络是复杂网络领域重要的组成部分,研究专利网络对理解和把握技术创新方向具有重要指导作用。利用专利文本数据构建无向加权专利网络图,并基于启发式社团发现模型提出一种创新态势研判算法。为了缓解专利标题和摘要短文本引发的文本向量稀疏问题,采用非监督的稀疏向量稠密化方法;为了解决专利网络构建过程中的相似度阈值自动化选择问题,以实验驱动的方法对比相似度阈值与专利网络常用统计指标的变化关系,最终选用平均聚类系数这一指标实现了最优相似度阈值的自动化判定。以我国数字中国及大数据领域真实发明专利数据为驱动,验证了方法的有效性并分析了数字中国及大数据领域创新态势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号