首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 74 毫秒
1.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

2.
基于文本分类的文档相似度计算   总被引:1,自引:0,他引:1  
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。  相似文献   

3.
以中医针灸决策系统中的处方数据为基础,利用协同过滤思想推荐核心腧穴集合,为医生提供决策支持。通过处理历史针灸处方数据,将改进的Jaccard算法计算各腧穴的平均相似度,根据平均相似度选取关键腧穴,推荐与关键腧穴相似的TOP-N腧穴作为核心腧穴。实验挖掘了26种疾病的核心腧穴,其中可用的有21种,可用度达到80.77%。实验表明改进的Jaccard相似度协同过滤能算法能有效的推荐出治疗特定疾病的核心腧穴。  相似文献   

4.
李斌  张博  刘学军  章玮 《计算机科学》2016,43(12):200-205
协同过滤是现今推荐系统中应用最为成功且最广泛的推荐方法之一,其中概率矩阵分解算法作为一类重要的协同过滤方式,能够通过学习低维的近似矩阵进行推荐。然而,传统的协同过滤推荐算法在推荐过程中只利用用户-项目评分信息,忽略了用户(项目)间的潜在影响力,影响了推荐精度。针对上述问题,首先利用Jaccard相似度对用户(项目)做预处理,而后通过用户(项目)间的位置信息挖掘出其间的潜在影响力,成功找到最近邻居集合;最后将该邻居集合融合到基于概率矩阵分解的协同过滤推荐算法中。实验证明该算法较传统的协同过滤推荐算法能够更有效地预测用户的实际评分,提高了推荐效果。  相似文献   

5.
文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法——S-SimRank(Star—SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S—SimRank的收敛性的数学证明。  相似文献   

6.
针对同一机构实体对应多个机构名称的问题,提出了一种基于Jaccard相似度数据空间转换的机构别名挖掘方法。根据机构与作者间的隶属关系,建立机构-作者二部图模型;采用Jaccard相似度度量两机构名称所对应作者姓名集合间的相似度;根据机构间的相似度矩阵,将集合型数据转换成数值型数据;通过计算机构名称对应的相似度向量间的余弦相似度,实现了机构别名的有效挖掘。最后用真实数据进行对比实验验证了该方法的优越性。  相似文献   

7.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。  相似文献   

8.
文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法—S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S-SimRank的收敛性的数学证明。  相似文献   

9.
文本相似度的计算在数字图书馆系统里有着广泛的应用前景。该文采用余弦系数和向量空间模型计算文本的相似度.并给出了实现的方法。  相似文献   

10.
文本相似度的计算在数字图书馆系统里有着广泛的应用前景。该文采用余弦系数和向量空间模型计算文本的相似度,并给出了实现的方法。  相似文献   

11.
嵇威华  吕国芳 《控制工程》2015,22(1):98-101
为了更好的处理运用D-S证据理论时出现高度冲突证据的情况,提出了一种基于广义Jaccard系数的加权组合方法。该方法利用广义的Jaccard系数公式求出各个证据体的权值,提高相近识别结果的证据体支持度;然后对证据体的权值归一化处理、加权平均,减少算法的复杂度;最后利用标准的D-S合成规则进行多次信息融合,进一步减小冲突证据的影响,从而给出符合实际的辨识结论。详细介绍了该方法的理论推导过程和具体计算步骤。实际案例计算表明:该方法相较于其他改进方法,在处理不相关性冲突证据方面更具有简单性、实用性以及高效性。  相似文献   

12.
语义向量差异性度量是采用深度学习方法解决自然语言处理领域问题的重要基础。在高维语义向量差异性度量中存在“度量集中”问题,导致通过传统的度量方法得到的度量结果无法体现语义向量间的差异性。针对该问题,提出一种基于非对称多值特征杰卡德系数的差异性度量方法。由高维语义向量维度值的统计分布得出,部分维度的维度值密集地分布在特定值域内,导致其无法贡献差异度,因此不同维度对差异性的贡献量不同,具有非对称性。该方法定义了关于维度值的重要性函数,选取重要性函数值满足阈值的维度参与差异度计算,去掉无法贡献差异度的维度,从而实现了降维,缓解了“度量集中”问题。分别在渔业数据集和公开数据集上,对不同维度的语义向量的不同度量方法进行了比较,结果表明在语义性没有明显变差的情况下,所提方法的多样性指标较目前最优的度量方法有大幅提高。  相似文献   

13.
为了减小无需测距的DV-hop算法的定位误差,提出基于杰卡德系数跳数修正因子的DV-hop改进算法(JDV-Hop)。改进算法使用节点个数集合的杰卡德系数细化节点间的跳数,减小对节点单跳距离内未知节点跳数的估计误差,然后利用DDV-hop算法中的差分误差系数进一步修正节点间的平均跳距。最后在选择参与定位计算的锚节点时,引入一种节点间可以协作式定位的可信度因子,将定位结果精度高的节点升级为新的锚节点,进行下一轮定位。MATLAB仿真结果显示,在相同条件下,改进算法不仅无需增加额外的硬件开销,且与DDV-hop等现有改进算法相比具有明显更高的定位精度。  相似文献   

14.
基于TF-IDF和余弦相似度的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。  相似文献   

15.
基于最大-最小相似度学习方法的文本提取   总被引:1,自引:0,他引:1  
付慧  刘峡壁  贾云得 《软件学报》2008,19(3):621-629
应用最大-最小相似度(maximum-minimum similarity,简称MMS)学习方法,对基于高斯混合模型的文本区域提取方法中的有关参数进行优化.该学习方法通过最大化正样本相似度和最小化反样本相似度获得最佳分类能力.根据这种判别学习思想,建立了相应的目标函数,并利用最速梯度下降法寻找目标函数最小值,以得到文本区域提取方法的最优参数集合.文本区域提取实验结果表明:在用期望最大化(expectation maximization,简称EM)算法获得参数的极大似然估计值后,使用最大-最小相似度学习方法,使文本提取综合性能明显提高,开放实验的召回率和准确率分别达到98.55%和93.56%.在实验中,最大-最小相似度学习方法的表现还优于常用的判别学习方法——最小分类错误(minimum classification error,简称MCE)学习方法.  相似文献   

16.
本体可以提供强大的知识表示方法,是信息检索领域中的重要内容。传统的本体概念相似度计算方法大多采用特定于描述语言的通用推理服务来进行匹配,这些方法忽略了概念的语义信息。通过设计一个基于OWL本体的语义检索模型,介绍了如何通过概念的属性以及层次关系来表达概念的语义,计算概念间的柔性相似度。实验结果表明,该方法能充分利用OWL属性特征与层次关系来计算相关概念之间的柔性相似度,可以根据需要动态地调节匹配范围,并给出其在文本分类中的应用。  相似文献   

17.
杨家慧  刘方爱 《计算机应用》2016,36(7):2006-2010
针对传统基于邻域的协同过滤推荐算法存在数据稀疏性及相似性度量只能利用用户共同评分的问题,提出一种基于巴氏系数和Jaccard系数的协同过滤算法(CFBJ)。在项目相似性度量中,该算法引入巴氏系数和Jaccard系数,巴氏系数利用用户所有评分信息克服共同评分的限制,Jaccard系数可以增加相似性度量中共同评分项所占的比重。该算法通过提高项目相似度准确率来选取最近邻,优化了对目标用户的偏好预测和个性化推荐。实验结果表明,该算法比平均值-杰卡德差分(MJD)算法、皮尔森系数(PC)算法、杰卡德均方差(JMSD)算法、PIP算法误差更小,分类准确率更高,有效缓解了用户评分数据稀疏所带来的问题,提高了推荐系统的预测准确率。  相似文献   

18.
文本聚类过程中,存在着文本数据空间维数巨大,聚类的数目不能直接确定等问题。为此,有专家学者提出了次胜者受罚的竞争学习(Rival Penalized Competitive Learning)算法,简称RPCL算法。该算法在一定程度上,解决了聚类的数目的确定问题。但是,该算法只适合做低维数据的聚类,对于高维数据聚类效果极差。该文提出了一种改进的RPCL算法,该方法不再采用欧氏距离去计算相似度,而是采用模糊相似度的方法,通过实验表明,改进的RPCL算法在聚类效果上好于经典的RPCL算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号