共查询到19条相似文献,搜索用时 62 毫秒
1.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。 相似文献
2.
3.
孙德刚 《信息技术与信息化》2023,(3):109-112
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。 相似文献
4.
基于相似度的词聚类算法 总被引:1,自引:1,他引:0
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果. 相似文献
5.
6.
7.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。 相似文献
8.
9.
目前实现智能化推荐功能,通常有两种方式,一种是基于用户的协同过滤推荐系统,另一种是基于内容相似度的推荐系统。采用协同过滤的推荐系统时,通常需要较为庞大的用户群体,本文主要选择基于内容相似度的推荐系统进行论述。在使用该系统时,往往需要对文档与对应的标题或语素进行相关性评分,通过评分对每位用户提供个性化的推荐,进而达到为每位用户提供更好地体验。这就会用到TF-IDF算法和BM25算法对文档进行相关性评分,本文对这两种方法的算法原理、优缺点以及改进方案展开论述,着重强调TF-IDF与BM25算法之间的区别与联系。 相似文献
10.
基于SVSM的装备故障案例相似度匹配算法 总被引:1,自引:0,他引:1
《无线电工程》2016,(2):31-35
分析和总结了电子防护装备故障案例的特点,设计了电子防护装备故障诊断的领域本体。利用本体在表示案例时所体现的语义关联信息,提出了基于领域本体的语义特征向量空间模型(Semantic Vector Space Model,SVSM),弥补了传统的向量空间模型在描述故障特征项语义关联度时忽略了文档词条的位置和结构因素的缺陷。引入自定义权值的语义特征项标志位,提出了一种改进的基于案例推理的电子防护装备故障诊断算法,提高了SVSM各维度值的准确性和相似度匹配算法的自由度。通过实验,验证了算法的有效性和可靠性。 相似文献
11.
12.
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. 相似文献
13.
一种基于主题相关度的网页排序算法 总被引:1,自引:0,他引:1
针对现有基于链接结构的PageRank算法的不足,提出了基于网页主题相关度的改进PageRank算法.通过分析网页内容,提取出网页中的链接及其对应的锚文本,建立网页链接库,利用向量空间模型(VSM)计算链接锚文本和网页内容的相关度,在此基础上实现离线计算改进后的PageRank算法.理论分析和仿真实验表明,改进的PageRank算法使用户能方便地找到所需网页,提高了网页查询效率. 相似文献
14.
吕岩 《微电子学与计算机》2012,29(3):31-34
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度. 相似文献
15.
随着信息技术的迅速发展,网络已经逐步成为人们生活当中不可或缺的信息传播工具。由于网络资源的大量使用和信息的大量传输,导致信息过载及安全等问题日益突出。为了解决信息过滤的过滤精度和效率瓶颈等问题,这里详细地对文本信息过滤的主要过程、文本表示方法、特征向量获取、相似度计算等技术进行研究,提出一个基于特征向量的文本信息过滤算法。该过滤算法有效地平衡了计算负载,具有较高的信息过滤性能。 相似文献
16.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 相似文献
17.
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。 相似文献
18.
针对基于词项的句子相似度计算存在信息冗余干扰和局部最优的缺陷,提出一种改进的基于知网的句子相似度计算方法。该方法通过增加筛选候选语句以降低冗余信息对准确度造成的干扰,同时在分词和词性标注的基础上,采用改进的带权最大二分图匹配算法获得全局最优匹配。实验结果表明,文中提出的方法有效地提高了句子相似度计算的准确度。 相似文献
19.
文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。 相似文献