首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。  相似文献   

2.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

3.
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度. 实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.  相似文献   

4.
为实现飞机装配指令编制的快速化、智能化,提出基于图论的飞机典型装配工艺数据挖掘方法。该方法将停用词表和分隔数组两个约束引入语义分词法完成装配工艺指令的分词处理,并以装配工艺特征向量结构化地表达分词后的装配工艺指令。将装配工艺特征向量映射为单向有序链,以此构建装配工艺图。通过定义装配工艺图的节点支持度和边支持度,给出了典型装配工艺挖掘方法。以某型飞机的平尾装配工艺为例,在多个支持度下验证了方法的有效性。  相似文献   

5.
一种结合词项语义信息和TF-IDF方法的文本相似度量方法   总被引:14,自引:0,他引:14  
黄承慧  印鉴  侯昉 《计算机学报》2011,34(5):856-864
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分...  相似文献   

6.
潜在语义分析理论及其应用   总被引:18,自引:1,他引:17  
潜在语义分析(Latent Sereantic AnMysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。  相似文献   

7.
元搜索引擎的结果去重及排序研究   总被引:2,自引:0,他引:2  
杨春明  何天翔 《软件》2012,(6):51-53
结果去重和排序是提高元搜索引擎结果质量的两个关键问题,文章分析余弦相似度、基于TF-IDF的文本相似度三种去重算法,利用URL、标题和计算摘要相似度三方面去重;研究了Board排序、星星排序、轮询法、位置排序和概念可行度对检索结果的影响,提出了一种综合排序算法。实验结果表明,综合排序算法在准确率、召回率等方面都优于其他算法。  相似文献   

8.
为了重用装配体模型中包含的设计、制造和装配工艺等信息,需要在装配体模型数据库中搜索相似的装配体模型作为参考.为此提出一种基于属性邻接图匹配的装配体模型搜索方法.首先提取装配体模型中零件的接触面信息,将装配体模型及其零件模型分别转化为零件属性邻接图和接触面属性邻接图;然后计算用于零件模型匹配的成功匹配接触面数量、接触面关系编码数量以及用于装配体模型搜索的零件相似度矩阵,将其作为零件模型和装配体模型相似度度量;最后由最优匹配Kuhn-Munkres算法得到零件相似度矩阵最优匹配加权和,作为装配体模型相似度.实验结果表明,该方法能有效地搜索到相似的装配体模型,并且对模型的相似度进行了排序.  相似文献   

9.
基于统计的TF-IDF相似度计算方法由于不考虑词语的语义信息,不能准确地反映文本间的相似性.针对该问题,提出一种结合语义理解和TF-IDF的科技项目相似度计算方法.在项目分词的基础上,利用《知网》计算两个项目间的特征项语义相似度,基于TF-IDF计算每个特征项的权重,然后针对权重大于给定阈值的特征项进行加权进而计算得到项目相似度值.实验结果表明,该方法效果优于单纯的TF-IDF和语义理解的方法.  相似文献   

10.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

11.
12.
为了提高文本分类算法的效率和精度,必须使用特征选择算法来降低特征空间的维数。然而许多常用特征选择算法在选择属性时,只是利用特征的权重而并没有考虑特征之间的隐含关系,使得得到的特征集存在一定的冗余,并不具备较好的代表性。首先给出了一个基于最小词频的文档频方法,并用它过滤掉一些词条以降低文本矩阵的稀疏性,然后使用LSA进行词语间的语义分析,消除同义词和多义词的影响,提高了文本分类的速度与精确度。实验结果表明此种特征选择方法效果良好。  相似文献   

13.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

14.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

15.
《Ergonomics》2012,55(3):370-382
A series of 13 experiments over a period of four years investigating various methods of presenting work instructions to employees is reported. It is concluded that the communication medium is very important and that different media affect both time and errors. Error rates can be cut to from one-third to one-tenth of existing rates while the associated assembly time is usually cut to one-half of the existing time. Four different assembly tasks were used. The number of subjects in each experiment ranged from 8 to 64. A wide variety of communication techniques such as a typed list of step-by-step instructions, three picture slides per assembly, one picture slide per assembly, a list with a place keeping device, audio, an ‘ information board ’, audio plus a list, slides plus audio, photographs, and models were used. The best medium is pictorial in which an operator can match a picture with the assembly to be built.

Less desirable media are those (such as a typed step-by-step list of instructions) which require the operator to translate abstract symbols such as words into a mental image and then match his assembly with the mental image.

If abstractions such as colours, directions, and relationships are presented by audio, the problem of both memory or referability and translation occurs. Once the message has been presented it is gone. Therefore, the operator must, in effect, memorize the instruction when it is presented. Even if the operator is permitted to control the rate of presentation of the information, momentary lapses or interruptions may cause information to be omitted or misinterpreted. Tape recorded instructions tend to have a strong pacing effect which restricts productivity  相似文献   

16.
神经机器翻译技术能够自动翻译多种语言的语义信息, 已被应用于跨指令集架构的二进制代码相似性检测, 并取得了较好的效果. 将汇编指令序列当作文本序列处理时, 指令顺序关系很重要. 进行二进制基本块级别相似性检测时, 神经网络使用位置嵌入来对指令位置进行建模. 然而, 这种位置嵌入未能捕获指令位置之间的邻接、优先等关系. 针对该问题, 本文使用指令位置的连续函数来建模汇编指令的全局绝对位置和顺序关系, 实现对词序嵌入的泛化. 首先使用Transformer训练源指令集架构编码器; 然后使用三元组损失训练目标指令集架构编码器, 并微调源指令集架构编码器; 最后使用嵌入向量之间欧氏距离的映射表示基本块之间的相似程度. 在公开数据集MISA上的实验表明, P@1评价指标达到69.5%, 比对比方法MIRROR提升了4.6%.  相似文献   

17.
A similarity measure is a useful tool for determining the similarity between two objects. Although there are many different similarity measures among the intuitionistic fuzzy sets (IFSs) proposed in the literature, the Jaccard index has yet to be considered as way to define them. The Jaccard index is a statistic used for comparing the similarity and diversity of sample sets. In this study, we propose a new similarity measure for IFSs induced by the Jaccard index. According to our results, proposed similarity measures between IFSs based on the Jaccard index present better properties. Several examples are used to compare the proposed approach with several existing methods. Numerical results show that the proposed measures are more reasonable than these existing measures. On the other hand, measuring the similarity between IFSs is also important in clustering. Thus, we also propose a clustering procedure by combining the proposed similarity measure with a robust clustering method for analyzing IFS data sets. We also compare the proposed clustering procedure with two clustering methods for IFS data sets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号