首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

2.
现有的词语语义相似性计算主要包括基于向量模型以及基于词汇分类体系两类方法,但这两类方法都存在自身的缺点。向量模型所依赖的文本共现中的上下文信息不等同于真正意义上的语义,而词汇分类体系方法则存在构建代价大,并且在一定程度上还不够完善的问题。该文提出一种向量模型与多源词汇分类体系相结合的词语相似性计算方法,采用多源词汇分类体系的近义词关系以及向量模型得到的词向量,计算得到词语的向量表达,并探索了不同类型词汇分类体系提供的知识的选用和融合问题,弥补了单一词向量和单一词汇分类体系在词语相似性计算中的缺点。该文采用了NLPCC-ICCPOL 2016词语相似度评测比赛中的PKU 500数据集进行评测。在该数据集上,该文的方法取得了0.637的斯皮尔曼等级相关系数,比NLPCC-ICCPOL 2016词语相似度评测比赛第一名的方法的结果提高了23%。  相似文献   

3.
传统轨迹检测方法中的轨迹相似度仅从位置向量进行度量,忽略了轨迹数据的速度和时间特征,这导致轨迹检测结果无法全面反映实际状况,降低了检测结果的有效性.针对上述问题,提出一种面向多个特征向量的轨迹数据相似性度量及检测方法.该方法首先将轨迹数据映射到图模型描述的轨迹图中,每条轨迹是轨迹图的一个节点;针对各节点的速度、时间和空...  相似文献   

4.
赵一鉴  林利  王茜蒨  闻鹏  杨东 《计算机应用》2023,(11):3594-3598
目前基于相似度的移动目标轨迹预测算法一般根据数据的时空特性进行分类,无法体现算法自身的特点,为此提出一种基于算法特征的分类方法。轨迹相似度算法通常需要先计算两点之间的距离,再开展后续计算,而常用的欧氏距离(ED)只适用于目标在小区域范围内移动的问题。针对现有基于相似度的轨迹预测算法无法适用于移动范围比较大的海上目标轨迹预测的问题,提出使用大地距离代替ED进行相似度计算。首先,对轨迹数据进行预处理和分段;其次采用离散弗雷歇距离(FD)作为相似性度量;最后,利用模拟数据和实际数据进行测试。实验结果表明,当海上目标移动范围较大时,采用ED算法可能会得到不正确的预测结果,而所提算法可输出正确的目标轨迹预测结果。  相似文献   

5.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

6.
针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此注意力加权后的新的句子表示矩阵,将获取的新矩阵同原始矩阵拼接融合,丰富句子特征信息;将拼接后的句子特征矩阵作为Transformer编码器网络的输入,由Transformer编码器分别对其进行深层次语义编码,获得句子的全局语义特征;通过全连接网络和Softmax函数对特征进行权重调整,得到句子相似度。在中文医疗健康问句数据集上模型取得了90.2%的正确率,较对比模型提升了将近4.2%,验证了该方法可以有效提高句子的语义表示能力和语义相似度的准确性。  相似文献   

7.
用户移动上网访问基站的轨迹数据从时间和空间上反映了用户的生活习惯和行为模式。时间和空间信息同时产生不应分别考虑。因此,该文在传统的TF-IDF方法基础上提出了与时间相关的TFT-IDFT方法,用以提取轨迹点语义信息,进而采用word2vec方法将轨迹数据转化为文档分析。提取包含位置信息和语义信息的轨迹时空词向量,在此基础上建立多分类模型对用户所属年龄段进行识别。实验结果表明,改进的TFT-IDFT方法在提取轨迹语义时更具合理性,且基于此方法构建的轨迹时空词向量应用于分类模型,对用户所属年龄阶段的识别效果更好。  相似文献   

8.
随着移动传感器设备的普及,人们能够采集到的位置数据越来越多,轨迹数据的规模也越来越庞大.从大规模时空数据中查找与指定轨迹最相似的前k条轨迹一直是时空大数据挖掘的重要挑战之一.现有的相似轨迹查询方法大都包括三个阶段:(1)对海量的离线轨迹数据建立索引;(2)基于索引结构从已知轨迹集中查询与指定轨迹相似的候选轨迹;(3)计算指定轨迹与候选轨迹之间的精确相似度并返回相似度最大的前k条轨迹.但大多数现有方法对轨迹进行聚类索引时不能有效利用时间和空间信息,导致时间相似度不高的轨迹也会被划分到相同的索引项上,最终影响查询的准确性和效率.此外,现有的时空轨迹相似度计算方法存在大量的无效运算,使得相似轨迹的查询效率整体较低.针对当前伴随轨迹查询方法对时间与空间信息利用不充分的问题,本文提出一种新的二级时空分桶索引结构,首先将每条轨迹数据按照时间滑动窗口划分为若干带有时间槽信息的子轨迹,在时间上对轨迹进行一级索引聚类;在此基础上对在相同时间槽内的子轨迹进行二级空间索引聚类,利用哈希算法将具有连续相同位置点的子轨迹映射到同一时空分桶中.与已有索引方法相比,该方法对不同轨迹在索引时具有更好的区分度,查询时的...  相似文献   

9.
赵敏 《计算机仿真》2021,38(9):181-184,375
为提高数据传输过程的挖掘效率和原始数据的质量,提出了一种并行多路径传输过程数据相似性检测方法.首先,通过位码代替法计算并行传输过程数据架构的相似度,然后利用优化编译剔除数值化后的公共子代表式,并将其转化成汇编数据.这一过程中,由于传输偏移地址、函数地址、部分跳转指令与立即数存在大量噪声,因此需通过反汇编过程对噪声滤波进行归一化处理,从而构成汇编数据集合,再利用下三角矩阵将传输数据之间的相似度对比转换为储存矩阵之间的相似度对比,并计算矩阵内架构相似度与语义相似度,实现数据相似度检测.仿真结果证明,相比于传统方法,上述方法的数据召回率和检测损耗较小,且相似性检测误差较小,有效性更高.  相似文献   

10.
针对大部分轨迹相似性度量算法无法区分方向相反轨迹的问题,提出了一种基于三维空间面积划分的三维三角分割(3TD)算法。首先,按照3TD算法的时间转换规则将轨迹集的绝对时间序列转变为相对时间序列;然后,在由经度、纬度以及时间三要素构成的三维空间坐标系中,通过划分规则将轨迹间面积分割成若干互不重叠的三角形,累加三角形面积并计算轨迹相似度;最后,在从船舶自动识别系统(AIS)收集的随机采样轨迹数据集上,与最长公共子序列(LCSS)算法和三角分割(TD)算法等进行了对比实验。实验结果表明:3TD算法对实验数据集中异向轨迹识别精确度达到100%;同时该算法面对海量数据集以及轨迹点部分缺失的数据集时,也能维持准确的度量结果以及较高的运算效率,能更好地适应异向轨迹相似度量工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号