首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于后缀树词序列核挖掘Web文档   总被引:1,自引:1,他引:0  
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类.理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间.在reuters21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用.  相似文献   

2.
计算机实验教学平台是现代实验教学改革的一个重要内容。然而,在以往的实验教学模式中,仅凭教师检查很难发现学生作业是否抄袭。为了解决此问题,本文将基于数字指纹的代码相似度检测算法应用到程序设计实验教学平台中。实践表明,学生之间的抄袭现象得到控制,教师的评判工作量也大大降低。  相似文献   

3.
黄影 《电子科技》2013,26(10):73-75
基于自顶向下的后缀树建立思想,提出一种分步建立后缀树的方法。首先对字符串中所有后缀按照字母表顺序进行排序,然后求出有序相邻后缀之间的最长公共前缀,并根据后缀顺序和最长公共前缀建立后缀树。该方法无需使用后缀链,并且可以在线性时间建立后缀树。  相似文献   

4.
为了给C语言编程题进行合理评分,本文提出了一种新型的自动评分方法,在动态检测阶段先利用KMP算法执行关键字匹配,若匹配相似度落入预期值区间,则将学生源程序转换为可执行文件,通过预先设置的测试用例来驱动评分;若关键字匹配未通过、程序无法运行或者运行期间出现异常,则执行静态分析.静态分析阶段选取控制结构作为静态评分的关键因素,采用抽象语法树作为源代码的中间转换形式,并对其标准化以消除代码语义的多样性;根据抽象语法树中的结点类型提取出控制结构子树;最后,利用基于结点权值的树编辑距离算法来匹配标准化后的学生源程序与模板程序的控制结构子树,计算相似度并给出综合评分结果.实验结果表明,该方法能够对程序进行合理有效地评分,并且具有较高的准确率.  相似文献   

5.
针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义关系的聚类标签,在后缀树聚类基础上对这些标签进行二次聚类。通过引入文本预处理和WordNet语义相似度计算的基础上来实现服务自动分类。实验结果表明,该服务自动分类算法具有较好的准备率和查全率,另外根据WordNet提取出抽象的聚类标签,有利于对日益剧增的网络服务进行抽象层次的分类,提高了海量网络服务分类的效率。  相似文献   

6.
通过分块的色彩直方图对视频进行分割,提取每个视频子片段的关键帧,并提出了一种以SIFT特征为基础的语义词袋方法实现视频指纹的提取,该方法既提高了视频指纹提取的速度,又能得到具有较高独立性和鲁棒性的视频指纹。利用串匹配的方法实现视频指纹的匹配检测,并进一步对相似度进行加权处理,提高了匹配效率与匹配精度。  相似文献   

7.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

8.
基于相似性度量的面向对象程序方法级克隆侦测   总被引:1,自引:0,他引:1  
代码克隆侦测对于代码重构以及可复用资产抽取都有着重要的作用.现有的克隆侦测方法及工具以相似代码片段为单位,给进一步的克隆分析以及代码重构带来困难.针对这一问题,本文提出了一种基于相似性度量的面向对象程序方法级克隆侦测方法,即以方法为单位进行克隆代码侦测.该方法综合利用代码中的注释、签名以及语法相似性来度量方法代码之间的克隆程度.在此基础上合并子类中的相似方法并提取到父类中,从而实现进一步的代码重构.本文通过对JDK包中代码的实验分析验证了本文所提出方法的有效性.初步的实验结果表明,本文方法能够准确、有效地辅助开发者实现方法级的克隆代码侦测.  相似文献   

9.
针对毫米波多输入输出系统(MIMO)中的身份欺骗攻击问题,该文提出一种基于信道指纹的攻击检测方案。在波束域中,毫米波信道图样呈现波束的稀疏性和高方向特性,且这种波束域特性与终端位置有极高的相关性。该文将该波束域信道图样作为一种信道指纹,提出了一种基于信道指纹的身份欺骗攻击检测方案,将欺骗攻击中的终端身份认证问题建模成对其信道指纹的二分类问题,并使用基于监督学习的支持向量机算法求解该分类问题。为获得好的分类效果,基于对信道指纹的数值分析,比较了皮尔逊相关系数、余弦相似度、相关矩阵距离、欧氏距离等相似度指标。根据比较结果,选择最优的指标作为分类特征训练分类模型。仿真结果表明,即使在低信噪比条件下,该方案仍具有高认证准确性和鲁棒性。与现有相关机制相比,攻击检测精度显著提高。  相似文献   

10.
文中的工作旨在利用人体的独立运动信息,对监控视频中的人群进行计数。首先,检测当前图像中运动物体的角点特征,通过文中的特征可靠性假设,从中选取可靠的角点进行追踪,获得它们的运动轨迹。然后,利用这些特征点的空间信息进行初次聚类,限制最终聚类的数量。最后,利用角点的运动信息定义轨迹相似度和类间相似度,通过构造最小生成树的方法,进行运动一致性聚类,获得最终的特征群,从而得到运动人体的数量。  相似文献   

11.
本文提出一种基于分层架构模式识别的软件架构重构技术.该技术以目标软件的源代码作为输入,过滤与分层架构无关的代码,再利用代码词汇信息挖掘程序实体之间的语义关联,通过代码主题提取并计算程序实体之间的职责相似度,依据相似度将程序实体聚类形成组件.在软件组件化的基础上结合分层模式的ILD属性识别软件层次和软件架构模式.在模式识...  相似文献   

12.
王秀红  鞠时光 《通信学报》2012,33(12):43-48
为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数。结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新核函数。并根据Mercer定理证明了所构造函数可以作为核函数。实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。  相似文献   

13.
从上世纪70年代开始,就有大批的学者进行了代码相似度的研究。通过研究前任的方法,我们提出了通过最长公共子序列和贪婪串匹配的方法进行计算预处理之后的代码的相似度,预处理剔除了注释和预编译指令,并把代码转换为单词串,从而保留了程序的结构这一重要属性,使得大大提升了结果的准确性,使得结果更具有参考意义。  相似文献   

14.
研究表明软件系统普遍存在重复代码,为了维护和重构系统,人们需要代码相似性检测工具找到重复代码。大部分传统代码相似性检测方法和工具是基于特定程序语言和目标平台,但是许多软件系统包含多种程序语言编写的源代码。为了使代码相似性检测方法不局限于特定语言或平台,本文提出了一种基于中间表示的代码相似性检测方法。中间表示包含了程序的运行的基本信息,并且很少受到语言与平台的影响。所以基于中间表示的代码相似性检测方法能够有效的检测出代码的相似程度,并且具有跨语言和跨平台的特性。这种方法的主要思想是利用编译器将源代码编译为中间表示,再对中间表示进行文本的相似性比较,最后利用局部敏感性哈希高效的检测出相似代码对。实验表明基于中间表示的代码相似性检测方法比其他方法有更高的精确性。  相似文献   

15.
新的基于机器学习的入侵检测方法   总被引:8,自引:2,他引:8  
提出了一种基于机器学习的用户行为异常检测方法,主要用于UNIX平台上以shell命令为审计数据的入侵检测系统。该方法在LaneT等人提出的检测方法的基础上,改进了对用户行为模式和行为轮廓的表示方式,在检测中以行为模式所对应的命令序列为单位进行相似度赋值;在对相似度流进行平滑时,引入了“可变窗长度”的概念,并联合采用多个判决门限对被监测用户的行为进行判决。实验表明,该方法在检测准确度和实时性上均优于LaneT等人提出的方法。  相似文献   

16.
解决设备差异性造成的Wi-Fi信号强度不确定问题是位置指纹室内定位应用与推广的关键.一种基于设备间接收信号强度(Received Signal Strength,RSS)相关性的位置指纹室内定位方法被提出.以智能手机为用户终端,离线阶段,通过智能手机扫描的Wi-Fi信号强度信息,经过数据处理,筛选稳定的接入点(Access Point,AP),构建离线指纹数据库;在线定位阶段,对于实时获取的Wi-Fi信号强度信息,进行筛选处理后,挑选与离线指纹共同拥有的AP,并根据该AP集合,形成新的离线指纹和在线指纹.对离线指纹按RSS的大小降序排序;在线指纹,则以同一次序对RSS排序,然后利用皮尔逊相关系数和杰卡德相似系数,计算指纹相似度并排序,通过K最近邻(K-Nearest Neighbor,KNN)算法实现用户定位.实验表明该方法可有效解决设备差异性问题,并实现精确定位,平均定位误差达到1.7 m.  相似文献   

17.
针对气象条件不稳定引起的光伏发电出力波动性和间歇性,提出基于气象相似日选取和提升回归树的光伏发电短期功率预测方法。本方法采用熵值法计算影响光伏发电功率各种气象因素的权重,采用动态时间弯曲距离计算历史日与预测日各气象因素相似度;对于每一个预测日的光伏发电功率预测,以历史相似日的气象数据和发电功率数据作为训练样本,采用提升回归树构建光伏发电短期功率预测模型,能够明显提升预测精度。以某光伏电站为研究对象,考虑气象相似日的提升回归树算法与回归树、提升回归树算法对比表明,光伏发电短期功率预测准确度有较大幅度提升。  相似文献   

18.
基于部分匹配的XML文本文档向量检索模型   总被引:3,自引:2,他引:1       下载免费PDF全文
吴劲  陈泽琳 《电子学报》2002,30(Z1):2169-2171
本文提出了部分匹配模式的XML文本文档向量检索模型,给出了XML文本文档树以及子文档树的向量表示和查询以及子查询的向量表示,并由此提出了查询中的祖先-后代关系映射到文档中的祖先-后代关系的部分匹配模式的检索方式,给出了基于此匹配处理过程的相似度计算,以判断文档与查询的相关程度.在构造的检索原型系统中的实验表明,该检索模型具有较好的查全率和查准率.  相似文献   

19.
贺晨琳  王霄峻  汪磊 《电讯技术》2023,63(12):1876-1884
针对现有指纹定位技术存在指纹数据量较大、存储与处理困难、复杂空间定位适应性不足等问题,提出了一种基于大规模多输入多输出(Multiple-Input Multiple-Output, MIMO)系统的三维室内空间指纹定位方法。首先,提出一种处理速度更快、存储需求更小的角度-时延信道频率功率(Angle Delay Channel Frequency Power, ADCFP)指纹矩阵;其次,引入新的相似度准则即卡方距离以提高定位精度;然后提出一种改进的次方加权K近邻(Weighted K-Nearest Neighbor, WKNN)匹配算法,根据不同次方值对权重下降速度的影响差异,针对指纹相似度的大小分配以不同的权重;最后,对ADCFP指纹采用按行按列压缩的存储方法得到三种压缩指纹,进一步减少指纹数据量,并引入中心到达角(Central Angle of Arrival, CAOA)聚类算法缩短定位时长。仿真结果表明,ADCFP指纹矩阵2 m精度可靠性可达89.2%,采用卡方距离相较于曼哈顿距离的平均定位误差降低了5.63%,改进次方WKNN算法相较于传统WKNN算法平均定位误差降低...  相似文献   

20.
物联网(internet of things, IoT )设备漏洞带来的安全问题引发了研究人员的广泛关注,出于系统稳定性的考虑,设备厂商往往不会及时更新IoT固件中的补丁,导致漏洞对设备安全性影响时间更长;同时,大部分IoT固件文件源码未知,对其进行漏洞检测的难度更大。基于机器学习的代码比较技术可以有效应用于IoT设备的漏洞检测,但是这些技术存在因代码特征提取粒度粗、提取的语义特征不充分和代码比较范围未进行约束而导致的高误报问题。针对这些问题,提出一种基于神经网络的两阶段IoT固件漏洞检测方法。基于代码的多维特征缩小代码比较范围,提高比较的效率和精确度;再基于代码特征,用神经网络模型对代码相似程度进行学习,从而判断二进制IoT固件的代码与漏洞代码的相似程度,以检测IoT固件中是否存在漏洞,最后实验证明了所提方法在IoT固件检测中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号