首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
检测剽窃的源代码,在验证学生的作业中很重要。代码的相似度度量是剽窃检测的关键技术。首先本文介绍了源代码剽窃检测技术在国内外的发展情况,然后提出了一种改进的基于Karp-Rabin和GST算法的程序源代码相似度测量方法。  相似文献   

2.
剽窃是目前学术界和教育界面临的普遍问题,成熟的商业化剽窃检测系统运行时间和经济代价高,不适合实时性、轻量级的学生作业等日常检测。对基于文本指纹的Winnowing剽窃检测算法进行扩展,在提取指纹的同时记录文本定位及其长度信息,给出了指纹提取、文本定位、剽窃指纹索引合并等算法,实现了剽窃文本的检测、定位、标记。实验结果及算法在应用系统中实际运行状况表明,算法的扩展对其性能影响不大,普通硬件配置条件下即可满足中小规模应用需求。扩展算法在原算法轻量级、高效率、可靠性和灵活度高等特点基础上,进一步拓展了Winnowing的功能,增强了原算法的适应性和应用价值。  相似文献   

3.
复制检测技术在保护知识产权和信息检索中有着重要的作用。本文利用网格计算的思想,提出了一个基于网格的数字文档复制检测系统。该系统把单个海量土档集分割成若干个中小型的文档集,并将其分布在网络中,然后在网络中的多个节点上并行地执行检测操作。通过局域网上的模拟试验表明该系统可以动态地增扩文档集,缩短了检测的时间,并具有很高的性价比。  相似文献   

4.
作文跑题检测是作文自动评分系统的重要模块。传统的作文跑题检测一般计算文章内容相关性作为得分,并将其与某一固定阈值进行对比,从而判断文章是否跑题。但是实际上文章得分高低与题目有直接关系,发散性题目和非发散性题目的文章得分有明显差异,所以很难用一个固定阈值来判断所有文章。该文提出一种作文跑题检测方法,基于文档发散度的作文跑题检测方法。该方法的创新之处在于研究文章集合发散度的概念,建立发散度与跑题阈值的关系模型,对于不同的题目动态选取不同的跑题阈值。该文构建了一套跑题检测系统,并在一个真实的数据集中进行测试。实验结果表明基于文档发散度的作文跑题检测系统能有效识别跑题作文。  相似文献   

5.
文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的
方法。  相似文献   

6.
在基于实例的维吾尔语汉语机器翻译系统中维吾尔语相似度计算起重要作用。维吾尔语的黏着性特性要求对单词进行词干提取。本文提出的方法结合简单的句子结构相似度计算方法,通过对单词词干提取进行句子相似度计算。小规模实验结果比较接近人工评价的句子相似度。  相似文献   

7.
从海量文档中快速有效地搜索到相似文档是一个重要且耗时的问题。现有的文档相似性搜索算法是先找出候选文档集,再对候选文档进行相关性排序,找出最相关的文档。提出了一种基于文档拓扑的相似性搜索算法——Hub-N,将文档相似性搜索问题转化为图搜索问题,应用相应的剪枝技术,缩小了扫描文档的范围,提高了搜索效率。通过实验验证了算法的有效性和可行性。  相似文献   

8.
基于MapReduce架构的文档相似度计算方法   总被引:2,自引:0,他引:2  
MapReduce是Google开发的在超大集群下进行海量数据运算的一种分布式编程模式。Google利用MapReduce编程模式,其搜索业务取得了巨大的成功。TF-IDF是计算词条权值的一种方法,常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级,但是计算量特别大。本文将介绍使用MapReduce架构来解决TF-IDF实现中计算量大、速度慢的问题。  相似文献   

9.
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML文档的结构信息,为更精确的XML相似度计算打下基础.引入自然语言领域中成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中,加快了计算效率和精确度.运用正整数和各种权值简化N-Gram信息的提取和运算.实验结果表明,方法提高了聚类的准确率和召回率.  相似文献   

10.
殷伟 《数字社区&智能家居》2013,(7):1718-1719,1722
搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中。计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配。设置阈值,若两篇文档的相似度大于指定阈值,即认定两篇文档相似,进而生成一个矩阵,求解矩阵的连通性,得到该本聚类的结果,并进行文章的相关性分析。该文有利于财务分析人员根据已分类好的财务文档,了解企业过去,评价企业现状,作出对企业有长远影响的决策。  相似文献   

11.
This paper presents a systematic framework using multilevel matching approach for plagiarism detection (PD). A multilevel structure, i.e. document-paragraph-sentence, is used to represent each document. In document and paragraph level, we use traditional dimensionality reduction technique to project high dimensional histograms into latent semantic space. The Earth Mover’s Distance (EMD), instead of exhaustive matching, is employed to retrieve relevant documents, which enables us to markedly shrink the searching domain. Two PD algorithms are designed and implemented to efficiently flag the suspected plagiarized document sources. We conduct extensive experimental verifications including document retrieval, PD, the study of the effects of parameters, and the empirical study of the system response. The results corroborate that the proposed approach is accurate and computationally efficient for performing PD.  相似文献   

12.
代码剽窃是程序语言课程中经常出现的一种作弊行为,严重破坏正常的教学秩序。检测剽窃的程序代码、验证学生程序作业的原创性在程序语言教学中就尤为重要。结合程序代码相似度检测技术中的属性计数技术和结构度量技术,提出一种适用于Python程序的相似度检测方法,该方法能够有效地计算出学生Python程序作业之间的相似度。  相似文献   

13.
一种基于BP神经网络的代码相似性检测方法   总被引:1,自引:1,他引:0  
如何有效地检测程序设计课程作业中的抄袭现象是一个重要的问题。传统的抄袭检测方法主要利用代码的属性或结构信息来度量代码之间的相似性。给出了一种基于误差反向传播(BP算法)多层前向神经网络的代码抄袭检测方法。提取程序之间的7种比较特征作为神经网络的输入,经过网络计算后得出程序的相似值,并将该值与抄袭决策阈值相比较以判定存在抄袭现象的程序集。实验结果表明,本方法具有很好的检测效果。  相似文献   

14.
A near-duplicate document image matching approach characterized by a graphical perspective is proposed in this paper. Document images are represented by graphs whose nodes correspond to the objects in the images. Consequently, the image matching problem is then converted to graph matching. To deal with the instability of object segmentation, a multi-granularity object tree is constructed for a document image. Each level in the tree corresponds to one possible object segmentation, while different levels are characterized by various object granularities. Some graphs can be generated from the tree and the objects associated with each graph may be of different granularities. Two graphs with the maximum similarity are found from the multi-granularity object trees of the two near-duplicate document images which are to be matched. The encouraging experimental results have demonstrated the effectiveness of the proposed approach.  相似文献   

15.
黄寿孟  高华玲  潘玉霞 《计算机科学》2016,43(Z6):467-470, 507
软件相似性分析算法是为了更好地保护软件的知识产权。此算法并不会加固程序以增加其抵御攻击的能力,而是对两个或两个以上的程序进行比较,判断是否相互包含。该算法有重复代码筛选、软件作者鉴别、软件“胎记”和剽窃检测,它们最本质的操作就是直接处理程序的源码或二进制可执行文件,将其转换成一种更易于处理的表示形式,从而确定两个程序(或者程序片段)之间的相似度,或是其中一个(部分或全部)是否包含了另一个。最后总结出此类算法的通用格式,并对每种算法作出相应的分析综述表。  相似文献   

16.
研究了基于字符串比较的代码抄袭检测技术,探讨了程序代码复制检测技术中代码预处理、标记串的生成及字符串比较等个关键问题.  相似文献   

17.
针对传统SKB软件胎记检测程序抄袭结果不准确的问题,提出一种基于程序控制流的软件胎记方法进行抄袭检测。使用Java程序静态分析的结果作为元信息,通过分析元信息得到字节流指令。分析字节指令流以及程序的控制流结构,并将其中的外部引用替换为外部控制流结构,以该控制流结构作为软件胎记。使用VF2算法计算两胎记之间的相似度,从而判定两程序之间是否存在抄袭行为。实验结果表明,所提胎记较传统SKB胎记更具可信性。  相似文献   

18.
Document engineering is the computer science discipline that investigates systems for documents in any form and in all media. As with the relationship between software engineering and software, document engineering is concerned with principles, tools and processes that improve our ability to create, manage, and maintain documents (). The ACM Symposium on Document Engineering is an annual meeting of researchers active in document engineering: it is sponsored by ACM by means of the ACM SIGWEB Special Interest Group. In this editorial, we first point to work carried out in the context of document engineering, which are directly related to multimedia tools and applications. We conclude with a summary of the papers presented in this special issue.
Luiz Fernando Gomes SoaresEmail:
  相似文献   

19.
针对多源动态海量数据复杂事件检测中,存在复杂事件不能及时检测以及过多占用内存的问题,提出了一种基于优先级的哈希结构复杂事件检测方法,该方法通过定义各个原子事件的优先级,采用事件优先级调度策略,使得事件模式匹配及检测能得到及时执行。同时减少了内存消耗,提高了事件检测的吞吐量。仿真实验证明了该方法的可行性和高效性。  相似文献   

20.
针对垃圾邮件短小、一定时间内在网络上重复、大量地散发的特点,提出了基于签名的近似垃圾邮件检测算法(ASD)。该算法以句为基本单位,求取邮件所含的全部句子的摘要,垃圾邮件的近似检测转变为两个摘要集近似度的比较。通过与近似文本查询算法DSC、DSC-SS、I-Match的比较,ASD算法在近似垃圾邮件查询中,表现出样本集的存储空间大小适中、运算时问短、鲁棒性高、高准确率、高召回率的特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号