首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。  相似文献   

2.
一种基于段落词频统计的论文抄袭判定算法   总被引:2,自引:0,他引:2  
解决论文抄袭的判定问题不但可以减轻审稿人员的工作负担,而且对于提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义.从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,然后给出一种基于段落词频统计的论文抄袭判定算法.此算法不但可以检测出抄袭者成段抄袭的情况,而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况,若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出,方便用户进一步审查.  相似文献   

3.
文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元,并解决了需要人工设定阈值的问题,提高了检测精度。实验证明,无论是在效率上,还是在准确性上,该算法都是可行的。  相似文献   

4.
文档复制检测技术能够自动检测出数字文档间的重叠信息,它是保护知识产权和提高信息检索效率的一种有力手段.为解决中文学术论文复制检测难题,给出一种基于篇章结构相似度的中文学术论文复制检测算法及其问题的数学模型.在分析论文篇章结构的基础上,利用数字指纹和词频统计等技术,经编程实现,用于中文论文复制的初步检测.  相似文献   

5.
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。  相似文献   

6.
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。  相似文献   

7.
旋律抄袭是一个严重的问题,实现音乐旋律的相似性检测对于整治音乐抄袭具有极其重要的作用。为有效识别旋律抄袭,本文提出一种基于文本指纹的旋律相似性检测方案。该方法通过将音乐旋律转换为文本,使用N-gram算法对长旋律片段进行分片并进行哈希编码,通过MinHash算法生成文本指纹,最后使用LSH算法进行快速相似性检索,实现旋律之间的高效匹配。实验结果表明,该方案的相似性识别的平均准确率达到90%以上,能够有效识别存在剽窃行为的音乐旋律。  相似文献   

8.
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度, SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。  相似文献   

9.
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率。针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法。该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征。其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面。实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高。  相似文献   

10.
结合词频统计和字符串比较算法优缺点,提出一种改进的基于句子相似度语句定位的文本作业检测技术,技术实现主要包括文本块选择、相似度度量和语句定位等。  相似文献   

11.
当前大多数机器阅卷中采用的识别算法基于模糊识别,即针对某类型的试卷,更换多种试卷或者同种试卷不同采集方式下很难准确对应,具有一定的局限性。对此,本文提出一个基于OpenCV耦合模板定位的答题卡识别机制。首先基于人机交互划定学号区与客观题区;然后基于图像处理算法定位得到填涂位置,评价填涂结果,完成答题卡识别。本系统模板制作模块由C#编程实现,答题卡识别由C++和OpenCV实现。最后测试本文机制性能,结果表明:与基于模糊识别的普通方法相比,本文机制具有更好的定位效果和识别准确度。  相似文献   

12.
通过分析SCIWeb版对智能优化算法文献的收录情况,统计分析了2001~2010年间SCI收录的有关智能优化算法论文的情况。从时间分布、国家分布、作者机构分布等方面进行统计,分析智能优化算法研究的现状和发展趋势。  相似文献   

13.
本文针对高等教育自学考试考生试卷笔迹真伪鉴定应用,利用人工笔迹鉴定专家知识,结合文本独立,和训练样本少的特点给出一种基于纹理的算法。通过实验得出,正确接受率为92.9%,正确拒绝率为90.0%。  相似文献   

14.
提出了一种基于潜在语义的科技文献主题挖掘方法,描述了科技文献的主题挖掘模型。对科技文献集进行预处理,计算特征词权重,构造出词汇-文献矩阵。用改进的LSI算法对稀疏矩阵进行降维得到固定的主题-文献矩阵。取权重最高的主题作为该文献的主题。该方法利用Frobenius范数来规范矩阵,对稀疏矩阵进行降维,可以快速精确地挖掘出科技文献的主题。  相似文献   

15.
This paper proposes a new document retrieval (DR) and plagiarism detection (PD) system using multilayer self-organizing map (MLSOM). A document is modeled by a rich tree-structured representation, and a SOM-based system is used as a computationally effective solution. Instead of relying on keywords/lines, the proposed scheme compares a full document as a query for performing retrieval and PD. The tree-structured representation hierarchically includes document features as document, pages, and paragraphs. Thus, it can reflect underlying context that is difficult to acquire from the currently used word-frequency information. We show that the tree-structured data is effective for DR and PD. To handle tree-structured representation in an efficient way, we use an MLSOM algorithm, which was previously developed by the authors for the application of image retrieval. In this study, it serves as an effective clustering algorithm. Using the MLSOM, local matching techniques are developed for comparing text documents. Two novel MLSOM-based PD methods are proposed. Detailed simulations are conducted and the experimental results corroborate that the proposed approach is computationally efficient and accurate for DR and PD.  相似文献   

16.
基于相对词频的文本特征抽取方法   总被引:5,自引:0,他引:5  
评估函数对已定义类别以外的语料区分度相对较低的问题出发, 结合常用的停用词表功能, 提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果, 使用相对词频选择特征词, 较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性, 并且取得了较好的分类效果。  相似文献   

17.
遗传算法研究进展*   总被引:21,自引:1,他引:20  
对遗传算法编码策略、遗传算子、参数确定、收敛性、欺骗问题等理论在国内外的研究现状进行了系统的研究,并对遗传算法在国内外的研究进展和新的应用领域进行了讨论;最后,通过对近几年研究文献的统计分析,探讨了遗传算法的研究热点和发展方向。  相似文献   

18.
Qiang  Yu-Ting  Fu  Yan-Wei  Yu  Xiao  Guo  Yan-Wen  Zhou  Zhi-Hua  Sigal  Leonid 《计算机科学技术学报》2019,34(1):155-169

Researchers often summarize their work in the form of scientific posters. Posters provide a coherent and efficient way to convey core ideas expressed in scientific papers. Generating a good scientific poster, however, is a complex and time-consuming cognitive task, since such posters need to be readable, informative, and visually aesthetic. In this paper, for the first time, we study the challenging problem of learning to generate posters from scientific papers. To this end, a data-driven framework, which utilizes graphical models, is proposed. Specifically, given content to display, the key elements of a good poster, including attributes of each panel and arrangements of graphical elements, are learned and inferred from data. During the inference stage, the maximum a posterior (MAP) estimation framework is employed to incorporate some design principles. In order to bridge the gap between panel attributes and the composition within each panel, we also propose a recursive page splitting algorithm to generate the panel layout for a poster. To learn and validate our model, we collect and release a new benchmark dataset, called NJU-Fudan Paper-Poster dataset, which consists of scientific papers and corresponding posters with exhaustively labelled panels and attributes. Qualitative and quantitative results indicate the effectiveness of our approach.

  相似文献   

19.
This note considers the identification of bilinear discrete-time dynamic systems from sequences of input and noise corrupted output measurements. In contrast to other approaches, the proposed algorithm is simple and does not require knowledge of the noise statistics. It is also shown that the obtained estimates are unbiased and consistent, which is not shown in the previous papers.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号