首页 | 本学科首页   官方微博 | 高级检索  
     

基于提取关键词的中文文档复制检测研究
引用本文:麻会东,刘国华,李旭,梁鹏,刘春辉,张凌宇.基于提取关键词的中文文档复制检测研究[J].计算机工程与科学,2007,29(10):63-64.
作者姓名:麻会东  刘国华  李旭  梁鹏  刘春辉  张凌宇
作者单位:燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004
摘    要:文档复制检测技术在保护知识产权和信息索引中起重要作用,它可以防止剽窃事件的发生,提高互联网检索效率。目前,英文复制检测技术已经比较成熟,但中文复制检测技术研究还处于起步阶段。本文提出一种基于关键词的指纹提取方法;提出k-words方法分解句子;定义了数字指纹树概念,并用数字指纹树来存储指纹。最后,用实验验证了所提出的
方法。

关 键 词:指纹  剽窃  文本块  匹配
文章编号:1007-130X(2007)10-0063-02
修稿时间:2007-03-292007-07-09

Research on Chinese Document Copy Detection Based on Extracting Key Words
MA Hui-dong,LIU Guo-hua,LI Xu,LIANG Peng,LIU Chun-hui,ZHANG Ling-yu.Research on Chinese Document Copy Detection Based on Extracting Key Words[J].Computer Engineering & Science,2007,29(10):63-64.
Authors:MA Hui-dong  LIU Guo-hua  LI Xu  LIANG Peng  LIU Chun-hui  ZHANG Ling-yu
Affiliation:School of Information Science and Engineering,Yanshan University, Qinhuangdao 066004, China
Abstract:The technique of copy detection plays an important role in intellectual property proteetion and information retrieval, whieh can prevent plagiarism and improve the retrieval effieieney of the Internet. Now, the copy detection technique of English has become mature. However, the copy deteetion technique of Chinese is in the first step. An extraeting fingerprinting method based on key words has been proposed. The K-words method is proposed to decompose sentenees. The coneept of digital fingerprinting tree whieh is used to store the fingerprints has been defined. Finally,the method is validated by experiments.
Keywords:fingerprint  plagiarism  chunk  match
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号