首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现。然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息。最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。  相似文献   

2.
用一个Word文档来收集自己感兴趣的相关文章,难免会出现重复收集的情况,这种情况下剔除重复内容很有必要。如何实现?在同一个Word文档中,有时候我们会收入许多同类内容,而且根据需要常常会添加新的内容。随着内容的不断添加,有时候难免会出现段落前后重复的现象。如果在文档已经很  相似文献   

3.
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。  相似文献   

4.
一种通过内容和结构查询文档数据库的方法   总被引:4,自引:0,他引:4       下载免费PDF全文
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.  相似文献   

5.
在大多数现有的检索模型中常常忽略了如下事实:一个文档中匹配到的查询词项的近邻性和打分时所基于的段落检索也可以被用来促进文档的打分。受此启发,提出了基于位置语言模型的中文信息检索系统,首先通过定义位置传播数的概念,为每个位置单独地建立语言模型;然后通过引入KL-divergence检索模型,并结合位置语言模型给每个位置单独打分;最后由多参数打分策略得到文档的最终得分。实验中还重点比较了基于词表和基于二元两种中文索引方法在位置语言模型中的检索效果。在标准NTCIR5、NTCIR6测试集上的实验结果表明,该检索方法在两种索引方式上都显著改善了中文检索系统的性能,并且优于向量空间模型、BM25概率模型、统计语言模型。  相似文献   

6.
平常用Word写文章时都要在段首缩进两个汉字,常用的方法有设置段落格式、标尺缩进等.但每次都要做重复的动作.确实有点麻烦。能不能省点力气.让Word直接提供段首缩进两个汉字的功能呢?当然可以.我们可以修改文档模板,把正文段落设置为段首缩进两个汉字,这样.基于文档模板创建的Word文档,正文段首就会自动缩进两个汉字。  相似文献   

7.
针对工业设计中表格类文档出图量大、表格内容复杂,重复性大等特点,提出了通过office二次开发来自动生成表格类文档的方案。文章介绍了基于Office ActiveX接口的方法,表述了自动生成表格类文档的思路和程序构架。实践证明,此方法可有效的加快设计进度,并大幅减少设计中出现的人工错误,提高设计质量。  相似文献   

8.
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。  相似文献   

9.
利用MicrosoftWord中文字和段落的格式功能可以创建变化多端的文档,如果每次设置文档格式时都逐一进行操作,将比较费时。本文从“样式和格式”任务窗格的开启、用“样式”名快速修饰段落、修改段落的样式参数、创建新样式、“样式”快捷键的设置等方面介绍“样式”的操作方法,以求简化文档中的重复性操作,达到快速和规范行文的目的。  相似文献   

10.
语义标注是实现语义网的一个重要研究内容,目前已有很多标注方法取得了不错的效果。但这些方法几乎都没有注意到本体所描述的知识往往稀疏地分布在文档中,也未能有效地利用文档的组织结构信息,使得这些方法对质量较差的文档的标注不理想。为此提出了一种基于稀疏编码的本体语义自动标注方法((Semantic Annotation Method based on Sparse Coding, SAMSC),该方法先按本体知识描述从文档中识别出一定的语义作为初始值,再通过迭代解析文档段落结构和描述主题,完成本体知识与文档资源的相关系数矩阵计算,最后在全局文档空间中通过最小化损失函数来实现用本体对文档的语义标注。实验表明,该方法能有效地对互联网中大量良芬不齐的文档进行自动语义标注,对质量差的文档资源能取得让人接受的结果。  相似文献   

11.
基于特征串的大规模中文网页快速去重算法研究   总被引:16,自引:1,他引:16  
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理。实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3% ,去重正确率达99.5%。  相似文献   

12.
基于DRPKP算法的文本去重研究与应用   总被引:1,自引:0,他引:1  
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑.基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimHash算法在特定行业文本去重中的不足,创新地提出一种基于段落主题的文本去重方法(简称DRPKP算法),通过对去重准确率、覆盖率和去重时间3个指标进行对比测试,DRPKP算法比SimHash算法准确率可提高24.5%、覆盖率可提高16.34%,且去重时间更短.  相似文献   

13.
任斌  程良伦 《计算机工程》2011,37(5):25-28,32
针对传统圆形标志定位方法存在运算复杂、效率低的不足,结合点Hough变换的快速性和亚像素细分的精确性,提出基于点Hough变换与Legendre矩的圆亚像素检测算法,对印刷电路板(PCB)视觉检测中的圆形标志定位进行检测。实验结果表明,该方法定位精度可达0.056像素,具有抗噪性、准确性、快速性和鲁棒性的特点,能满足PCB视觉检测中高精度和实时性的要求。  相似文献   

14.
针对CTPN算法不能检测倾斜文本和小尺度文本检测效果差的问题,提出一种基于旋转变量的改进文本检测算法(CTPN-R)。通过增加旋转角度预测层,将文本行拆分成一系列带旋转角度的anchor用于网络训练解决文本倾斜问题,加入特征融合层构建特征图金字塔以检测多尺度文本,改进边缘细化层的输出变量和回归方法,优化文本连接。CTPN-R在倾斜文本数据集MSRA-TD500上的检测综合性能指标F-measure达到了77.5%,比CTPN提高了38%。仿真结果表明,CTPN-R对实际场景中的文本图像检测精度高、实时性好,可以检测任意大小、任意方向文本。  相似文献   

15.
自动文摘系统中的主题划分问题研究   总被引:6,自引:2,他引:6  
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为9212 % ,对单主题文章的主题划分准确率为9911 %。  相似文献   

16.
李敏花  柏猛 《计算机工程》2012,38(4):165-167
为解决复杂背景图像中的文字检测问题,提出一种基于数学形态学的复杂背景文字检测方法。采用多尺度多结构的数学形态学边缘检测算子抽取图像边缘,通过由粗到精的策略进行文字检测。实验结果表明,该方法能够提高文字检测的准确率和召回率,同时缩短文字检测时间。  相似文献   

17.
傅间莲  陈群秀 《计算机工程》2006,32(11):209-210,218
提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。  相似文献   

18.
基于连续段落相似度的主题划分算法   总被引:7,自引:0,他引:7  
傅间莲  陈群秀 《计算机应用》2005,25(9):2022-2024
主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。  相似文献   

19.
欧阳佳  林丕源 《计算机工程》2011,37(3):64-66,69
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。  相似文献   

20.
陈伟鹤  刘云 《计算机科学》2016,43(12):50-57
中文文本的关键词提取是自然语言处理研究中的难点。国内外大部分关键词提取的研究都是基于英文文本的, 但其并不适用于中文文本的关键词提取。已有的针对中文文本的关键词提取算法大多适用于长文本,如何从一段短中文文本中准确地提取出具有实际意义且与此段中文文本的主题密切相关的词或词组是研究的重点。 提出了面向中文文本的基于词或词组长度和频数的关键词提取算法,此算法首先提取文本中出现频数较高的词或词组,再根据这些词或词组的长度以及在文本中出现的频数计算权重,从而筛选出关键词或词组。该算法可以准确地从中文文本中提取出相对重要的词或词组,从而快速、准确地提取此段中文文本的主题。实验结果表明,基于词或词组长度和频数的中文文本关键词提取算法与已有的其他算法相比,可用于处理中文文本,且具有更高的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号