首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
杨玥  张德生 《计算机科学》2017,44(Z11):432-436
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。  相似文献   

2.
3.
SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对SegPhrase算法进行了改进。在短语产生阶段,通过利用词串之间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语。最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析。通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息。  相似文献   

4.
5.
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和[F]值指标的量化结果相比于传统算法有比较明显的提升。  相似文献   

6.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

7.
互联网技术得到迅速发展以来,大量信息尤其是文本信息在网上传播。文中面向海量汉语短文话题提取系统中多信源、短文篇幅小的特点,结合词汇语义相似性度量,提出了一个词汇权重计算算法---SDTF PDF(ShortDocumentTermFrequency ProportionalDocumentFrequency),测试表明,基于该算法的汉语短文话题识别系统能够较准确地在海量中文文本信息中自动提取一段时间内(一天或一周,可以指定)的主要话题。  相似文献   

8.
在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表明该算法在文本分类效率和正确率上比原有方法有一定的提高。  相似文献   

9.
10.
在PDF的各种应用中,对于文档的理解与处理是非常重要的.首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档.因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出来,经过组织后,保存在称为KIU的文件中,这样可以在实际上不接触PDF文件的情况下,自动生成超链接.分区域的方法有利于提取过程,找到文本的位置和范围后,可以借助于光学字符识别(OCR)软件来提取文本中的关键性词语或词组.  相似文献   

11.
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。  相似文献   

12.
针对PDF417条码在复杂背景中检测定位的技术问题,提出一种基于字符间列边缘提取的定位方法。通过对PDF417码的结构特征进行分析,利用子区域的多特征分析法提取目标区域,并在此基础上提取条码的列向边缘,实现了准确定位。通过霍夫变换确定条码边界,对条码区域进行提取。实验结果表明,对于背景复杂且条码区域信息未知的情况,该定位算法具有良好的结果。  相似文献   

13.
雷靖玮  伊鹏  陈祥  王亮  毛明 《计算机应用》2022,42(12):3831-3840
针对传统静态检测及动态检测方法无法应对基于大量混淆及未知技术的PDF文档攻击的缺陷,提出了一个基于系统调用和数据溯源技术的新型检测模型NtProvenancer。首先,使用系统调用捕获工具收集文档执行时产生的系统调用记录;其次,利用数据溯源技术构建基于系统调用的数据溯源图;而后,用图的路径筛选算法提取系统调用特征片段进行检测。实验数据集由528个良性PDF文档与320个恶意PDF文档组成。在Adobe Reader上展开测试,并使用词频-逆文档频率(TF-IDF)及PROVDETECTOR稀有度算法替换所提出的图的关键点算法来进行对比实验。结果表明NtProvenancer在精确率和F1分数等多项指标上均优于对比模型。在最佳参数设置下,所提模型的文档训练与检测阶段的平均用时分别为251.51 ms以及60.55 ms,同时误报率低于5.22%,F1分数达到0.989。可见NtProvenancer是一种高效实用的PDF文档检测模型。  相似文献   

14.
设计并实现了一种基于DSP平台的PDF417条码快速解码终端。该终端能对摄像头采集的含有PDF417条码的图像进行复杂背景下条码区域提取、条码畸变校正等条码图像预处理,实现了复杂背景和不均匀光照条件下条码的全方位快速读取。  相似文献   

15.
基于Reed-Solomon算法的PDF417码纠错研究   总被引:2,自引:2,他引:0  
PDF417二维条码采用Reed-Solomon码作为纠错码,很好地解决了因条码破损和污染造成的识读问题。在介绍PDF417二维条码和RS纠错码的基础上,详细阐述了RS码的译码原理,包括伴随式的计算、错误位置多项式的计算、错误位置的确定和错误值的计算等。最后分析了RS码译码的算法复杂性。  相似文献   

16.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

17.
中文PDF文档数字水印算法   总被引:1,自引:0,他引:1  
张秋余  余冬梅  管伟 《计算机工程与设计》2007,28(24):5983-5984,5987
针对文本文档的真实性、完整性和版权保护问题,通过分析PDF文档和PostScript页面描述文件工作机制原理,提出一种专门针对中文PDF文档的数字水印算法.将根据原始文档字符特征码而生成的水印信息嵌入到文档字符间距中,从而实现了对文档内容的保护.实验结果表明,利用该算法使得中文PDF文档具有了良好的防篡改性.  相似文献   

18.
基于PDF417和提升小波的数字图像水印算法   总被引:1,自引:0,他引:1       下载免费PDF全文
根据PDF417与提升小波变换的特点,提出一种基于PDF417和提升小波变换的数字图像水印算法。首先将水印信息进行PDF417编码,并在密钥控制下进行混沌序列置乱后得到二值水印图像;最后使用小波提升技术对原始图像进行小波三级变换,在小波变换域低频子带中嵌入二值水印图像。实验结果证明:该算法能很好地保持图像质量,对常见的图像处理具有很强的鲁棒性,同时不仅能保持传统小波多分辨率图像水印的优势,而且处理速度更快,对图像尺寸没有特殊要求。  相似文献   

19.
基于XML的PDF文档内容与结构的表示的实现   总被引:2,自引:0,他引:2  
在对网络信息资源进行检索、过滤、提取的过程中,对于文档格式的转换是进行信息处理的必然途径。将PDF文档转换为XML文档,在对分析PDF文档的内容和结构方面具有重要意义。论文介绍了从PDF文档向XML文档转换的设计和实现原理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号