首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
由于汉字笔画复杂,从视频中提取的汉字图像质量往往较差,采用传统光学字符识别(OCR)的结果不理想.为了解决低质量汉字图像的识别问题,提出一种基于分块搜索的两级识别方法.首先建立汉字图像的分块结构并模仿低质量汉字生成训练集,然后对训练集中各分块图像应用主成分分析提取特征并建立索引.待识别图像应用分块搜索和投票的方式从索引中获取候选汉字集合(一级识别),再根据投票结果的显著性辅以全局结构特征匹配识别汉字(二级识别).实验结果证明,该方法对于低质量汉字图像比普通的OCR方法具有更高的识别率.  相似文献   

2.
提出两种算子概率自适应方案:基于连续两代间解的收敛状况变化的群体性方案、基于群体代间及当代表现的个性化方案.在带转包受限经济批量问题上,进行了变异概率调整方法的仿真试验,与文献中的其它变异概率调整方案进行了比较.结合试验结果和文献中的相关研究,指出在群体中存在不可行个体情况下,算子概率自适应的调整机理及理论分析仍是一个有待解决的问题.  相似文献   

3.
面向对象数据库系统中有序集合的索引技术   总被引:2,自引:0,他引:2  
本文首先讨论了面向对象数据库系统中的索引技术,分析了传统的基于值的索引技术不适合于用来索引有序集合的原因,然后提出了一种新的适合于有序集合的索引机制-P+树,同时本文也设计了一个用于测试有序集合索引机制的评价基准,根据该测试基准对本文提出的索引机制进行了系统的分析与评价。  相似文献   

4.
为有效地利用多特征融合技术提高手写体汉字识别系统信息容量,同时有效地控制数据规模,提出一种基于反馈调整机制的手写体汉字特征属性变精度自适应动态调整简约方法。依据粗糙集理论,建立以先验知识指导训练过程的手写体汉字识别决策信息系统,给出以系统识别容量熵作为判断条件的特征融合算法。基于类别可分性准则,定义变精度特征粗糙集的信息粒度熵,给出基于信息粒度熵的变精度特征简约算法。在规定修正粗糙度范围的基础上,设计出启发式反馈机制,运用粒子群算法动态调整β正确分类率,训练样本特征集合在历次循环过程中选择最佳约简特征集合。实验表明该方法大大减少了手写体汉字的特征属性维数,降低了信息系统决策规则的复杂度。  相似文献   

5.
摘 要: 通过分析集值属性的标签共现频率,可以挖掘频繁模式以及进行异常的检测。为了提高标签共现计算的性能,本文提出了一种流数据环境下基于k集合覆盖的分布式标签共现算法。采用多集合的容斥原理对标签共现问题进行了分析,并提出了一种分布式标签共现计算流程。通过引入信息检索中的倒排索引对标签及其出处进行索引,基于k集合覆盖的思想将整个倒排索引划分到多个分布式从节点上,并根据流数据的变化动态地更新每个从节点的局部索引,在对所有从节点的结果进行汇聚后得到最终结果。实验表明,本文提出的基于k集合覆盖的分布式标签共现算法与其它算法相比较,不仅具有较低的平均更新时间,而且使用更少的索引副本,因而更适用于大规模流数据的标签共现计算。  相似文献   

6.
在云计算环境下,基于属性加密的多关键词可搜索加密能够同时实现对加密数据的访问控制和加密数据可搜索。为提高密文检索效率、降低关键词索引代价,本文提出一种基于布隆过滤器属性基的多关键词搜索方案。首先,对于文件关键词集合,利用布隆过滤器生成对应于关键词集合的固定长度索引向量,从而降低关键词索引的存储复杂度。然后,为防止敌手对索引的统计分析,利用置换将索引向量中元素随机化,同时利用属性加密技术将此置换进行共享,只有合法用户才能获取此置换并构建查询关键词的陷门。最后,通过安全性分析和实验分析,表明本文方案的安全性、高效性和实用性。  相似文献   

7.
越来越多的企业和个人用户选择将大量的图像文件存储在云服务器中,并提供图像的检索和共享功能。为了保障所存储的重要图像信息不被窃取,图像文件以加密的形式存储在云服务器中,这给图像的检索操作带来了挑战。传统的明文检索方案已经无法适用,并且如何保证大量密文图像数据的检索效率和精确度也是一个重要问题。针对上述问题,提出了一种云环境中基于目标检测的密文图像检索方案,利用基于深度学习的目标检测模型Faster R-CNN对图像精确提取关键词集合和特征向量,使用关键词集合对图像集合粗分类,使用多重线性映射对关键词加密并构建安全索引,以高效检索出匹配的图像集合,再对图像特征向量精确匹配,实现图像的细分类,以检索出最终的图像。安全性分析和性能评估表明该方案具有高安全性、检索效率和精确度。  相似文献   

8.
由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目标跟踪,寻找最优解集。对信息的特征进行查询,提取其中的关键词并在已建立的文本索引结构上进行检索和融合,运用K-Means聚类方法对融合结果进行重新排序。采用布尔查询机制构造文献检索模型,将不同信息数据多重倒排文献进行索引从而完成信息检索。实验结果表明,运用该方法检索时间最短,误差率最低,完成图书馆文献信息检索方法的优化。  相似文献   

9.
一种中文词句的快速检索算法   总被引:1,自引:0,他引:1  
刘国华  程蕾  祈晓园 《计算机工程》2003,29(19):70-71,94
介绍了一种中文词句快速检索算法,该算法将中文文献正文转换成文献中每个汉字的位置索引列表。根据位置索引列表信息能够快速查找出用户关心的某个词句在文献中出现的位置,并将该词句所在的句子或者上下文信息提交给用户。  相似文献   

10.
中国多媒体技术研究:2009   总被引:1,自引:1,他引:0       下载免费PDF全文
本文是中国多媒体技术研究与应用的年度文献综述之十二。该文从2009年9种核心刊物的3023篇中选取396篇多媒体技术相关的文章进行了分类、统计,以展现出2009年中国多媒体技术发展的现状。今年采用的分类方案在去年的基础上做了一些调整,以适应多媒体技术发展的趋势。通过与前4年统计结果的对比可以看出,数字水印、数据管理与检索、多播、交互模式与接口、虚拟现实交互等多媒体基础技术是2009年论文反映出的研究热点,同时,多媒体应用日趋多样化,与社会生活的结合程度越来越紧密。该文还对近5年的中国多媒体技术文献统计结果作了比较,从中可看到多媒体技术,特别是一些热点技术的发展趋势。该文不仅能给从事多媒体技术研究与应用的人员提供系统的文献索引,也能为技术规划和管理人员提供参考。  相似文献   

11.
电子病历结构化可以理解为在自由文本中找到合适的关键字,目前在自由文本中提取关键字的方法有实体识别和中文分词,但由于电子病历结构化是要在多种语义关联下找合适的关键字,而实体识别和中文分词不能达到其目标。因此根据已有的结构元素数据库建立倒排索引找到一组最合适的简单元素组合,利用多目标动态规划进行最优化组合,利用求交集方法找到复杂元素从而找出最优的一组序列即为该电子病历的结构化。通过系统实现得到利用该方法不仅可以找到结构元素,而且找到的结构元素之间有一定的语义关联。  相似文献   

12.
基于Web文本挖掘中的一种中文分词算法研究   总被引:1,自引:0,他引:1  
基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。  相似文献   

13.
基于邻接矩阵全文索引模型的文本压缩技术   总被引:1,自引:0,他引:1  
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要。并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%。  相似文献   

14.
一种基于字同现频率的汉语文本主题抽取方法   总被引:24,自引:0,他引:24  
主题抽取是文本自动处理的基础工作之一,而主题的抽取一直以分词或者抽词作为第1步.由于汉语词间缺少明显的间隔,因此分词和抽词的效果往往不够理想,从而在一定程度上影响了主题抽取的质量.提出以字为处理单位,基于字同现领率的汉语文本主题自动抽取的新方法.该方法速度快,适应多种文体类型,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于其他语言的文本主题抽取.主题句自动抽取实验表明,该方法抽取新闻文本主题句的正确率达到77.19%.汉语文本的主题抽取比较实验还表明,省略分词步骤并没有降低抽取算法的正确率.  相似文献   

15.
郑文超  徐鹏 《软件》2013,(12):160-162
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。  相似文献   

16.
使用二级索引的中文分词词典   总被引:3,自引:0,他引:3       下载免费PDF全文
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。  相似文献   

17.
本文总结和分析了常用的中文分词方法,并提出了一种基于上下文的分词算法。算法的原理是在文档中抽取最长重复字串,进而得到索引项。这种分词方法使得分词更加简单准确。  相似文献   

18.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。  相似文献   

19.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

20.
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本文数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号