首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
涉及中文字符串记录的数据库管理是Java开发中的常见问题。由于Java语言对中文支持不足,导致中文字符串记录的排序不能很好地满足应用要求。该文在与当前中文排序方法比较分析的基础上,提出了一种通用的排序方法,适用于Java环境下中文字符串和数字类型记录的排序过程,较好地解决了中文字符串数据集记录的排序问题,并且针对记录添加和检索时易出现的谐音拼写错误,提出了谐音检索方法,提高了检索过程的容错和纠错性能。  相似文献   

2.
中文数据排序与快速检索方法研究   总被引:3,自引:0,他引:3  
通过对GBK编码、全拼输入法、常用汉字拼音和SQLServer2000排序音等的研究,制定出适用的选取汉字拼音的方案,进而编程获得汉字拼音,以实现中文信息的快速检索。  相似文献   

3.
4.
对中文字符串排序,最快算法的时间复杂度是Onlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是Odn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法对代表字串的整型数组排序,用以实现对字符串的快速排序。实验表明,提出的算法能快速地进行中文字符串排序,比快速排序算法具有更好的性能,且排序时间与数据规模之间是线性关系,算法的时间复杂度为Odn)。  相似文献   

5.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

6.
提出了一种结合多示例学习和流行排序的图像检索方法,将图像检索作为多示例学习框架下的流行排序,通过给出适合图像在包空间的有效度量方式,将流行排序的方法和多示例学习有效结合起来,从而获得更准确的检索结果。实验结果表明,运用流行排序的区域图像检索方法是可行的,同时,检索结果与传统的区域图像检索方法相比,检索率得到了明显的提高。  相似文献   

7.
一种云计算环境下的加密模糊检索方案   总被引:1,自引:0,他引:1  
随着移动终端的发展,云计算也越来越普及,很多敏感数据被集中存储到云存储器上。为了保证数据的私密性,这些数据在上传时应该经过加密,这就使得传统数据检索方案的可行性降低。一些在加密环境下的数据检索方案,只能处理准确的关键字检索,对于拼写错误、格式错误的情况则无法进行正常查询,因此不适用于云计算。提出了一种基于k-gram索引的模糊关键字在加密环境下的检索方案。这种方案可以提供一种安全、高效的数据存取服务。  相似文献   

8.
一种中文词句的快速检索算法   总被引:1,自引:0,他引:1  
刘国华  程蕾  祈晓园 《计算机工程》2003,29(19):70-71,94
介绍了一种中文词句快速检索算法,该算法将中文文献正文转换成文献中每个汉字的位置索引列表。根据位置索引列表信息能够快速查找出用户关心的某个词句在文献中出现的位置,并将该词句所在的句子或者上下文信息提交给用户。  相似文献   

9.
对现有的各种斜体检测方法进行详细的分析与比较,并提出一种垂直与水平两级加权的归一化比较方法.该方法通过放大正体与斜体字符图像间的特征差异,可以快速实现文档中散布中文斜体字符的检测.采用3个测试集来测试本文方法,并对各种斜体检测方法进行对比实验.实验证明,本文方法性能较优越,可满足实际应用的需要.  相似文献   

10.
针对模糊数的排序问题,给出几条自然的排序准则并提出了一种新的特殊模糊数的排序函数。该函数基于格论中的字典序,依次通过模糊数中心、模糊数与x轴所围图形面积以及模糊数图形的重心位置三个指标综合确定模糊数的排序;克服了现有方法的某些缺陷,具有一定的优越性和启发性。  相似文献   

11.
为更好地对未标记文本进行分类,通过定义文本和类别的隶属函数,将测试文本和类别表示为特征的模糊集,计算模糊集之间的相关系数并用来度量测试文本到每个类别的隶属度,根据最大隶属度原则确定测试文本所属类别。实验结果表明,与k-NN算法相比,该方法有较好的准确率,分类速度有较大提高。  相似文献   

12.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

13.
信息过滤是海量信息检索的重要手段之一,中文网络文本过滤系统在我国更具有明显的应用价值。该文介绍实现的一个中文网络文本过滤系统;该系统包括中文预处理、特征项选择、权重计算和分类等功能模块,可以方便地实现对中文网络文本的过滤功能。同时对系统采用的文本过滤算法的性能进行了测试。该系统具有一定的可扩充性和通用性。  相似文献   

14.
分“档”快速排序算法研究   总被引:3,自引:0,他引:3  
文章在文献[1]的基础上,提出了一种由分“档”、整体置换和局部快速排序所组成的新排序算法——分“档”快速排序法。算法分析和实验结果都表明:在待排序数据均匀分布或正态分布的情况下,分“档”快速排序算法的时间复杂度可以达到O(n),而附加存储空间开销却仅仅为[(n+1)/2],同时排序速度明显优于Quick Sort[2]、快速分组排序[5]、分“档”统计插入排序[1]和 Proportion  Split Sort[4]等算法。  相似文献   

15.
基于模糊软集合理论的文本分类方法   总被引:3,自引:0,他引:3  
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。  相似文献   

16.
目前大数据对象在数据库中存储时普遍采用存储路径的方式,提出了将大数据对象直接存储于数据库中的方法,并给出了一些程序源代码.  相似文献   

17.
提出了一种复合式中文文本信息过滤机制:首先利用关联知识库以及分析选择器对所需过滤的文本进行初次筛速以确定相关文本,然后利用语义分析器分析相关文本中的主题句,以判断文本的核心思想.运用此机制可同时兼顾中文信息过滤系统的速度及精度.  相似文献   

18.
剖析Java Web应用的开发、部署过程和原理,依托常用开发平台Dream weaver、My Eclipse,搭建Java Web的开发环境,发挥其各自优势,寻求高效开发方法,提升了开发效率,并以开发案例加以说明。  相似文献   

19.
传统的KNN文本分类算法在处理不均匀数据时,尤其是小型数据,容易受到边缘数据的干扰,导致分类效果明显下降.对此,本文提出一种基于模糊理论的KNN文本分类算法,该算法根据模糊理论的思想计算样本的隶属度函数,更合理地处理训练样本权值.实验表明,基于模糊理论的KNN算法能有效的弱化这些干扰,并在分类准确度上也有一定的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号