共查询到19条相似文献,搜索用时 94 毫秒
1.
2.
一种中文分词词典新机制——四字哈希机制 总被引:9,自引:0,他引:9
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 相似文献
3.
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率.提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析.实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%. 相似文献
4.
《计算机应用与软件》2013,(3)
文本特征选择的互信息算法通常倾向于选择稀有的特征词。针对这一局限性,将词频度、类间耦合度、类内内聚度应用到互信息方法上,提出基于TF-CA-CI算法的互信息改进研究。实验结果表明,改进的方法可以有效地控制互信息在低维数特征选择过程中出现的随机性,能够取得较好的分类效果,从而实现了改进方法的有效性和可行性。 相似文献
5.
词典是汉语机械分词的一个重要组成部分,分词词典机制的优劣直接影响到中文分词的速度和效率。在分析了几种典型的词典机制优缺点的基础上,提出一种基于memcached的动态四字双向词典机制。该词典机制有效减少了文章分词过程中对词典的访问次数,同时具有维护方便及快速添加和删除临时词等优点,适合在Web上采用双向最大匹配算法进行中文分词。 相似文献
6.
并列式四字格是一种特殊却数量众多的四字格。介绍了在有词性标注语料库中基于条件随机场模型的四字格抽取工作,并在此基础上分析了并列式四字格的结构特点,提出了一种基于分词语料库环境的并列式四字格识别方法。通过不同语料库间的对比实验,结果表明该识别方法具有比较好的精确度和一定的适应性。 相似文献
7.
基于互信息的词典构建和自动分词是典型的基于统计的中文信息处理技术。通过计算大规模中文文本语料库的高频二字串、三字串、四字串的互信息发现:第一,高频词的互信息并不是很高,词和短语之间的互信息分布不存在明显界限;第二,高频无效汉字串的互信息与词和短语的互信息也没有明确界限,词、短语、无效汉字串互信息的夹杂分布,使得仅凭汉字串的互信息或频率很难高效地自动标注词、短语以及无效串。以上规律说明:单纯依赖对大规模真实文本语料库进行统计来实现高效的中文词典构建、自动分词处理等会面临极大挑战。 相似文献
8.
针对互信息(mutual information,MI)特征选择方法存在的正负相关性的现象以及未考虑特征项在不同类别内词频的问题,提出了一种混合互信息特征选择算法(hybrid mutual information,HMI)。引入逆文档频率系数和类间词频信息系数,使得整个文档中的词频信息以及每个类之间的词频信息得以有效利用;引入正负相关性系数,区分正相关性和负相关性并进行有效的利用。通过实验对比表明,混合互信息算法可以有效地提高特征选择的质量,进而提高文本情感分析的效果。 相似文献
9.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。 相似文献
10.
基于互信息的医学图像匹配中的改进插值算法 总被引:1,自引:0,他引:1
基于互信息的配准方法是医学图像配准领域的重要方法,具有鲁棒性,精度高等优点,已成为医学图像处理领域的热点.在计算两个图像之间的互信息时,为了图像配准精度,图像的像素点经过空间变换需要进行插值,目前采用的插值方法一般都定位在单一的传统插值算法,由于传统的插值算法存在插值精度低或插值速度慢的缺点,提出了一种基于像素点的亮度绝对误差的图像插值算法,插值算法结合了近邻插值算法和双三次插值算法的优点,提高了配准的速度和精确度.通过对头部图像进行配准实验,验证了插值方法的有效性. 相似文献
11.
MIBARK属性约简算法中根据决策表中增加某个属性所引起互信息的变化来度量属性重要性,新算法以属性依赖度作为衡量属性重要性的标准,采用先添后删的方法,在不影响分类质量的前提下将冗余属性删除,通过仿真实验表明该算法达到较好的属性约简效果。 相似文献
12.
图像配准是图像融合、变化检测、目标识别等遥感应用中的重要步骤。互信息由于具有无需预处理、自动化程度高以及鲁棒性强等特点,将其作为一种相似性测度进行图像配准成为近几年图像处理领域的研究热点。随着遥感图像数据量的不断加大,传统的单机处理模式已经无法满足一些应用的时效性要求。基于对串行算法计算瓶颈的实验分析,研究并提出了一种基于互信息的遥感图像区域配准并行算法,分别给出了数据划分策略和互信息计算并行处理方案,采用边界冗余划分和二叉树归约方法减少数据通信,并对算法进行了定量的复杂度分析。实验结果表明该算法可扩展性好,通用性强。 相似文献
13.
14.
交互信息理论及改进的颜色量化方法在图像检索中的应用研究 总被引:1,自引:0,他引:1
设计实现了基于内容的图像检索原型系统与检索性能评价系统,提出了一种基于交互信息与信息熵的图像相似性度量方法-交互信息距离(MID)和一种改进的颜色量化方法,成功地将两种方法应用于基于颜色特征的图像检索中,通过比较性研究证明,MID能较KLD提供更高的检索准确率;改进的颜色量化方法较基于HSV颜色空间的一致颜色量化方法有效地提高了检索准确率,试验证明,颜色空间的合理量化对图像检索有着重要影响,在选择颜色空间进行图像检索的同时,不能忽略对颜色空间的合理量化. 相似文献
15.
16.
课程设计是重要的实践性教学环节,对信息管理与信息系统专业来说是培养学生的综合实践能力的一个重要的途径。本文对课程设计过程中的几个问题进行了分析和探讨,并提出了几个可行的改进的方法。 相似文献
17.
结合国家“九五”重大科学工程项目LAMOST望远镜总控系统研制开发的实践,着重描述了在QNX实时操作系统平台上如何通过设计优先级调度算法来协调完成多个分布式进程的机制。并以此机制为基础,对LAMOST望远镜的环境监控系统和GPS时标系统进行了设计完善。 相似文献
18.
交通禁则下自主导航节点结构设计及Dijkstra算法的改进 总被引:1,自引:0,他引:1
论文针对智能交通中自主导航中交通禁则问题,根据GIS中路网的实际情况,从网络结构的拓扑表示以及Di-jkstra算法中快速搜索技术的实现入手,提出了一种以二级标记邻接表为存储结构、基于次优策略的最短路径算法的高效率实现方法。 相似文献
19.
本文探讨了在应用型人才培养模式下的算法设计与分析课程教学改革,从教学现存的问题入手,结合以前的
教学经验,从四个方面阐述了提高此课程教学效果的措施,可以有效强化学生的实践和创新能力,推进应用型人才培养模式改
革。 相似文献