首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
文章通过分析现代汉语拼音的组成结构,总结出汉语拼音对于汉字发音的影响因素.利用计算机对现代汉语中3500个常用字进行汉字拼音表GB2312版录入,提出了基于K均值聚类分析的分级模型.此模型通过建立形声字声符的表音特征向量,利用Kmeans聚类分析的方法,将形声字按表音程度的高低分为6级,使得每一级内形声字的表音度更为相似和紧密,并通过每一个分级(聚类中的簇)中特征向量的模的大小对聚类结果按表音度高低进行排序.提出了新的形音字分级模型,对形音字声符表音度分析提供了新的视角.  相似文献   

2.
“形声”作为一种重要的造字方式,构筑了汉字家族中最为庞大的一支。造字之初,形声字以形符表义,以声符表音。随着时代的发展,声符的表音度渐渐发生变化,为人们准确地标音读字造成了一定困难。该文试采用聚类分析的方法,以普通话中3 500常用汉字为对象,结合语言学理论和计算机知识,依据声符表音程度相同、相似和不同制定详细分级标准,并得到每一层级的形声字表和百分数据,从而对现代汉字中形声字声符的表音度情况进行系统、直观而全面地呈现,以期为现代汉字规范的制定和汉语教学提供一定的参考和佐证。  相似文献   

3.
模糊聚类在中文文本分类中的应用研究   总被引:4,自引:0,他引:4  
将基于等价关系的模糊聚类技术应用于中文文本分类,提出了基于模糊聚类的中文文本分类算法ATCFC。该算法利用基于二级字索引的正向最大匹配算法对文本分词,建立模糊特征向量空间模型,使用贴近度法刻划文本间的相似度。利用算法ATCFC对文本集合进行动态聚类实验,实验结果表明算法ATCFC对于中文文本分类是可行、有效的。  相似文献   

4.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

5.
利用分级模糊聚类分析自动识别语音   总被引:2,自引:0,他引:2  
王迎庆 《计算机学报》1989,12(2):134-139
本文提出了利用分级模糊聚类分析自动识别语音的方法,通过对语音特证矩阵进行分级模糊等价矩阵聚类分析,求出聚类中心,再把待识别语音与聚类中心作分级距离检验,从而达到识别语音的目的。  相似文献   

6.
将数据挖掘的聚类算法应用到基于内容的图像检索中可以有效提高检索的速度和效果。模糊聚类算法更符合图像检索本身所具有的模糊性,但这种方法存在聚类分析时间过久影响检索性能的问题,因此本文提出了一种基于优化分块颜色直方图及模糊C聚类的彩色图像检索方法。首先对图像库中的每幅图像进行分块,并提取出每一块的优化颜色特征信息;然后采用模糊C均值聚类算法对得到的颜色特征向量进行聚类,得到每个图像类的聚类中心;最后计算查询示例图像和对应图像类的图像之间的相似度,按照相似度的大小返回检索结果。实验表明,本文提出的方法不仅具有较高的查全率和查准率,而且提取的特征维数较少,聚类时间短,检索速度快。  相似文献   

7.
基于向量空间模型的多主题Web文本分类方法*   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

8.
基于相似度聚类分析方法的异常入侵检测系统的模型及实现   总被引:14,自引:0,他引:14  
提出了基于相似度聚类分析方法的异常入侵检测模型,介绍了对用户行为进行收集,然后在此基础上使用相似度聚类方法分析用户行为,最后实时地通过归类分析方法对用户行为加以判断。详细地讨论了基于相似度聚类分析的用户轮廓建立的算法和基于相似度聚类分析方法的异常检测算法,并提出了对该算法的初步改进。  相似文献   

9.
为了解决传统聚类方法在多维数据集中聚类效果不佳的问题,提出了将网络社团划分的方法,并应用到多维数据聚类分析中。对于一个多维数据集,首先对分析对象进行特征提取,构建出每个对象的特征向量,通过计算皮尔森相关系数来度量不同特征向量之间的相似性,从而构建出一个相似性网络,采用Blondel算法对该网络进行社团划分达到聚类的效果。实验结果表明该方法可以在多维数据聚类中得到较好的聚类结果,准确率达到92.5%,优于K-means算法的75%。  相似文献   

10.
基于属性分布相似度的超图高维聚类算法研究   总被引:4,自引:0,他引:4  
在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚类。聚类结果通过簇内奇异特征值进行评价。实验结果和算法分析表明,该算法可以有效地进行聚类知识挖掘。  相似文献   

11.
从网民密码字符中26个字母与汉语拼音的关系入手,研究中国网民密码的文化特征。基于网络汉字频率及多音字处理方法进行拼音字母的频率统计,在简单阐述网民密码的一般性统计特征后,重点分析中西方网民密码与拼音文本、英语文本中字母频率之间的相似性,揭示中国网民的密码设计与汉语拼音密切相关,并且习惯于采用拼音式的助记符密码。  相似文献   

12.
为了改进现有键盘的字母布局,使之更能适用于汉字拼音输入法,该文根据键盘布局的设计原则、相关的科学原理和基于汉字、拼音字母使用频率的统计数据,设计出一种较为合理的、适用于汉字拼音输入法的键盘布局。该文从静态、动态工作量和左右手交替率三方面,与现有键盘的字母布局进行比较。在工作量方面,对于同一手指新的键盘布局依食指、中指、无名指、小指呈线性递减关系,较好地符合各手指实际可承受负荷量,而其左右手放宽条件下的交替率为0.748 33,分析数据可知新设计出的键盘字母布局在汉字拼音输入法的输入效率方面有着显著的提高。  相似文献   

13.
针对当前汉字输入法普遍存在的不足,提出了一种新音形编码汉字输入法,即利用汉字的首拼音、韵母及组成汉字的基本笔画和少数高频部件来对汉字编码,是对以前笔画和音形编码汉字输入法的改进。它既有笔画输入法低重码率、输入高效的特点,又切合广大拼音输入法用户的输入习惯,能够很好地满足多种用户群的需求。阐述了这种编码输入法对汉字的编码规则,对各编码的按键分布及重码率进行详实的统计,深入分析论证了其重码率低的优点,简要介绍了这种输入法在Android平台下的实现。  相似文献   

14.
当前的语音识别模型在英语、法语等表音文字中已取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。因此,在汉语语音识别中利用拼音作为解码时的约束,可以引入一种更接近语音的归纳偏置。该文基于多任务学习框架,提出一种基于拼音约束联合学习的汉语语音识别方法,以端到端的汉字语音识别为主任务,以拼音语音识别为辅助任务,通过共享编码器,同时利用汉字与拼音识别结果作为监督信号,增强编码器对汉语语音的表达能力。实验结果表明,相比基线模型,该文提出的方法取得了更优的识别效果,词错误率降低了2.24%。  相似文献   

15.
介绍了一种基于HMM的汉语整句拼音输入转换为整句汉字的输入法,提出了引入语言知识后的一种音字选择方法.并给出了采用N元拼音文法时的选择模型.实验表明,该方法取得了较好的效果.  相似文献   

16.
梁会方  黄鹤鸣  杨峰 《微机发展》2014,(12):192-195
汉藏语言的文化交流,少不了语言之间的互译。为了汉藏音译规范化,提出了一种基于规则的汉藏音译方法,根据目前汉藏的音译情况以及汉藏拼音相似性制定了汉藏音译的规则集—汉文对应的拼音和拼音相应的藏文对照表。对于一个汉文存在多个拼音的情况,则要采用统计的方法,依赖上下文相关的词组等选取合适的拼音,然后再根据规则集翻译出所对应的藏文。在音译算法上,文中在汉藏音译的规则制定的基础上,对于存在的约定俗成译法词组优先处理,以及汉文的多音字结合了统计的多音字语料词组,提高音译系统的性能以及其音译的准确性。该算法实现简单,准确率高。  相似文献   

17.
甲骨文字库与智能知识库的建立   总被引:4,自引:0,他引:4  
文章介绍了用于计算机处理的甲骨文字库、句法分析和综合智能知识库的建立方法以及计算机甲骨文辅助辨识分析的工作原理,论述了计算机信息处理技术在甲骨文研究中的重要作用。目前的字库已收入三千多甲骨文字,可采用区位码和拼音输入,对与现代汉字有对应关系的一千多甲骨文字进行现代汉字、音、意、词性、属性等方面作出详尽的标注解释,用VC++实现了它们之间的互查功能。  相似文献   

18.
《汉语拼音方案》在中文信息处理中具有重要地位,拼音输入法更是电脑汉字输入的大众化方法。由于韵母采用1~4个字母,显得长短不齐。本文提出短韵母编码方案,除原来单字母韵母外,其他韵母用{aoeiuv}中的两个字母来表示,使得拼音编码变短。由于韵母采用的字母与声母采用的20个字母不同,在键盘输入汉字时可以采用“声韵声”方式输入词组。此方案可用于字母键盘,在数字键盘更有优势。声调的4个键与短韵母编码的6个键互不相同,拼音串输入时容易切分各字拼音,即使省略了韵母。每对模糊音设有3个数字键盘编码,以方便部分字音需要模糊的用户。  相似文献   

19.
中文信息检索系统的模糊匹配算法研究和实现   总被引:3,自引:0,他引:3  
在现代中文信息检索系统中,用户输入的字符串和实际数据库中的条目往往存在局部偏差,而基于关键词匹配的检索技术不能很好地解决这一问题。本文参考并改进了Tarhio和Ukkonen提出的过滤算法[1],针对汉字拼音输入法中常出现的同音字/近音字混用现象,将算法进一步扩展到广义的Edit Distance上。实验表明,本文提出的算法能有效提高中文信息检索系统的召回率,在实际应用中可达到“子线性”的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号