首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现代汉语计算语言模型中语言单位的频度—频级关系   总被引:6,自引:2,他引:4  
Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实了Zipf定律所反映的汉语语言单位频度-频级关系,并进而深入讨论了它对于汉语自然语言处理的各项技术,尤其是建立现代汉语基于统计的计算语言模型所具有的重要指导意义。  相似文献   

2.
汉语词组的拼接 ,按照统计规律分成三类 :字与字之间存在明显的间隙、两字紧密相连但协同音变不明显、两字发生突出协同音变。本文通过统计分类的措施解决两字拼接时其间隙的控制规律  相似文献   

3.
汉语文字自动统计系统CWSS   总被引:4,自引:3,他引:1  
本文从理论和实践上论证了汉语字、词的频度统计自动化的可行性问题, 简要介绍了计算机自动统计方法、研制成功的汉字自动统计CWSS系统和CWDB汉语词库的结构、功能和特点。提出在设计和实现CWSS和CWDB中的若干技术问题和解决方法。该系统和CWDB经过一年多试用, 效果良好, 稳定可靠, 适合各专业部门需要。  相似文献   

4.
《微型电脑应用》2000,16(2):27-29
汉语词组的拼接,按照统计规律分成三类字与字之间存在明显的间隙、两字紧密相连但协同音变不明显、两字发生突出协同音变。本文通过统计分类的措施解决两字拼接时其间隙的控制规律。  相似文献   

5.
汉语词组的拼接,按照统计规律分成三类,字与字之间存在明显的间隙、两字紧密相连但协同音变不明显,两字发生突出协同音变。本文通过统计分类的措施解决两个拼接时间间隙的控制规律。  相似文献   

6.
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。  相似文献   

7.
基于决策树的汉语未登录词识别   总被引:13,自引:0,他引:13  
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词)和‘分’(分为两单字词)两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识:前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4.5算法生成了决策树。在分词程序已经识别出一定数量的未登录词而仍有分词碎片情况下使用该方法,开放测试的召回率:69.42%,正确率:40.41%。实验结果表明,基于决策树的未登录词识别是一种值得继续探讨的方法。  相似文献   

8.
汉语处理的基础工程——现代汉语词频统计   总被引:10,自引:1,他引:9  
汉语词领统计是汉语言处理的一项基础工程。汉语词汇量巨大, 人工统计精度上难以保证。由于存在编码输入、分词等方面的困难, 直到八十年代初期, 我国才开始利用计算机进行汉语分词、统计的研究。“ 现代汉语词预统计” 是由北京航空学院等个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字, 从中抽样输入了二千余万汉字, 并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统一CDWS, 建立了一个有十三余万词条的计算机词典, 研制了一个有五十二个属性的汉字信息库。  相似文献   

9.
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。  相似文献   

10.
把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。
  相似文献   

11.
CEMT—Ⅲ系统中汉语兼类问题的处理   总被引:2,自引:0,他引:2  
汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT-III的有2万词条的机器词典进行了统计, 其中兼类词占7.7%, CEMT-III系统采用多级渐进处理策略, 将确定性推理和非确定性推理相结合, 实现了汉语词的兼类自动消除机制。  相似文献   

12.
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。  相似文献   

13.
统计语言模型及汉语音字转换的一些新结果   总被引:13,自引:3,他引:10  
汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型, 将基于语料库的方法与传统的基于规则的方法结合, 研制了THED新一代音字转换系统。该系统对随机抽取的祈华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果, 也简要介绍该系统在语料库应用方面的一些思路。  相似文献   

14.
该文基于70年跨度的历时报刊语料库,使用九种统计方法计算了词语历年的使用情况,并通过对稳定性、覆盖度和时间区分性能的考察筛选获得了规模为3 013词的历时稳态词候选词集。该词集中动词与名词各占约三分之一(其余为形容词、副词与虚词),平均词长约1.7字,前密后疏地分布于历时语料库总频序表的前7 609位,覆盖了总语料的近九成。该部分词语中包含大量构造句子结构的核心词语。它们塑造了稳态词在词长和词类上的特性。稳态词的提取可以加深对语言生活底层与基础词汇的认识,对汉语教学、中文信息处理和语言规划都具有重要意义。  相似文献   

15.
该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。  相似文献   

16.
规则和统计相结合的汉语词类标注方法   总被引:22,自引:5,他引:17  
本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。  相似文献   

17.
汉语书面语的分词问题──一个有关全民的信息化问题   总被引:8,自引:2,他引:6  
汉语的书面语是按句连写的, 词间无间隙。因此在汉语书面语的处理中, 例如, 统计、分析、理解等, 我们首先遇到的问题是词的切分。把按句连写转换为按词连写, 所以, 词的正确切分是进行汉语书面语处理的必要条件它的任何错误都将使处理结果受到或大或小的影响, 有时是严重的影响。  相似文献   

18.
本文基于统计和规则提出一种中文识别方法。利用统计信息得到候选中文姓名,而后利用姓名前后的指界词、称谓词等相关信息从候选中文姓名中进行筛选,完成识别。实验表明该方法的正确率和召回率比较高,并且由于中文姓名在未登录词中占有很大比例,本文方法可以帮助进一步提高汉语自动分词的识别效果。  相似文献   

19.
为了提高汉语语音识别率, 本文根据一种基于马尔可夫模型的统计语言模型去实现汉语音字转换, 在实现过程中, 提出了它的简化模型, 该模型不仅保证了实时性,而且也为以后的工作打下伏笔; 同时对训练文本的稀疏问题提出了一种新的解决方案。利用以上模型的模拟实验表明, 前向-后向的马尔可夫模型具有较好的识别性能; 且以词为输出单元的模型识别性能优于以字符为输出单元的模型。  相似文献   

20.
Internet的复杂网络统计规律研究与分析   总被引:4,自引:1,他引:3       下载免费PDF全文
关沫  李波  赵海 《计算机工程》2008,34(21):92-94,9
运用CAIDA Skitter项目提供的Internet监测数据和统计手段对Internet的平均最短路径、节点度分布所具有的统计规律进行研究与分析。统计结果显示Internet的拓扑结构是不均匀的,其内部集聚程度较高,网络中任意2个节点间的最短距离很小,整个网络的平均最短路径约为14跳,且Internet节点的度分布服从幂律分布,证实了Internet不是一种随机网络,而是一种同时具有“小世界”和“无尺度”网络特征的复杂网络。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号