期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。相似文献

6.

汉语语料词性标注自动校对方法的研究 总被引：6，自引：0，他引：6

钱揖丽郑家恒《中文信息学报》2004,18(2):31-36

兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。相似文献

7.

基于多层有限状态自动机的多输入汉语词性标注系统

孔骏陈玉泉陆汝占《计算机工程》2001,27(2):30-31,98

将带有歧义的切分字段作为词语性标注系统的输入,并在词性标注系统中引入了有限状态自动机进行部分句法分析以排除切分和标注歧义,实现了一个结合部分句法分析的汉语词性标注系统。相似文献

8.

基于搭配模式的汉语词性标注规则的获取方法 总被引：2，自引：0，他引：2

王素格张永奎《计算机工程与应用》2001,37(5):56-58

文章介绍了一种基于搭配模式的汉语词性标注规则的获取方法。该方法从已标注了词性的语料库中自动获取候选搭配模式规则,然后根据可信度从候选规则中选择出大于某阈值的规则,再通过不断测试新语料来完善规则。将获取的规则用于汉语的词性标注,使标注的正确率得到了明显提高。相似文献

9.

一种启发式的汉语词性标注算法 总被引：1，自引：0，他引：1

付国宏姜守旭《计算机工程与设计》2000,21(5):61-64

描述了一种启发式的汉语词性标注算法,并采用该算法实现了一个基于统计模型的汉语词性标注系统。该算法将反向动态规划和正向Ａ＾＊解码算法相结合。初步的开放测试表明,该系统的词性标注正确率为９５．８８％（小标记集）和９７．９５％（大标记集）,性能优于Ｖｉｔｅｒｂｉ算法。相似文献

10.

汉语自动分词和词性标注评测 总被引：6，自引：2，他引：6

杨尔弘方莹刘冬明乔羽《中文信息学报》2006,20(1):46-49,97

本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文中着重介绍了测试中所采用的一种柔性化的自动测试方法,该方法在一定程度上克服了界定一个具体分词单位的困难。同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议。相似文献

11.

中文分词及词性标注一体化模型研究

佟晓筠宋国龙刘强张俐姜伟《计算机科学》2007,34(9):174-175

本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98．1％和95．07％。相似文献

12.

汉语分词和词性标注一体化分析的方法研究 总被引：2，自引：0，他引：2

付国宏王平王晓龙《计算机应用研究》2001,18(7):24-26

提出了一种汉语文本切分和词性标准注相融合的一体化分析的统计模型,并应用动态规划算法与A^*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标准注正确率分别可达98．67％和95．49％。相似文献

13.

基于内容主题的语料库系统设计与实现 总被引：2，自引：0，他引：2

李文翔晏蒲柳夏德麟《计算机应用研究》2004,21(10):149-151

介绍了笔者开发制作的汉语语料库系统的特点、功能,以及系统的设计思想和总体框架。系统以2001年《人民日报》电子文本为生语料,实现了KWIC索引、词表生成、词语搭配分析和分类主题词提取等功能,能够为网络信息挖掘和自然语言处理研究提供丰富而真实的语言环境。相似文献

14.

一个自动阅卷系统的设计与实现 总被引：7，自引：0，他引：7

下载免费PDF全文

朱巧明陈越《计算机工程与科学》1999,21(3):66-70

本文针对江苏省普通高校非计算机专业计算机等级考试的总体要求,提出了一个基于中文Ｗｉｎｄｏｗｓ９５的自动阅卷系统的设计方法和实现方案,该系统可以自动批阅填空题、汉字录入题、选择题、Ｗｏｒｄ操作题以及Ｗｉｎｏｄｗｓ操作题。相似文献

15.

用于文本校对的分词与词性标注一体化算法

WANG Yong-jing LIU Gong-shen LI Sheng-hong JING Tao 《微机发展》2008,(8)

分词和词性标注是中文处理中的一项基本步骤,其性能的好坏很大程度上影响了中文处理的效果。传统上人们使用基于词典的机械分词法,但是,在文本校对处理中的文本错误会恶化这种方法的结果,使之后的查错和纠错就建立在一个不正确的基础上。文中试探着寻找一种适用于文本校对处理的分词和词性标注算法。提出了全切分和一体化标注的思想。试验证明,该算法除了具有较高的正确率和召回率之外,还能够很好地抑制文本错误给分词和词性标注带来的影响。相似文献

16.

中国组织机构名自动识别系统的设计与实现 总被引：4，自引：0，他引：4

张辉徐健《电脑开发与应用》2002,15(1):5-6,9

以搜狐网站的 2 0 0 0年 11～ 12月人民日报网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,首先利用基于隐马尔可夫模型进行初识别 ,然后建立了一定规模的规则集 ,实现了中国组织机构名自动识别系统。经测试准确率达 89% ,召回率为 94 .5 %。相似文献