排序方式: 共有45条查询结果,搜索用时 15 毫秒
1.
2.
3.
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量 相似文献
4.
基于粗糙集的文本分类方法研究 总被引:8,自引:3,他引:8
本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务:对文本进行了预处理;改进了Okapi 权重计算公式,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。 相似文献
5.
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法.与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量. 相似文献
6.
基于加权类轴的Web文本分类方法研究 总被引:1,自引:0,他引:1
为了更有效的组织Intemet上丰富的信息资源,通过分析传统的近邻文本分类方法技术以及web文本的特点,提出了一种新的简单有效的网页分类方法。该方法充分利用了web文本的结构信息进行特征词加权,以类轴向量为核心构建分类器。实验表明,此方法具有较高的准确率和召回率。 相似文献
7.
8.
以2000年11-12月《人民日报》网页中涉及社会,经济、法律等内容的50万汉字语料为基础,利用基于隐马尔可夫模型并结合概念估值公式来评价在真实广西中构成组织机构名的能力,实现了中国组织机构名自动识别系统,实验研究表明准确率达89%,召回率为94.5%。 相似文献
9.
分词及词性标注一致性校对系统的设计与实现 总被引:9,自引:0,他引:9
针对真实语料中分词、词性标注结果前后不一致的现象提出了基于规则库的校对方法与策略 ,设计了一致性校对系统 ,进一步提高分词、词性标注的正确率。 相似文献
10.