排序方式: 共有23条查询结果,搜索用时 15 毫秒
1.
基于组块分析技术的中文机构名称识别 总被引:1,自引:0,他引:1
针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%. 相似文献
2.
3.
4.
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。 相似文献
5.
提出了一种基于最大熵模型的事件分类方法,该方法能够综合事件表述语句中的触发词信息及各类上下文特征对事件进行分类。对其中的两个关键问题:参数估计、特征模板与特征选择进行了详细论述,采用IIS算法学习模型参数,使用增量选择方法选择特征。应用该方法对人民日报语料中的职务变动、会见、恐怖袭击、法庭宣判、自然灾害五类事件进行了分类实验,结果表明,该方法的分类效果明显优于传统的分类方法。 相似文献
6.
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。 相似文献
7.
提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与. 相似文献
8.
受限领域中文文本内容主题概念识别研究 总被引:1,自引:0,他引:1
该文尝试利用领域知识库,实现受限领域中文文本内容主题概念识别,并尝试利用领域概念建立特征向量,实现受限领域文本与主题概念的相关度计算。其中,利用领域知识库进行主题特征识别,利用知识库中概念间的关系进行特征项权重的计算,并利用knn算法进行文本与主题概念的相关度计算。实现了基于词汇分析技术和基于领域知识计算相结合的方式下,受限领域中文文本内容主题概念的识别和文本与主题概念的相关度计算。实验结果显示,主题识别平均正确率为79%文本与主题概念的相关度计算的正确率达到62%。 相似文献
9.
文中提出了一种利用自组织映射(KSOM)和径向基函数(KR)神经网络进行网络拥塞预测的方法.目前的研究表明,预测网络拥塞还存在一些问题,尤其在数据集比较小的时候.因此,为了使网络拥塞问题预测精度高,在预测过程中有必要考虑原有的数据集中每个数据之间的关系.现在为了获得更多的有价值的位置信息,采取了一系列的措施去满足不同数据的情况,包括使用自组织映射神经网络和径向基函数神经网络算法.这一过程使网络能满足不同类型的数据.在本文网络拥塞预测中,采用同一原始数据集,分别对利用自组织映射和径向基函数神经网络的算法和另外两种算法的性能进行比较.实验结果表明,利用自组织映射和径向基函数神经网络的算法具有更好的效果. 相似文献
10.
基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412 775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。 相似文献