排序方式: 共有5条查询结果,搜索用时 15 毫秒
1
1.
宏特征(即文档级特征)抽取方法是文本分类中一类典型的特征抽取方法,可以分为有监督宏特征抽取和无监督宏特征抽取。这两类宏特征抽取方法均能提高文本分类的性能。但是,同时使用两类宏特征的情况还没有被研究。该文研究了有监督宏特征和无监督宏特征融合对文本分类性能的影响。具体来讲,研究了两种有监督宏特征抽取方法,与三种无监督宏特征抽取方法,即K-means、LDA和DBN,相互融合的情况。在两个公开语料库Reuters-21578和20-Newsgroup以及一个自动构建的语料库上的对比实验表明,有监督和无监督宏特征之间的融合比单独使用有监督或者无监督宏特征的方式对文本分类更加有效。 相似文献
2.
语句级汉字拼音输入技术评估方法的研究 总被引:1,自引:0,他引:1
该文介绍了语句级汉字拼音输入技术评估方法的研究意义及其重要性。从信息论角度出发,提出了基于损失函数的语句级汉字拼音输入技术的评估方法,它通过损失函数比较经语句级汉字拼音输入系统输出的句子和相应的标准句子,得到描述系统性能的定量指标。该方法对汉字拼音输入技术的音节流自动切分和音字转换两方面进行了较全面的评估。采用手工标注的1996年《人民日报》部分语料,对目前流行的汉字拼音输入技术进行了评估,实验结果表明:拼音输入技术音字转换准确率最高能达到64.3%,音节流自动切分对音字转换的准确率有大约2%的影响。评估结果对今后的拼音输入技术的评估提供了参考价值,对汉字拼音输入技术的持续发展有指导意义。 相似文献
3.
4.
5.
第五届中国健康信息处理会议(China Conference on Health Information Processing, CHIP2019)组织了中文临床医疗信息处理方面的三个评测任务,其中任务1为临床术语标准化任务。该任务的主要目标是对中文电子病历中挖掘出的真实手术实体进行语义标准化。评测数据集中所有手术原词均来自于真实医疗数据,并以《ICD9-2017协和临床版》手术词表为标准进行了标注。共有56支队伍报名参加了评测,最终有20支队伍提交了47组结果。该评测以准确率作为最终评估标准,提交结果中最高准确率达到94.83%。 相似文献
1