排序方式: 共有17条查询结果,搜索用时 15 毫秒
1.
该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益。互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法。不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%。该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%。 相似文献
2.
汉语多重关系复句的关系层次分析 总被引:8,自引:0,他引:8
汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成.将多重关系复句中的层次分析作为研究对象.它是针对多种逻辑或并列关系,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程.为了有效地形式化地表示多重关系复句的层次结构,提出了关系层次树的概念,并以此为基础构造文法,采用部分数据驱动的确定性移进-归约算法实现多重关系复句的关系层次分析.通过开放测试对计算机实现的多重关系复句句法分析器进行考察,93.56%的正确率使所提出的分析方法的有效性和正确性得到了充分的验证. 相似文献
3.
李素建 《术语标准化与信息技术》2011,(1):43-48
随着网络技术的发展,文本信息急速增长。文本内容自动处理的相关研究无疑成为最急迫的任务。文章从一些文本内容相关的应用研究开始介绍,其中简要介绍了自动摘要技术、自动标引、信息抽取、文本分类和聚类等,期冀通过对这些应用研究的了解,认识到要重视文本内容的基础研究,从词语层到篇章层的深入分析才是文本内容处理研究发展的最终突破点。 相似文献
4.
语言信息处理技术中的最大熵模型方法 总被引:6,自引:0,他引:6
1 引言进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等。这些自然语言中的问题都可以形式化为分类问题,估计某一类y在上下文x中发生的概率,即p(y,x)。在汉语中上下文x的内容可以包括汉字、词、词性等,对于不同的任务上下文的内容也不同。这类问题可以采用统计建模的方法去处理。首先是采集大量样本进行训练,样本代表了该任务的知识和信息,选取样本的好坏确定了知识完整性的程度。然后建立一个统计模型,并把样本知识结合到模型中,来预测随机过程将来的行为。 相似文献
5.
领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领域中的使用差异性计算其领域度,从而达到领域分析的目的,获取某个领域的领域部件词。该文采用以上方法在军事、娱乐等领域进行了实验,实验结果表明该方法相对于当前常用的tf×idf方法和Bootstrapping方法,可以更有效地进行领域分析获取领域部件词。 相似文献
6.
中文医学知识图谱CMeKG构建初探 总被引:3,自引:0,他引:3
医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。 相似文献
7.
8.
关键词自动标引的最大熵模型应用研究 总被引:37,自引:0,他引:37
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,针对标引任务和现有资源的实际情况,作者首先建立了最大熵模型的特征集合,然后提出了三种试验方法,并给出了相应的试验结果,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨.该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示. 相似文献
9.
统计和规则相结合的汉语组块分析 总被引:6,自引:0,他引:6
从广西中获得的组块对机器翻译,信息检索等很多领域都非常有用,介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法,并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测度验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%。 相似文献
10.
N-gram统计模型在机器翻译系统中的应用 总被引:2,自引:1,他引:2
文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。 相似文献