排序方式: 共有48条查询结果,搜索用时 24 毫秒
11.
12.
为了更好地解决汉语标点句句首话题缺失的问题,需要在话题句识别过程中优化用于评估候选话题句优劣的评估函数.为此,提出了话题句生成的上下文相似性特征、话题串与评述相邻接的局部相似性特征,并设计了相关的评估函数.实验结果表明:综合运用这2个评估函数,话题句识别的准确率提高了5.72个百分点. 相似文献
13.
汉英机器翻译中描述型复句的关系识别与处理 总被引:5,自引:0,他引:5
汉英机器翻译的复句处理不仅要依托于单句的处理,而且还要超越单句的辖域,深入考察复句内分句之间的内在联系.其中,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句,为了辨别其中的内在联系,实现英语译文的正确生成,针对不同情况,给出了完整的关系判定规则,并提出采用中心分句动态判定方法来解决部分复句处理规则局部性的问题,最后通过实验系统得以验证. 相似文献
14.
英汉小句对齐语料库服务于英语和汉语小句的语法结构对应关系研究和应用,对于语言理论和语言翻译(包括人的翻译和机器翻译)有重要意义。前人的语法理论和相关语料库的工作对于小句复合体和小句的界定缺乏充分研究,在理论上有缺陷,难以支持自然语言处理的应用。该文首先为英汉小句对齐语料库的建设做理论准备。从近年提出的汉语小句复合体的理论出发,该文界定了成分共享的概念,基于话头共享和引语共享来界定英语的小句和小句复合体,使小句和小句复合体具有功能的完整性和单一性。在此基础上,该文设计了英汉小句对齐的标注体系,包括英语NT小句标注和汉语译文生成及组合。语料库的标注表明,在小句复合体层面上英汉翻译涉及到的结构变换,其部件可以限制为英语小句和话头、话体,无须涉及话头和话体内部的结构。基于这些工作的英汉小句对齐语料库为语言本体研究和英汉语言对比、英汉机器翻译等应用提供了结构化的标注样本。 相似文献
15.
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。 相似文献
16.
17.
许多面向应用的方法研究主要关注的是该方法的技术的性能,而相应的软件开发则要顾及整个系统的性能代价比,即不但要考虑到技术的性能,还要考虑到系统开发过程中的人力投入以及系统实现运行时的存储占用等方面的因素。这就对学术研究提出了另外一个要求,即对方法的实现做出性能代价的评估。探讨了字音转换技术,采用高频默认方法和语境约束方法,给出在不同分词词表背景下的准确率、存储空间占用及人力消耗等统计数据,从而为标音软件的开发提供一定的参考。 相似文献
18.
19.
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略.实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TFXIDF方法MRR值高出26.67%. 相似文献
20.
目前汉字字形描述方法存在的主要问题是缺少能涵盖一切可能汉字的可计算的字形形式化描述体系,从而造成汉字处理应用中的一系列障碍。本文给出了一种汉字网格字形描述方法,实验表明,该方法具有描述一切可能汉字字形(包括错字)骨架的能力,支持不同颗粒度的构字元素、结构关系等字形特征的自动提取和计算,为字形特征的自动分析处理提供了一种有效的手段,从而也为基于字形计算的各种应用建立了可靠的基础。 相似文献