排序方式: 共有28条查询结果,搜索用时 15 毫秒
1.
文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型等级的相关系数,来获取量化的语言风格相似度,构建了八部文献之间的相似度矩阵,验证了语言风格的差异不仅体现在使用的常用词上,还更细微地体现在常用词的使用频率等级上。 相似文献
2.
为了满足信息处理的特定需求,设计了Character类,它能够识别出汉字、英文字符、中文数字、阿拉伯数字、繁体字、简化字、半角字符、全角字符,并且能够实现繁体汉字与简体汉字的自动转化,这个类在中文信息处理时具有较大应用价值. 相似文献
3.
《论语》、《孟子》等先秦汉语文献对后世影响深远,其中大量使用的排比句,使这些文献有极强的说服力,增强了表达效果。以《孟子》、《论语》中的排比句的自动识别为例,探讨了古代汉语修辞格的自动识别。详细分析先秦汉语排比句的特点,并设计了相应的自动识别算法,来分别处理《孟子》和《论语》中的排比句,并对自动识别结果进行了分析和比较。在处理《孟子》、《论语》这两种风格不太相同的先秦文献时,排比句自动识别算法都保持了较好的性能。 相似文献
4.
大规模语料中的搭配自动获取和识别技术是自然语言处理领域的基础性工作之一。句子中的搭配和句法结构密切相关,从句法对搭配进行约束的角度,分别提出了一种保留结构中心词的搭配获取方法和一种添加了句法规则约束的搭配识别方法。实验结果表明,保留结构中心词的搭配获取方法能够较为有效地从树库中抽取搭配;添加了句法规则约束的搭配识别方法较之简单查表的搭配识别方法有10%~15%的效果提升。 相似文献
5.
与印欧语言不同,汉语的句子往往是由多个分句组成的复句。但目前的中文语义角色的标注语料和标注系统并没有对现代汉语的这个特点给予充分的重视。由于数据稀疏的问题,对于与动词跨分句的论元还没有一个有效的识别方法,直接影响了汉语真实文本语义角色标注的研究。运用统计和规则结合的方法,对与动词跨分句的论元进行识别。先用一条基本的规则识别出大部分的动词的论元,再找到规则识别的薄弱点,运用统计决策树融合多种特征构造模型,以进一步提高识别的准确率。实验结果表明,对于与动词的跨分句的论元,仅仅规则识别的F值就达到了65.3%,使用决策树后,F值提高到67.2%。 相似文献
6.
目的通过分析影响持续非卧床腹膜透析(CAPD)患者发生出口处感染和隧道炎的因素,以减少此并发症的发生及避免其所致的严重后果。方法调查2005年2月1日至2009年10月31日在本腹透中心进行CAPD的终末期肾病的临床资料,发生出口处感染和隧道炎的原因,时间及相应的护理措施对其预后的影响。以单因素方差分析分别观察白蛋白及血红蛋白对出口处感染和隧道炎的影响。结果105例患者中有32例发生37次出口处感染和隧道炎,占我院腹透患者的30.4%,出口处感染31例,隧道炎6例。发生时间集中于6、7、8三月,该3个月发生的例数占总数的52.9%。其中致涤纶套外露4例,腹膜炎2例,住院6例。经相应的护理措施后均痊愈。白蛋白及血红蛋白对出口处感染和隧道炎无影响。结论营养因素对出口处感染和隧道炎的发生影响少,而出口处的损伤、出血及护理不佳是导致出口处感染和隧道炎的重要因素。因此应注重CAPD患者出院的培训与教育。小心放置导管并防止任何可能的外伤有重要意义。出口处感染和隧道炎的发生时间大多集中在夏季,故在此季节更应加强观察、随访及护理。当患者已发生出口处感染和隧道炎时,可通过加强换药、适当使用抗生素,可避免进一步发展至隧道脓肿、腹... 相似文献
7.
首先分析了古汉语词义义项的分布情况与特点,考察了词义消歧的难点.然后在现有的词义消歧理论和方法的基础上,基于机器自动学习的统计模型条件随机场,选择上下文的词及其词性的复合特征,并加入其他适当语言学特征,设计6个不同的模板,对"將"、"如"、"我"、"信"、"聞"、"之"等古汉语高频词进行了词义消歧实验.实验最高平均F值达到了83.04%,高于最大熵、朴素贝叶斯模型,结果表明,选择合适的特征,条件随机场模型在古汉语词义消歧方面有效可行. 相似文献
8.
9.
基于篇章的中文地名识别研究 总被引:1,自引:0,他引:1
该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。 相似文献
10.
该文提出一种“基于高频词等级相关度的方法”来探析存疑文献的作者信息,把各份语料中的词型均按照出现频次递减排列并确定等级,然后通过计算出语料之间高频词等级的相关度,来推断语料之间语言风格的相似度,并且把这种方法与“基于词型共现率的方法”和“基于词例共现率的方法”相比较。把《红楼梦》的120回均分为12份语料,使用“基于高频词等级相关度的方法”计算这12份语料两两之间的相关度。研究发现《红楼梦》的前8份语料两两之间相关度高,后4份语料两两之间相关度也高,而前8份语料与后4份语料这两部分语料之间相关度低。推断《红楼梦》前80回应是同一人所写,后40回应是另一人所写。 相似文献