首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
模糊限制语用于表示不确定性的观点。由模糊限制语所引导的信息为模糊限制信息,开展中文模糊限制信息检测研究,对事实信息抽取意义重大。模糊限制信息检测包含模糊限制性句子识别和模糊限制信息范围检测两个子任务。中文模糊限制信息范围语料库的缺乏,影响了中文模糊限制信息检测的研究。该文研究制定了基于短语结构的中文模糊限制信息范围标注规则,构建了中文模糊限制信息范围语料库。最后对标注的语料库进行了统计和分析。该文语料库的构建为中文模糊限制信息检测研究提供了资源支持。  相似文献   

2.
3.
在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统。人名和称谓总体上分为单一型和复合型,根据复合型的内部组成元素和组合方式,将其进一步分为固定式、同位式、附属嵌套式、灵活嵌套式。结合语料库的完整数据统计,该文对各类型人名和称谓进行了比较分析,并分别展示了4部名著在人名、称谓使用上的特点。  相似文献   

4.
事件事实性表达事件是否是事实的确定性程度,在文档中表现这一属性的是特定的句子结构和词汇。该文在充分研究影响中文事件事实性的句子成分的基础上,提出了五类事件事实性相关信息并给出了具体的标注规则。最后,在ACE 2005中文语料库的基础上完成了Movement事件的事实性标注,并对标注完成的语料库进行了相关的统计和分析,为后续研究提供基础。  相似文献   

5.
为了解决95598客服投诉工单的整理、归档等问题,其中包括:在人工进行归档的过程中出现的疏忽造成的归档随意问题,即归档准确性问题;人工对投诉工单进行差错点归纳的耗时问题,即效率问题;人工对客服投诉分析深度不足,无法精准快速定位用户诉求热点的问题,即深度问题。本文针对以上三个问题给出解决方案,采用word2vec和XGBoost相结合的方式达到对95598客服投诉工单精准归纳。在文本词向量化的过程中采用word2vec方法,得到单词的文本词向量;利用XGBoost算法对95598客服投诉工单进行分类归档,并且对历史投诉工单的责任部门、专业分类、诉求事件、差错点四个方面进行标注。该模型的分类准确率在83%-91%左右,有较好的的效果。基于工单分类的结果,并设计了相关的投诉类看板,更直观的对数据进行展示。  相似文献   

6.
文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。  相似文献   

7.
笑话作为国家级非物质文化遗产,历史悠久,普遍存在于人们的日常生活中,是最贴近人们生活的艺术体裁之一,笑话的理解也是人工智能发展需要攻克的难题之一。该文构建的大规模中文笑话语料库为人工智能以及语言学研究提供了有利的资源支撑。该文首先归纳总结笑话语料库所依据的笑话相关理论基础,然后对语料库构建中语料标注、语料分析等工作做了详细的介绍,最后在语料库的基础上,分别将笑话与故事、微博、歇后语/谚语以及新闻四种体裁分别做了识别工作,验证了笑话简洁、具有一定的情节、富含情感等特征。同时通过与等长的负例构成的数据集进行笑话识别,验证了所提出特征的有效性。  相似文献   

8.
为深层挖掘电力数据文本蕴藏的信息,本文基于自然语言处理技术分析了电力文本挖掘与分类流程,通过分词技术分析文本内容,提取文本特征,并构建分类器模型以自动分类文本,最后以实例分析了电力文本挖掘与分类的实际效果.结果表明,中文电力数据文本挖掘准确度较高,适用范围广泛,方式方法灵活,可及时准确挖掘隐藏的关键信息,为分析客户用电...  相似文献   

9.
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。  相似文献   

10.
面向事件的多语平行语料库构建研究   总被引:2,自引:0,他引:2  
讨论了面向北京奥运的多语语料库建设中的若干基础问题。提出了面向事件、多领域融合的语料收集原则,制定了具有分类信息的标注规范,初步建立了具有近七万句对的可控多语语料库。  相似文献   

11.
本文提出了一种基于动态树的标记转移系统的构造与执行方法,其具有以下几个显著特点:一是树形结构可以层次清楚垫孝示标记转移系统并可方便地利用树的遍历算法执行系统;二是通过树的动态生成解决了进程代数的状态递归和回溯的问题;三是标记转移系统的执行只和当前的动态树相关,降低了执行的复杂度。  相似文献   

12.
汉语语音合成语料库管理系统的建立   总被引:3,自引:0,他引:3  
本文介绍的语料库管理系统主要用于语音合成的研究或开发工作 .语料的设计考虑了音段和韵律 ,语料库中包括汉语的音节、词语、独白语句和情景对话语篇 ,语音的录制是在卦限录音室完成 .管理系统对各种语音数据进行综合有效的管理 ,它具有查询、浏览和更新等功能  相似文献   

13.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

14.
Question answering (QA) is a relatively new area of research. We took the approach of designing a question answering system that is based on question classification and document tagging. Question classification extracts useful information from the question about how to answer the question. Document tagging extracts useful information from the documents, which are used to find the answer to the question. We used different available systems to tag the documents. Our system classifies the questions using manually developed rules. An evaluation of the system is performed using Text REtrieval Conference (TREC) data.  相似文献   

15.
语音识别的顽健性与语音库的建立   总被引:1,自引:0,他引:1  
汉语语音识别在近十几年有很大进展,现今已有一些系统投入实际应用,并初步商品化。但是一些系统的顽健性较差,因而这方面的问题将成为今后语音识别研究的一项主要任务。为此我们建立了一个适用于语音识别顽健性研究的汉语语音库,并详细介绍了它的构成、特点和试验结果等。  相似文献   

16.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

17.
首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本.然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮件的初次标注、词分类和邮件的二次标注四个步骤,并通过提供一个管理工具来管理邮件语料.最后,介绍了目前已经建设的一个邮件语料库的情况.  相似文献   

18.
Our aim is to show the utility of a format framework of measures of comparison, especially for a similarity based classification. We present both theoretical and practical arguments and we apply this approach to a real world problem.  相似文献   

19.
提出了一个结合统计和规则的口语理解方法.首先,用统计分类器对输入进行主题分类,然后用语义规则提取主题相关的语义槽.该方法在主题分类和语义槽提取方面都具有较低的错误率,同时具有很好的鲁棒性,并在图书馆查询系统的查询需求理解中取得了很好的结果.  相似文献   

20.
本文论述了协议的形式描述与验证的主要技术,讨论了基于标号有限状态机的形式描述与验证问题,给出了应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号