首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
中文文本自动校对技术研究及系统组成   总被引:1,自引:0,他引:1  
对文本自动校对国内外发展现状进行描述,针对中文文本出现错误的状况进行分析,提出了查错,纠错的两类自动校对技术;基于语料统计的词的匹配技术和基于自然语言理解的理解技术,给出了中文文本自动校对系统的组成及关键技术。  相似文献   

2.
文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。  相似文献   

3.
中文文本自动校对技术的研究   总被引:5,自引:0,他引:5  
传统的自动校对技术多是基于字、词级的统计方法,有很多局限,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同,提出了词法、句法、语义多层次结合校对策略,从而能够检查以往无法查出的错误,描述了自动校对系统的整体框架,并具体给出可操作的实现方法。这些方法针对非受限领域的文本,为中文自动校对技术的发展提供了新的思路。  相似文献   

4.
中文文本自动校对的语义级查错研究   总被引:4,自引:0,他引:4  
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。  相似文献   

5.
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量  相似文献   

6.
互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串行校对的通用框架,然后针对串行校对算法处理大规模文本存在的耗时长的不足,提出3种通用的文本校对并行化方法:1)基于多线程的线程并行校对,它基于线程池的方式实现段落和校对功能的同时并行;2)基于Spark MapReduce的批处理并行校对,它通过RDD并行计算的方式实现段落的并行校对;3)基于Spark Streaming流式计算框架的流式并行校对,它通过将文本流的实时计算转为一系列小规模的基于时间分片的批处理作业,有效避免了固定开销,显著缩短了校对时延。由于流式计算兼有低时延和高吞吐的优势,文中最后选用流式校对来构建并行校对系统。性能对比实验表明,线程并行适合校对小规模文本,批处理并行适合大规模文本的离线校对,流式并行校对有效减少了约110s的固定时延,相比批处理校对,采用Streaming计算框架的流式校对取得了极大的性能提升。  相似文献   

7.
针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。  相似文献   

8.
文本自动校对技术研究综述   总被引:3,自引:1,他引:2  
概述了文本自动校对技术的产生背景,分析了中西文文本的各自特点以及它们之间的异同,对中西文文本校对的技术难点和解决方法以及国内外的研究现状进行了回顾和评述,探讨了文本校对技术未来的发展方向及需要解决的问题。  相似文献   

9.
提出将Transformer模型应用于中文文本自动校对领域。Transformer模型与传统的基于概率、统计、规则或引入BiLSTM的Seq2Seq模型不同,该深度学习模型通过对Seq2Seq模型进行整体结构改进,从而实现中文文本自动校对。通过使用公开数据集对不同模型进行对比实验,采用准确率、召回率与F1值作为评价指标,实验结果表明,Transformer模型相比较于其他模型,在中文文本自动校对的性能上有了大幅提升。  相似文献   

10.
基于规则与统计相结合的中文文本自动查错模型与算法   总被引:7,自引:0,他引:7  
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。  相似文献   

11.
中文文本校对是中文自然语言处理方面的关键任务之一,人工校对方式难以满足日常工作的数据量需求,而基于统计的文本校对方法不能灵活的处理语义方面的错误.针对上述问题,提出了一种基于神经网络与注意力机制的中文文本校对方法.利用双向门控循环神经网络层获取文本信息并进行特征提取,并引入注意力机制层增强词间语义逻辑关系的捕获能力.在基于Keras深度学习框架下对模型进行实现,实验结果表明,该方法能够对含语义错误的文本进行校对.  相似文献   

12.
随着信息技术的快速发展,互联网越来越朝着智能化的脚步靠近,在人机交互过程中开始越来越多的使用自然语言。那么对于输入自然语言进行校对的研究便日益变成一个非常紧迫的课题。为了能够对中文输入校对有着更加深入的认知与了解,该文对文本校对的语言模型,策略方法,设计思路给与了简单的分析研究,并设计了一个简单的文本校对系统,实现中文语句的文本校对,用于在自动问答系统和用户搜索问句的相关领域进行纠错,为用户提供更好的服务。  相似文献   

13.
基于姓氏驱动的中国姓名自动识别方法   总被引:3,自引:3,他引:3  
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。  相似文献   

14.
维吾尔文校对中常见错误分析   总被引:4,自引:0,他引:4  
论文介绍了文本自动查错的研究现状,及中文、英文文本中常见的错误,详细分析了维吾尔文校对中常见错误类型为录入错误、原稿错误、语法错误、标点符号、数字或括号不匹配和其他错误,并给出了相应的算法。  相似文献   

15.
Wu HC 《Ergonomics》2011,54(9):806-814
This study explores the preferred viewing distance and character size for an electronic paper display for three age groups. Proofreading speed and accuracy ratio were measured during Chinese proofreading tests using the preferred character size and minimum acceptable character size. Data analysis showed that the mean preferred viewing distance for young, middle-aged and older groups was 503, 455 and 444 mm, respectively. The mean preferred character size determined by young, middle-aged and older groups was 42.0, 50.0 and 55.2 min arc, respectively. The proofreading test results indicated that the older group proofread significantly more slowly (1.25 word/sec) than the young (1.76 word/sec) and middle-aged groups (1.74 word/sec). Further, the participants proofread more correctly with their preferred character size (73.3%) than with their minimum acceptable character size (65.4%). This study provides valuable information for the design of Chinese text presentations for various age groups. STATEMENT OF RELEVANCE: This study confirmed the preferred viewing distance and character size for E-paper display were influenced by age. The preferred Chinese character size for young, middle-aged and older people was 42, 50 and 55 min arc, respectively. Therefore, the age factor should be considered for E-paper displays design and video display terminal (VDT) guidelines.  相似文献   

16.
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明,提出的方法能有效校对油田领域的中文真词错误。  相似文献   

17.
《Ergonomics》2012,55(9):806-814
This study explores the preferred viewing distance and character size for an electronic paper display for three age groups. Proofreading speed and accuracy ratio were measured during Chinese proofreading tests using the preferred character size and minimum acceptable character size. Data analysis showed that the mean preferred viewing distance for young, middle-aged and older groups was 503, 455 and 444 mm, respectively. The mean preferred character size determined by young, middle-aged and older groups was 42.0, 50.0 and 55.2 min arc, respectively. The proofreading test results indicated that the older group proofread significantly more slowly (1.25word/sec) than the young (1.76 word/sec) and middle-aged groups (1.74 word/sec). Further, the participants proofread more correctly with their preferred character size (73.3%) than with their minimum acceptable character size (65.4%). This study provides valuable information for the design of Chinese text presentations for various agegroups.

Statement of Relevance: This study confirmed the preferred viewing distance and character size for E-paper display were influenced by age. The preferred Chinese character size for young, middle-aged and older people was 42, 50 and 55 min arc, respectively. Therefore, the age factor should be considered for E-paper displays design and video display terminal (VDT) guidelines.  相似文献   

18.
信息过滤中的中文自动分词技术研究   总被引:2,自引:0,他引:2  
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。  相似文献   

19.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号