期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘晶茹王开铸《电脑学习》1999,(6):4-5

对文本自动校对国内外发展现状进行描述,针对中文文本出现错误的状况进行分析,提出了查错,纠错的两类自动校对技术;基于语料统计的词的匹配技术和基于自然语言理解的理解技术,给出了中文文本自动校对系统的组成及关键技术。相似文献

2.

李云汉施运梅李宁田英爱《中文信息学报》2022,36(9):1

文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。相似文献

3.

中文文本自动校对技术的研究 总被引：5，自引：0，他引：5

骆卫华罗振声宫小瑾《计算机研究与发展》2004,41(1):244-249

传统的自动校对技术多是基于字、词级的统计方法，有很多局限，通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同，提出了词法、句法、语义多层次结合校对策略，从而能够检查以往无法查出的错误，描述了自动校对系统的整体框架，并具体给出可操作的实现方法。这些方法针对非受限领域的文本，为中文自动校对技术的发展提供了新的思路。相似文献

4.

中文文本自动校对的语义级查错研究 总被引：4，自引：0，他引：4

骆卫华罗振声龚小谨《计算机工程与应用》2003,39(12):115-118

目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。相似文献

5.

中文文本词性自动校对系统的实现

钱揖丽郑家恒《电脑开发与应用》2004,17(1):25-27

提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量相似文献

6.

基于Spark Streaming的流式并行文本校对

杨宗霖李天瑞刘胜久殷成凤贾真珠杰《计算机科学》2020,47(4):36-41

互联网的高速发展催生了海量网络文本,这对传统的串行文本校对算法提出了新的性能挑战。尽管近年来文本自动校对任务受到了较多关注,但相关研究工作多集中于串行算法,鲜有涉及校对的并行化。文中首先对串行校对算法进行泛化,给出一种串行校对的通用框架,然后针对串行校对算法处理大规模文本存在的耗时长的不足,提出3种通用的文本校对并行化方法:1)基于多线程的线程并行校对,它基于线程池的方式实现段落和校对功能的同时并行;2)基于Spark MapReduce的批处理并行校对,它通过RDD并行计算的方式实现段落的并行校对;3)基于Spark Streaming流式计算框架的流式并行校对,它通过将文本流的实时计算转为一系列小规模的基于时间分片的批处理作业,有效避免了固定开销,显著缩短了校对时延。由于流式计算兼有低时延和高吞吐的优势,文中最后选用流式校对来构建并行校对系统。性能对比实验表明,线程并行适合校对小规模文本,批处理并行适合大规模文本的离线校对,流式并行校对有效减少了约110s的固定时延,相比批处理校对,采用Streaming计算框架的流式校对取得了极大的性能提升。相似文献

7.

中文文本敏感信息自动校对方法研究

龚永罡汪昕宇李玉莹王蕴琪《广东电脑与电讯》2018,1(12):66-69

针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。相似文献

8.

文本自动校对技术研究综述 总被引：3，自引：1，他引：2

张仰森俞士汶《计算机应用研究》2006,23(6):8-12

概述了文本自动校对技术的产生背景,分析了中西文文本的各自特点以及它们之间的异同,对中西文文本校对的技术难点和解决方法以及国内外的研究现状进行了回顾和评述,探讨了文本校对技术未来的发展方向及需要解决的问题。相似文献

9.

基于Transformer模型的中文文本自动校对研究

《电子技术应用》2020,(1)

提出将Transformer模型应用于中文文本自动校对领域。Transformer模型与传统的基于概率、统计、规则或引入BiLSTM的Seq2Seq模型不同,该深度学习模型通过对Seq2Seq模型进行整体结构改进,从而实现中文文本自动校对。通过使用公开数据集对不同模型进行对比实验,采用准确率、召回率与F1值作为评价指标,实验结果表明,Transformer模型相比较于其他模型,在中文文本自动校对的性能上有了大幅提升。相似文献

10.

基于规则与统计相结合的中文文本自动查错模型与算法 总被引：7，自引：0，他引：7

张仰森曹元大俞士汶《中文信息学报》2006,20(4):3-7,55

中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。相似文献

11.

基于神经网络与注意力机制的中文文本校对方法

郝亚男乔钢柱谭瑛《计算机系统应用》2019,28(10):190-195

中文文本校对是中文自然语言处理方面的关键任务之一,人工校对方式难以满足日常工作的数据量需求,而基于统计的文本校对方法不能灵活的处理语义方面的错误.针对上述问题,提出了一种基于神经网络与注意力机制的中文文本校对方法.利用双向门控循环神经网络层获取文本信息并进行特征提取,并引入注意力机制层增强词间语义逻辑关系的捕获能力.在基于Keras深度学习框架下对模型进行实现,实验结果表明,该方法能够对含语义错误的文本进行校对. 相似文献

12.

中文文本校对技术研究

段良涛 ;郭曙超《数字社区&智能家居》2014,(7):4602-4604

随着信息技术的快速发展,互联网越来越朝着智能化的脚步靠近,在人机交互过程中开始越来越多的使用自然语言。那么对于输入自然语言进行校对的研究便日益变成一个非常紧迫的课题。为了能够对中文输入校对有着更加深入的认知与了解,该文对文本校对的语言模型,策略方法,设计思路给与了简单的分析研究,并设计了一个简单的文本校对系统,实现中文语句的文本校对,用于在自动问答系统和用户搜索问句的相关领域进行纠错,为用户提供更好的服务。相似文献

13.

基于姓氏驱动的中国姓名自动识别方法 总被引：3，自引：3，他引：3

张仰森徐波曹元大宗成庆《计算机工程与应用》2003,39(4):62-65

文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。相似文献

14.

维吾尔文校对中常见错误分析 总被引：4，自引：0，他引：4

古丽拉·阿东别克艾尔肯·伊米尔《计算机工程与应用》2005,41(27):181-183

论文介绍了文本自动查错的研究现状,及中文、英文文本中常见的错误,详细分析了维吾尔文校对中常见错误类型为录入错误、原稿错误、语法错误、标点符号、数字或括号不匹配和其他错误,并给出了相应的算法。相似文献

15.

Electronic paper display preferred viewing distance and character size for different age groups

Wu HC 《Ergonomics》2011,54(9):806-814

This study explores the preferred viewing distance and character size for an electronic paper display for three age groups. Proofreading speed and accuracy ratio were measured during Chinese proofreading tests using the preferred character size and minimum acceptable character size. Data analysis showed that the mean preferred viewing distance for young, middle-aged and older groups was 503, 455 and 444 mm, respectively. The mean preferred character size determined by young, middle-aged and older groups was 42.0, 50.0 and 55.2 min arc, respectively. The proofreading test results indicated that the older group proofread significantly more slowly (1.25 word/sec) than the young (1.76 word/sec) and middle-aged groups (1.74 word/sec). Further, the participants proofread more correctly with their preferred character size (73.3%) than with their minimum acceptable character size (65.4%). This study provides valuable information for the design of Chinese text presentations for various age groups. STATEMENT OF RELEVANCE: This study confirmed the preferred viewing distance and character size for E-paper display were influenced by age. The preferred Chinese character size for young, middle-aged and older people was 42, 50 and 55 min arc, respectively. Therefore, the age factor should be considered for E-paper displays design and video display terminal (VDT) guidelines. 相似文献

16.

面向油田领域的中文真词错误自动校对方法研究

王辉 Marius.Petrescu 潘俊辉王浩畅张强张岩《计算技术与自动化》2021,40(1):140-143

中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明,提出的方法能有效校对油田领域的中文真词错误。相似文献

17.

Electronic paper display preferred viewing distance and character size for different age groups

《Ergonomics》2012,55(9):806-814

This study explores the preferred viewing distance and character size for an electronic paper display for three age groups. Proofreading speed and accuracy ratio were measured during Chinese proofreading tests using the preferred character size and minimum acceptable character size. Data analysis showed that the mean preferred viewing distance for young, middle-aged and older groups was 503, 455 and 444 mm, respectively. The mean preferred character size determined by young, middle-aged and older groups was 42.0, 50.0 and 55.2 min arc, respectively. The proofreading test results indicated that the older group proofread significantly more slowly (1.25word/sec) than the young (1.76 word/sec) and middle-aged groups (1.74 word/sec). Further, the participants proofread more correctly with their preferred character size (73.3%) than with their minimum acceptable character size (65.4%). This study provides valuable information for the design of Chinese text presentations for various agegroups.

Statement of Relevance: This study confirmed the preferred viewing distance and character size for E-paper display were influenced by age. The preferred Chinese character size for young, middle-aged and older people was 42, 50 and 55 min arc, respectively. Therefore, the age factor should be considered for E-paper displays design and video display terminal (VDT) guidelines. 相似文献

18.

信息过滤中的中文自动分词技术研究 总被引：2，自引：0，他引：2

孙铁利李晓微张妍《计算机工程与科学》2009,31(3)

文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。相似文献

19.

一个基于字特征的文本分类模型

王梦云王素格《计算机工程与应用》2004,40(13):64-65,191

提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。相似文献