期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。相似文献

6.

自动文本摘要方法

下载免费PDF全文

江开忠李子成顾君忠《计算机工程》2008,34(1):221-223

自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。相似文献

7.

柴油机故障自动纠错方法研究与仿真

徐勇《计算机仿真》2012,29(10)

研究柴油机故障的自动纠错问题,提高纠错可靠性.针对柴油机复杂的内部结构,利用提取的待检测零件数据构建故障检测目标函数,柴油机发生故障时的复杂数据构造的目标函数具有多极值特性,传统的通过直接对目标函数训练找到最优解的神经网络纠错方法极易陷入局部极小而不能准确检测柴油机故障,导致柴油机故障自动纠错的可靠性不高.为解决上述问题,提出利用支持向量机的自动纠错方法,可提取的零件数据训练目标函数得到粗糙集特征空间,构建粗糙集最优分割超平面,在向量学习机内训练超平面找到全局最优解,避免了传统方法故障检测时陷入局部最优的情况.实验表明,改进方法能够准确完成柴油机的故障检测,保证柴油机故障自动纠错的可靠性. 相似文献

8.

中文文本纠错软件测试用例的选择生成方法

冯程皓谢振平丁博文《计算机应用》2024,(1):101-112

针对目前尚无有效的中文文本纠错软件测试用例生成方法的情况,为了服务于软件纠错性能的测量并为软件提供优化方向,设计了一种面向多用户的、工程化的中文文本纠错软件测试用例选择生成方法（SGMT-CCS）。定义了两种不同的可供用户选择的用例评判标准：错误数量密度和错误种类密度。设计了三个模块：测试用例自动化生成模块、测试用例选择模块以及测试用例优先级排序模块。在SGMT-CCS中,用户可以：1）在测试用例自动化生成的过程中自定义错误最小间隔和用例集大小;2）在测试用例选择的过程中自定义错误最小间隔和期望值;3）在测试用例选择和优先级排序的过程中选择不同的用例评判标准进行自定义操作,以适应不同数据集的要求。实验结果表明,SGMT-CCS能够在较短的时间内获得有效的测试用例,选择模块实验在模拟的需求情况下都能满足用户自定义目标,优先级排序模块实验验证了相较于排序前,在不同评判标准下的不同时间段内都能有效提高测试效率。相似文献

9.

基于后加词典利用句法语义知识的汉语词切分检纠错方法

杨抒伊波《计算机科学》1989,16(5):41-44

本文通过分析现有词典匹配汉语词切分法及相应切分错误检出与纠正方法的现状及不足,提出了一种基于后加词典,利用句法语义知识的汉语词切分检纠错方法,这种方法旨在将词切分作为汉语理解的有机组成部分,使得检纠切分错误更加有效,同时,利用后加词典,提高了词切分出错后重新切分的效率。相似文献

10.

基于深度学习的文本自动纠错系统设计与实现

下载免费PDF全文

杨辉张静静熊涛蔡红维刘皓挺才金山杜晓平高美萍《计算机测量与控制》2023,31(2):210-216

为解决办公人员在进行文档写作时存在各种文本格式和内容错误的问题,设计基于深度学习的文本自动纠错系统,用于辅助办公人员的写作和校对工作;分析办公人员的文本纠错需求,并进行文本格式与内容纠错方法研究;设计系统由写作模板生成、文本格式纠错和文本内容纠错三个功能组成;首先,设计文本要素识别与检查算法并基于VBA技术实现文本格式校对;然后基于Seq2Seq深度学习模型训练字词、语法和标点符号查错模型完成公文内容纠错,并根据办公人员工作需求建立纠错辅助字库提升系统纠错准确率;最终,通过系统测试实验结果表明,设计系统能够极大地提升办公人员写作效率并减轻文本校对工作负担。相似文献

11.

中文文本自动校对技术的研究 总被引：5，自引：0，他引：5

骆卫华罗振声宫小瑾《计算机研究与发展》2004,41(1):244-249

传统的自动校对技术多是基于字、词级的统计方法,有很多局限,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同,提出了词法、句法、语义多层次结合校对策略,从而能够检查以往无法查出的错误,描述了自动校对系统的整体框架,并具体给出可操作的实现方法。这些方法针对非受限领域的文本,为中文自动校对技术的发展提供了新的思路。相似文献

12.

基于BERT的古文断句研究与应用

俞敬松魏一张永伟《中文信息学报》2019,33(11):57-63

古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F₁值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F₁值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F₁值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。相似文献

13.

一类规范文本篇章结构的自动标引 总被引：2，自引：1，他引：2

单永明《中文信息学报》1998,12(4):48-53

本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了标引算法。相似文献

14.

一种新的英文文本检索算法

高仕龙《计算机工程与应用》2010,46(5):21-23

提出一种新的英文文本检索算法,该算法将英文文本映射为26阶频率矩阵,然后通过奇异值分解,对文本表示空间进行降维处理,并融合第一奇异值分量和第二奇异值分量的特征,得到既反映字母统计频率,又反映文本字符间顺序结构的复特征向量,最后利用向量间余弦相似度作为文本检索的相似度度量。数据对比表明,算法取得了较好的实验效果,且在检索准确率和运算效率上优于经典的LSA算法。相似文献

15.

中文信息处理中自动分词技术的研究与展望 总被引：22，自引：0，他引：22

刘迁贾惠波《计算机工程与应用》2006,42(3):175-177,182

汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。相似文献

16.

中文文本敏感信息自动校对方法研究

龚永罡汪昕宇李玉莹王蕴琪《广东电脑与电讯》2018,1(12):66-69

针对海量文本内容中的敏感信息自动校对问题,提出了一种基于规则和SVM(支持向量机)相结合的敏感信息自动校对方法。以《新华社新闻信息报道中的禁用词和慎用词》和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,针对不同的类别,构建分类处理规则库,设计相应的规则自动处理算法,实现敏感信息的自动校对,同时应用SVM模型对规则处理结果进行情感分析,大大减少了误报。测试结果显示,该方法的召回率为89.98%,准确率为98.31%,每秒处理10万字以上的文本内容,解决了实际工程应用中的关键难点问题。相似文献

17.

AL-SMC: Optimizing Statistical Model Checking by Automatic Abstraction and Learning

下载免费PDF全文

Kaiqiang Jiang Ping Huang Hui Zan Dehui Du 《International Journal of Software and Informatics》2016,10(4)

Statistical Model Checking (SMC), as a technique to mitigate the issue of state space explosion in numerical probabilistic model checking, can efficiently obtain an approximate result with an error bound by statistically analysing the simulation traces. SMC however may become very time consuming due to the generation of an extremely large number of traces in some cases. Improving the performance of SMC effectively is still a challenge. To solve the problem, we propose an optimized SMC approach called AL-SMC which effectively reduces the required sample traces, thus to improve the performance of SMC by automatic abstraction and learning. First, we present property-based trace abstraction for simplifying the cumbersome traces drawn from the original model. Second, we learn the analysis model called Prefix Frequency Tree (PFT) from the abstracted traces, and optimize the PFT using the two-phase reduction algorithm. By means of the optimized PFT, the original probability space is partitioned into several sub-spaces on which we evaluate the probabilities parallelly in the final phase. Besides, we analyse the core algorithms in terms of time and space complexity, and implement AL-SMC in our Modana Platform to support the automatic process. Finally we discuss the experiment results for the case study :energy-aware building which shows that the number of sample traces is effectively reduced (by nearly 20\% to 50\%) while ensuring the accuracy of the result with an acceptable error. 相似文献

18.

汉语自动分词方法 总被引：26，自引：0，他引：26

下载免费PDF全文

殷建平《计算机工程与科学》1998,20(3):60-66

本文给出了为汉语自动分词而提出了机械匹配法，特征词库法，约束矩法，语法２分析法和理解切法。相似文献

19.

计算机挖掘软件的源代码注释自动生成研究

赵钢《自动化技术与应用》2022,41(1):57-60

本文基于计算机挖掘软件源代码注释数量与质量偏低的问题,设计了代码注释自动生成方法.同时,对本文设计方法与Clocom法进行了实验对比分析,结果表明,相比Clocom法,本文方法所检测出的克隆代码类型更多,产量明显较高;自动生成的代码注释质量都明显较高,代码注释质量较好,总之,本文设计方法下计算机挖掘软件自动生成的代码注... 相似文献

20.

彝文自动分词技术研究

陈顺强《中文信息学报》2011,25(3):123-129

该文介绍了彝文自动分词的技术.首先阐述了研究彝文自动分词的必要性和重要意义,然后介绍了彝文分词规范的原则及词表,讨论了彝文分词的算法,最后根据彝文的特性,设计了基于Java语言的彝文自动分词软件并得出了良好的分词结果. 相似文献