首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
从维吾尔文的特征和书写规则出发对维吾尔文联机手写单词识别技术进行了探索性研究,并提出一种新的思路:不是直接把单词切分成字母,而是先把单词分割成连体段,然后再分割成字母。这样,可以提高字母切分和字母识别的准确率。按照该思路,提出一种连体段分割算法:根据通过研究维吾尔文的特征和书写规则找出来的一些规则把一个个的笔画,组合成连体段。实验证明了该连体段分割思路和算法的可行性。  相似文献   

2.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

3.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

4.
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。  相似文献   

5.
针对移动无线网络比特流数据特征,提出了一种基于关联规则识别特定环境下未知协议的方法。该方法改进了传统协议识别技术,如通过端口号、协议已知固定特征等,避免了传统技术存在的局限性。通过截获无线环境中传输的比特流数据,利用机器学习机制,提取特征信息,挖掘关联规则来识别和标志未知协议,标志协议指纹信息,实现特定环境下未知协议的发现与分析识别。最后在两种协议上对提出的方法进行了评估,协议的平均识别率高于99%,而平均的错误识别率低于0.6%。  相似文献   

6.
现代汉语语气词用法的自动识别采用语气词用法词典、语气词用法规则库、语气词用法语料库"三位一体"的方式。由于语料规模较大,真实文本中语气词的用法又各具特点,因此人工书写的规则库主观性较强且难以全面的覆盖各种用法。针对现代汉语10个常用的语气词,研究了基于错误驱动的规则自动改进算法。实验结果表明,这种方法使大部分常用语气词的用法识别准确率有了一定程度的提高。  相似文献   

7.
网络书写纹识别技术通过分析用户在网络留言中的书写风格识别其身份.针对网络书写纹特征具有高维、冗余的特点,提出一种基于集成特征选择的识别方法.采用基于Filter与Wrapper的混合式特征选择算法对特征空间进行划分,训练出与待识别用户数相同的基分类器,使每一个基分类器成为代表一个用户的专家.通过对20个校园BBS用户的实验研究,结果表明该方法有效提高了网络书写纹的识别性能与识别模型的可理解性.  相似文献   

8.
李波  张蕾 《计算机工程》2012,38(12):179-181
针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和 F值均有明显提高。  相似文献   

9.
近来,许多基于书写的方式使人们自然书写的数字笔迹输入成为可能。通常,书写时的污点或修改不仅使文本受污,而且看上去也不舒服,还影响到手写体的识别。本文首先论述笔迹修正的问题。我们提出了去除污点和修改笔迹的修正系统,使文本变得清晰、可识别,以改善手写体的识别率。基于规则的算法可处理大部分如单一笔划的同一笔划重复涂写、笔划间的中间部分重复涂写、改错、修改、插入以及书写顺序错误等情况。实验结果显示,该系统对笔迹标识的修正是有效的,并有希望改善其识别率。  相似文献   

10.
基于多通道融合的连续手写识别纠错方法   总被引:1,自引:0,他引:1  
敖翔  王绪刚  戴国忠  王宏安 《软件学报》2007,18(9):2162-2173
在基于识别的界面中,用户的满意度不但由识别准确度决定,而且还受识别错误的纠正过程的影响.提出一种基于多通道融合的连续手写笔迹识别错误的纠正方法.该方法允许用户通过口述书写内容纠正手写识别中的字符提取和识别的错误.该纠错方法的核心是一种多通道融合算法.该算法通过利用语音输入约束最优手写识别结果的搜索,可纠正手写字符的切分错和识别错.实验评估结果表明,该融合算法能够有效纠正错误,计算效率高.与另外两种手写识别错误纠正方法相比,该方法具有更高的纠错效率.  相似文献   

11.
政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。  相似文献   

12.
Presently, we are confronted with an enormous amount of legal documents, which are increasingly recorded in electronic format. There is a need to make the information in legal texts easily and automatically accessible. In this paper we argue that in the legal field, where we are confronted with specific text types, knowledge about discourse structures and the linguistic cues that signal them is very valuable to incorporate in information extraction systems and in text processing systems in general. We also demonstrate the need for adequate formalisms for representing discourse patterns. However, intertextual analysis of texts that describes and explains the properties of text types and genres is underdeveloped in the legal field.  相似文献   

13.

Natural language processing techniques contribute more and more in analyzing legal documents recently, which supports the implementation of laws and rules using computers. Previous approaches in representing a legal sentence often based on logical patterns that illustrate the relations between concepts in the sentence, often consist of multiple words. Those representations cause the lack of semantic information at the word level. In our work, we aim to tackle such shortcomings by representing legal texts in the form of abstract meaning representation (AMR), a graph-based semantic representation that gains lots of polarity in NLP community recently. We present our study in AMR Parsing (producing AMR from natural language) and AMR-to-text Generation (producing natural language from AMR) specifically for legal domain. We also introduce JCivilCode, a human-annotated legal AMR dataset which was created and verified by a group of linguistic and legal experts. We conduct an empirical evaluation of various approaches in parsing and generating AMR on our own dataset and show the current challenges. Based on our observation, we propose our domain adaptation method applying in the training phase and decoding phase of a neural AMR-to-text generation model. Our method improves the quality of text generated from AMR graph compared to the baseline model. (This work is extended from our two previous papers: “An Empirical Evaluation of AMR Parsing for Legal Documents”, published in the Twelfth International Workshop on Juris-informatics (JURISIN) 2018; and “Legal Text Generation from Abstract Meaning Representation”, published in the 32nd International Conference on Legal Knowledge and Information Systems (JURIX) 2019.).

  相似文献   

14.
The idea of automatic summarization dates back to 1958, when Luhn invented the “auto abstract” (Luhn, 1958). Since then, many diverse automatic summarization approaches have been proposed, but no single technique has solved the increasingly urgent need for automatic summarization. Rather than proposing one more such technique, we suggest that the best solution is likely a system able to combine multiple summarization techniques, as required by the type of documents being summarized. Thus, this paper presents HAUSS: a framework to quickly build specialized summarizers, integrating several base techniques into a single approach. To recognize relevant text fragments, rules are created that combine frequency, centrality, citation and linguistic information in a context-dependent way. An incremental knowledge acquisition framework strongly supports the creation of these rules, using a training corpus to guide rule acquisition, and produce a powerful knowledge base specific to the domain. Using HAUSS, we created a knowledge base for catchphrase extraction in legal text. The system outperforms existing state-of-the-art general-purpose summarizers and machine learning approaches. Legal experts rated the extracted summaries similar to the original catchphrases given by the court. Our investigation of knowledge acquisition methods for summarization therefore demonstrates that it is possible to quickly create effective special-purpose summarizers, which combine multiple techniques, into a single context-aware approach.  相似文献   

15.
随着网络技术与数字图书馆的迅猛发展,在线文档迅速增加,自动文本分类已成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。本文介绍了kNN分类算法的思想以及两种不同的决策规则,并通过实现的文本分类系统对基于离散值规则的kNN方法和基于相似度加权的kNN方法进行实验比较。实验结果表明。基于相似度加权的kNN方法的分类性能要优于基于离散值规则的kNN方法。  相似文献   

16.
面向专利文献的中文分词技术的研究   总被引:1,自引:0,他引:1  
针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。  相似文献   

17.
18.
针对在法院立案-审判-执行全流程阶段,多起案件中存在的当事人或者案件事实相同的情况,即“一人多案”,造成了司法资源浪费与不合理使用,设计实现了基于深度学习的“一人多案”风险预警系统.该系统基于深度学习技术和海量裁判文书数据,通过对案件文本的向量表示建模,提出了面向法律文书的案由识别和相似度量方法,结合法律业务规则进行“一人多案”关联识别,并给出风险预警报告.该系统能够为司法资源统筹提供技术支持,为法院公正、高效地审理案件提供保障.  相似文献   

19.
Text embedded in multimedia documents represents an important semantic information that helps to automatically access the content. This paper proposes two neural-based optical character recognition (OCR) systems that handle the text recognition problem in different ways. The first approach segments a text image into individual characters before recognizing them, while the second one avoids the segmentation step by integrating a multi-scale scanning scheme that allows to jointly localize and recognize characters at each position and scale. Some linguistic knowledge is also incorporated into the proposed schemes to remove errors due to recognition confusions. Both OCR systems are applied to caption texts embedded in videos and in natural scene images and provide outstanding results showing that the proposed approaches outperform the state-of-the-art methods.  相似文献   

20.
由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异-相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项-文档矩阵,再转化为差异-相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异-相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号