首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 250 毫秒
提高汉语自动分词精度的多步处理策略   总被引:21,自引:6,他引:15  
汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略,整个处理步骤包括7个部分,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达98%以上。  相似文献   

一种改进的上下文相关的歧义字段切分算法   总被引:2,自引:0,他引:2  
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。JAAS在网上阅卷系统中的应用研究。在分析基于规则和基于上下文的歧义字段切分策略基础上,提出了一种改进的上下文相关歧义字段切分算法,并根据汉语中特殊的语法现象,给出了切分算法的辅助策略来对待切分字符串进行预处理,不仅提高了分词的精度,还加快了分词的速度。  相似文献   

在分析目前分词方法的基础上提出了一种通过建立多元信息库、采用改进型的粗分算法以拔出所有可能存在歧义的句子、借助于人工干预建立错误切分歧异词库等,实现汉语歧异切分的方法,通过修改、插入多元信息库中的信息量,进一步设计了一个具有自适应能力的歧义切分方法,并通过实验证明该方法能够有效改进汉语分词中错误歧义切分的结果.  相似文献   

一种面向网络答疑的汉语切分歧义消除算法   总被引:3,自引:0,他引:3  
针对网络答疑的特点,该文提出了一种汉语歧义消除算法,采用回溯机制及歧义消除评优算法相结合的方法消除汉语切分歧义。首先利用回溯机制发现句子的切分歧义字段,产生含有多种可能切分结果的候选集;然后针对网络答疑特点提出了评优算法,利用该算法计算候选结果的评价值,对其进行排序,选取分词最佳结果,从而消除歧义,提高分词的准确率。该算法已经在基于Web的自然语言答疑系统WebAnswerSystem中实现并得到了实际应用。实验结果表明,算法具有较高的准确率和召回率,对自然语言网络答疑中进行切分歧义消除是行之有效的。  相似文献   

现代汉语通用分词系统中歧义切分的实用技术   总被引:8,自引:0,他引:8  
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则 例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·  相似文献   

面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法.针时首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题.实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标.  相似文献   

无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。其中歧义字段切分是中文自动分词研究中的一个“拦路虎”,是影响分词系统切分精度的主要因素。能够正确切分某一类歧义字段的知识称为分词知识,所有分词知识的集合称为知识库或规则库。本文通过建立交集型歧义字段切分知识库,并采用知识学习的方法来丰富系统的知识,充分利用了知识库中积累的词的二元语法关系、语素构词、句法关系以及上下文等信息,提高了交集型歧义字段的切分精度。  相似文献   

中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。  相似文献   

歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率.对此,本文简要介绍了汉语分词的概况,并具体分析了当前中文分词技术存在的障碍和介绍了中文分词中的歧义词切分问题,最后在此基础上提出了一种基于多元关系模型的能够有效解决歧义切分的中文分词系统模型并简要分析了这种模型未来的优化方向.  相似文献   

Ambiguity, defined in this study as the existence of two or more interpretations of the same cue, is an essential component of ‘fuzziness’ in new product development (NPD) projects. In this paper, we present a model by which ambiguity in NPD projects can be classified and managed. The model has been developed grounded in case data from four NPD projects in companies making medical devices. Ambiguity is classified according to two axes: subjects of ambiguity and sources of ambiguity. Subjects of ambiguity include product, market, process and organizational resources. Sources of ambiguity include multiplicity, novelty, validity and reliability. Ambiguity can be managed by two means: reducing or sustaining it. If clarity is a main priority in the NPD project, reducing ambiguity is necessary and can be effectively achieved by applying the hypothetical‐deductive method. If novelty and flexibility are high project priorities, sustaining certain ambiguities can be useful. Managing ambiguity requires a constant harmonizing of the need for clarity and the need for novelty and flexibility.  相似文献   

基于网络的入侵检测系统通过分析网络流量识别攻击,但隐藏在歧义网络数据中的Insertion和Evasion攻击利用不同系统实现网络协议栈的差异以及各系统所处不同的网络位置,逃避NIDS检测,以致漏报。文章回顾了歧义问题的相关研究,分析了其产生原因,并以重叠IP分片重组和重叠TCP段重构为例进行讨论。针对以逃避NIDS检测为目的的歧义流量问题,提出了NIDS歧义流量矫正系统,通过分析相关网络协议在实现中产生的歧义,对网络流量进行相应的矫正,使NIDS有效检测出隐藏在歧义网络流量中的特定的Insertion和Evasion攻击。  相似文献   

基于语料库的高频最大交集型歧义字段考察   总被引:2,自引:0,他引:2  
交集型歧义是中文分词的一大难题,构建大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文首先通过实验指出,与FBMM相比,全切分才能检测出数量完整、严格定义的MOAS,检测出的MOAS在数量上也与词典规模基本成正比。然后,在4亿字人民日报语料中采集出高频MOAS14906条,并随机抽取了1354270条带有上下文信息的实例进行人工判定。数据分析表明,约70%的真歧义MOAS存在着强势切分现象,并给出了相应的消歧策略。  相似文献   

沈乐君  游志胜  李晓峰 《自动化学报》2012,38(10):1663-1670
多目标视觉跟踪的主要困难来自于多个目标交互(部分或完全遮挡)导致的歧义性. 马尔可夫随机场(Markov random field, MRF)可以消除这种歧义性且无需显式的数据关联. 但是, 通用概率推理算法的计算代价很高. 针对上述问题, 本文做出了3点贡献: 1)设计了新的具有"分散-集中-分散"结构的递归贝叶斯跟踪框架—自助重要性采样粒子滤波器, 它 使用融入当前时刻观测的重要性密度函数解决维数灾难问题, 将计算复杂度从指数增长变为线性增长; 2)提出了新的蒙特卡洛策略— 自助重要性采样, 利用MRF的因子分解性质进行重要性采样, 并使用自助法产生低成本高质量的样本、降低似然度计算次数和维持多模式分布; 3)采用了新的边缘化技术—使用辅助变量采样进行边缘化, 使用自助直方图对边缘后验分布进行密度估计. 实验结果表明, 本文提出的算法能够对大量目标进行实时跟踪, 能够处理目标间复杂的交互, 能够在目标消失后维持多模式分布.  相似文献   

歧义处理是影响分词系统切分精度的重要因素,是自动分词系统设计中的一个核心问题。本文介绍了一种新的分词算法,利用汉语句内相邻字之间的互信息及t-信息差这两个统计量,解决汉语自动分词中的歧义字段的切分问题。试验结果表明,该方法可以有效地提高歧义处理的正确率。  相似文献   

Ambiguity is a central problem for operators working in dynamic, high‐risk environments. Operators must decide on a course of action before knowing with certainty how the system will respond. Though ambiguity is expected, how it presents is unexpected. We reduce ambiguity when we can give meaning to information and events through use of context, responsiveness of the system, and when we can view events from a higher level. Preparation and training for routine operations helps identify potential ambiguities before events begin. The experienced operator engages the situation relying on real‐time experience to learn what works through action, thus further reducing ambiguity.  相似文献   

Ambiguity may lead us to insert abstractions into our experience that create a greater number of unanticipated, unintended consequences. When people move closer to the flux of ambiguity, they work to make sense of it. High reliability organizations react to ambiguity by increasing it momentarily. To increase ambiguity is to grasp more of the situation, to refrain from simplifications, and to strive for a workable level of ambiguity. This argument is developed through a focus on connotations of ambiguity, assumptions for organizing around ambiguity, and implications for practice. To grasp ambiguity is to adopt an attitude of wisdom.  相似文献   

论歧义结构的潜在性   总被引:29,自引:4,他引:25  
本文把作者在科技术语结构研究中提出的“潜在歧义论”(PA论)进一步推广到日常语言, 说明在汉语日常语言中也广泛地存在着潜在歧义结构, 而在具体的语言文本中, 许多潜在歧义都消解了。自然语言有歧义性的一面, 又有非歧义性的一面, 潜在歧义论正好揭示了自然语言的歧义性和非歧义性对立统一的规律。潜在歧义论指出了潜在歧义结构本身就包含了消解歧义的因素, 因而这种理论可为自然语言处理提供消解歧义的方法和手段。  相似文献   

Collaborative virtual environments (CVE) face the challenge of succeeding in incorporating critical dimensions of cooperation and communication in everyday working situations. One of these dimensions, situation ambiguity, is scarcely considered in studies on CVE although it can prove a key factor in future use of CVE in real work situations. Many computer-supported cooperative environments and telecommunication systems, like those currently used in telemedicine, would benefit from the incorporation of some degree of situation ambiguity allowing users to deploy their diagnostic and interpretive abilities. In the perspective adopted in this study, ambiguity is the contingent outcome of the ongoing interaction taking place between the environment and the interests of social actors. The research focuses on the cooperation within couples of participants facing situation ambiguity in a virtual environment: a simulated city named Babylon. Participants moved in the city through an avatar and could communicate in one of the following conditions: face-to-face, phone or chat. Their goal was that of meeting somewhere in the city, in a place that they did not know previously. Babylon contained elements designed to allow both production and detection of ambiguity. Ambiguity emerged when participants realized the presence of inconsistencies in the way they perceived the situations they had to face. The moments in which ambiguity was perceived—called “critical events” (CE)—were measured and described through qualitative (ethnographically oriented) methods. The different strategies that participants used to “solve” ambiguity were characterized as: looking for environmental cues, narrowing the focus of attention and investing on cooperation. Both CEs and strategies were analyzed with respect to the three communication conditions: face-to-face, phone and chat. All the communication conditions allowed the emergence of ambiguity and the negotiation of strategies to solve ambiguity between partners: according to literature, chat is very costly in terms of time spent on writing but this disadvantage did not block completely the emergence of ambiguity and the development of adequate strategies of solution. All navigations but three (on a total of 18 couples) succeeded: the partners did meet in a short time (less than 15 min) relying on their pragmatic resources in a new virtual place. Further research is required to clarify the possible factors influencing the choice of one strategy over the others, the order in which strategies follow each other and the role of leadership in ambiguity detection and solution.  相似文献   

现有的Folksonomy标签推荐系统中,标签模糊会导致系统推荐不准确,并且影响用户建模的准确性,而标签冗余妨碍了对系统的评估。利用K-Means聚类结果抽取模糊和冗余标签时,聚类效果较差导致抽取不准确。提出使用核K-Means聚类处理标签模糊和冗余,通过非线性映射能够较好地分辨、提取并放大样本中有用的特征,提高抽取模糊标签和冗余标签的准确度。实验结果表明:核K-Means聚类对标签和资源的聚类效果更好,抽取的模糊标签和冗余标签也更准确。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号