首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 189 毫秒
1.
余敦辉  张笑笑  付聪  张万山 《计算机应用研究》2020,37(5):1395-1399,1405
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。  相似文献   

2.
提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。  相似文献   

3.
为净化网络环境,需要对网络信息进行审查。针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体的时候有较高的查全率和查准率。  相似文献   

4.
刘学平  李玙乾  刘励  王哲  刘宇 《计算机工程》2019,45(11):243-248
为准确识别工业图像中的目标零件,提出一种改进的YOLOV3目标识别算法。结合K-means聚类与粒子群优化算法进行锚框计算,以降低初始点对聚类结果的影响,加快算法收敛速度。同时在YOLOV3网络shortcut层嵌入SENet结构,得到SE-YOLOV3网络。对零件图像进行数据增强并加入零件标注,制作包含10 816张图片的样本集,用于算法训练和测试。实验结果表明,该算法能够获得平均交并比为83.01%的锚框,当样本图像存在较多残缺零件干扰时,YOLOV3存在将背景识别为零件的情况,其查准率与查全率分别为72.11%和97.51%,而SE-YOLOV3能有效减少假正例数量,其查准率与查全率分别为90.39%和93.25%。  相似文献   

5.
基于中文机构名简称的检索方法研究   总被引:1,自引:0,他引:1  
对于是否是中文机构名或机构名简称的自动判别,已经有广泛和深入的研究;但是对机构名简称和全称的匹配,目前鲜有研究成果。本文针对基于中文机构名简称的检索方法,研究了机构名的结构特征,总结出两种规则,定制了一个基于关键词类的分词工具,提出简称和全称匹配的一种算法,并且结合多级索引技术,实现了基于中文机构名简称的检索系统。实验结果表明,本文所提方法的准确性较好,首选准确率达到近95%,在全称机构名总数达到51万的情况下,检索平均耗时约0.21秒,达到实用要求。  相似文献   

6.
中文问答系统中机构名的处理   总被引:1,自引:0,他引:1       下载免费PDF全文
探讨问句中机构名的处理,并服务于中文问答系统。采用概念层次网络理论的语义概念分析方法分析问句,去掉与机构名无关的概念词语,得到候选机构名。对机构名全称库按字索引,在库中搜索出与候选机构名匹配的机构名全称并按拟合权值排序。实验结果表明该方法识别机构名的正确率达到90.6%,支持对机构名简称的处理。  相似文献   

7.
镜头边界检测是基于内容的视频检索中的关键技术,提出一种利用TextTiling方法来识别视频镜头边界的算法。通过滑动窗口对视频进行初步切割,利用主成分分析将视频帧投影到特征子空间,并在投影空间上计算相邻帧间距离,再根据相邻窗口之间的深度值确定视频镜头边界。针对TREC-2001视频测试数据集的实验结果显示,该算法检测镜头边界的平均查全率和平均查准率分别为89%和96.5%。  相似文献   

8.
英汉机译中一种基于无监督学习的词类消歧策略   总被引:1,自引:0,他引:1  
在本文,我们介绍英汉机译中使用无监督学习实现词类消歧的一种新方法,该方法以独立于语料库的手工制作的约束规则为出发点,然后合并从训练语料库中以无监督方式所学习的约束规则,从而激发手工制作的约束规则,同时不以牺牲查全率为代价而提高查准率。实验表明,在英语分析过程中通过组合这些手工制作以及所学习的信息源,可获得大约98%的查全率,89%的查准率,以及平均1.10个歧义分析/单  相似文献   

9.
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法.利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列.根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中.针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%.  相似文献   

10.
针对目前企业营销的不断深入,企业简称被各大新闻广泛使用,而作为新词又难以被有效识别的问题,提出一种基于构成模式和条件随机场(CRF)的企业简称预测方法。首先,从语言学的角度对企业全称和简称的构成规律进行了总结,并采用词库以及规则相结合的方式对Bi-gram算法进行改进,提出CBi-gram算法,实现了对企业全称的结构化切分,并提高了企业全称中核心词识别的准确性。然后,依据上述切分结果对企业类型进行再次细分,并通过人工总结和规则自学习的方法形成不同企业类型下的简称规则集。最后再基于规则生成企业的候选简称集,降低了不适用的规则对于不同类型的企业在生成简称过程中产生的噪声。另外,为了弥补单纯基于规则在解决全称缩写和简写缩写混合的局限性,引入CRF,从统计的角度对简称进行预测,并选取词、音调以及词在全称组成成分中的位置作为模型特征,进行模型训练,以实现两种方法的相互补充。实验结果显示,该方法具有较高的准确率,输出的企业简称集基本覆盖了企业的常用简称范围。  相似文献   

11.
基于语料库的中文姓名识别方法研究   总被引:32,自引:7,他引:25  
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。  相似文献   

12.
当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。  相似文献   

13.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

14.
基于统计的中文姓名识别方法研究   总被引:13,自引:2,他引:13  
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。  相似文献   

15.
Long organization names are often abbreviated in spoken Chinese, and abbreviated utterances cannot be recognized correctly if the abbreviations are not included in the recognition vocabulary. Therefore, it is very important to automatically generate and add abbreviations for organization names to the vocabulary. Generation of Chinese abbreviations is much more complex than English abbreviations which are mostly acronyms and truncations. In this paper, we propose a new hybrid method for automatically generating Chinese abbreviations and we perform vocabulary expansion using output of the abbreviation model for voice search. In our abbreviation modeling, we treat the abbreviation generation problem as a tagging problem and use conditional random fields (CRF) as the tagging tool, the output of which is then re-ranked by a length model and web information. In the vocabulary expansion, considering the multiple abbreviation phenomenon and limited coverage of the top-1 abbreviation candidate, we add top-10 candidates into the vocabulary. In our experiments, for the abbreviation modeling, we achieved a top-10 coverage of 88.3% with the proposed method. For the voice search using abbreviated utterances, we improved the full-name search accuracy from 16.9% to 79.2% by incorporating the top-10 abbreviation candidates to the vocabulary.  相似文献   

16.
基于统计的中文地名识别   总被引:20,自引:5,他引:20  
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整,系统闭式召回率和精确率分别为90.24%和93.14% ,开式召回率和精确率分别达86.86%和91.48%。  相似文献   

17.
针对复杂机构名难以识别的问题,提出一种CCRF与规则相结合的识别方法。以CCRF为基础,利用特征融合设计特征模板,融合相应有效规则库,为复杂机构名识别提供决策。对1998年1月的《人民日报》语料库进行开放测试,实验结果显示,机构名识别的准确率为89.92%,召回率为91.41%,F1值为90.66%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号