首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题.建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好.提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别.首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词.通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92%,召回率提高了7.61%,因此最终的分词效果在准确率和召回率分别可达到82.15%、80.45%.  相似文献   

2.
面向互联网新闻的在线事件检测   总被引:1,自引:0,他引:1  
付艳  周明全  王学松  栾华 《软件学报》2010,21(Z1):363-372
为了提高互联网上新闻事件在线检测的效率,利用加窗策略、命名实体识别及后缀树聚类等技术提出了一种新的检测算法.该算法基于实体识别技术解析出新闻数据特有的信息元素(例如日期、地点、人物等),并在限定的时间窗口内,通过新闻特征的语义匹配实现了新事件的快速识别,从而大幅降低了基于文本相似度计算的检测算法带来的巨大时间消耗.实验结果证明,该算法能够实现在保障检测准确率的同时显著提高检测的效率.  相似文献   

3.
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率.提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析.实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%.  相似文献   

4.
银行故障单中故障的截图常存在与自然场景中,能够在该图中精确地进行文本检测,将可以提高文本识别的精确度,并提高案例库的搜索和主动运维能力.为了提高自然场景文本检测的效率,提出了一种基于深度学习的自然场景文本检测算法.算法首先提取出图像中的最大稳定极值区域作为候选字母,利用单链接层次聚类得到候选文本,对候选文本进行中值滤波,最后通过一个深度置信网络DBN来删除非文本候选.实验结果表明,基于DBN的方法能有效提高自然场景文本检测的准确率,比传统方法具有更好的结果.  相似文献   

5.
蔡勇智 《福建电脑》2006,(3):116-117
未登录词识别是中文分词系统的两大难题之一。它时提高中文分词最终的正确率和召回率起着重要的作用。本文提出一种改进的未登录词识别算法,通过统计分析大规模语料库及未登录词词表,对前人的成词规则进行改进.并结合限制性成分时所识别的未登录词进行纠正,得出较准确的未登录词识别结果。该算法是规则和统计相结合并且侧重于规则的识别算法,是中文分词中比较有效的未登录词识别算法之一。  相似文献   

6.
为提高正常人与聋哑人之间的交流效率,基于TensorFlow深度学习框架,采用Python、OpenCV视觉库、VGG-Nets网络模型算法,将手语的手势动作转换为文本、语音等形式,构造了正常人与聋哑人之间的无障碍交流平台。在功能上主要完成对静态手语的识别,并以此为基础实现手势动作信息到文本、语音等信息的转化。本系统可以使用摄像头主动采集手语信息,也可利用前端上传图片至后台;结合手语识别的固定流程识别手语,并在前端界面反馈出识别结果。本系统旨在通过机器学习算法实现手语动作识别,并将手语翻译成文字、语音等形式,可有效提升交流效率。  相似文献   

7.
事件检测是文本挖掘的一个重要研究方向,以微博文本的突发地震事件检测为例做了深入研究。首先分别运用三种经典的分类算法来实现突发地震事件检测,将检测结果进行比较,选择出一种最优的分类算法和最适合的特征数。在此基础上提出关键词过滤和时间关系识别的方法将错分的实例进行再分类来提高检测结果。实验表明该方法的检测结果与仅采用经典分类算法相比F_1值提高了5.3%。  相似文献   

8.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

9.
许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线。此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况。最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。  相似文献   

10.
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。  相似文献   

11.
传统的单机入侵检测系统已不能保障大规模网络的安全.为了提高大规模网络的信息安全防护能力、隐患发现能力、应急反应能力以及信息对抗能力,本文提出了一种多入侵检测系统协作检测与预警体系,有效地解决了大规模网络的上述问题,为建立大规模网络的信息安全保障体系提供了有力的支撑.  相似文献   

12.
视频图像中包含着许多重要的文字信息。图像和视频文本信息的提取包括文本检测、定位、跟踪、提取、增强和识别等几个部分。将文本的检测、定位与提取,作为文本区域提取的整体来讨论。以文本的检测算法为重点研究对象,提出了应用小波模极大值算法来解决视频图像中文本区域的检测。实验表明,小波模极大值算法所得到的文本区域与其它算法相比具有更好的评价指标。  相似文献   

13.
This paper proposes an approach using large-scale text features for fault-prone module detection inspired by spam filtering. The number of every text feature in the source code of a module is counted and used as data for training detection models. In this paper, we prepared a naive Bayes classifier and a logistic regression model as detection models. To show the effectiveness of our approaches, we conducted experiments with five open source projects and compared them with a well-known metrics set, thereby achieving higher detection results. The results imply that large-scale text features are useful in constructing practical detection models, and measuring sophisticated metrics is not always necessary for detecting fault-prone modules.  相似文献   

14.
随着Internet/Intranet的快速发展,数据库技术的进一步成熟,使得GIS空间数据管理与应用呈现多用户、分布式和网络化的特点。建立能业务化工作的图文办公信息系统(GOIS)是当前国土规划管理部门的迫切要求,也是GIS应用研究的一个热点。该文以开封市土地利用规划管理信息系统(KF-LPIS)的建设为例,探讨了在三级客户机/服务器体系下,异质数据库服务器(文本服务器、Mapinfo空间数据服务器、Microstation空间数据服务器、大型全关系ORACLE8.1.6等)的协同运作问题,以及大型全关系数据库在图文办公信息系统中的应用前景。  相似文献   

15.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

16.
俸亚特  文益民 《计算机应用》2021,41(12):3551-3557
针对越南场景文字检测训练数据缺乏及越南文字声调符号检测不全的问题,在改进的实例分割网络Mask R-CNN的基础上,提出一种针对越南场景文字的检测算法。为了准确地分割带声调符号的越南场景文字,该算法仅使用P2特征层来分割文字区域,并将文字区域的掩码矩阵大小从14×14调整为14×28以更好地适应文字区域。针对用常规非极大值抑制(NMS)算法不能剔除重复文字检测框的问题,设计了一个针对文字区域的文本区域过滤模块并添加在检测模块之后,以有效地剔除冗余检测框。使用模型联合训练的方法训练网络,训练过程包含两部分:第一部分为特征金字塔网络(FPN)和区域生成网络(RPN)的训练,训练使用的数据集为大规模公开的拉丁文字数据,目的是增强模型在不同场景下提取文字的泛化能力;第二部分为候选框坐标回归模块和区域分割模块的训练,此部分模型参数使用像素级标注的越南场景文字数据进行训练,使模型能对包括声调符号的越南文字区域进行分割。大量交叉验证实验和对比实验结果表明,与Mask R-CNN相比,所提算法在不同的交并比(IoU)阈值下都具有更好的准确率与召回率。  相似文献   

17.
训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得。为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料。首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型。通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果。  相似文献   

18.
基于支持向量机的中文文本自动分类研究   总被引:2,自引:0,他引:2  
首先对文本提取特征向量,再利用词语相似度求出文本特征子集,由支持向量机进行文本分类,实现了一个中文文本自动分类系统,并对该系统进行了针对SVM大规模真实文本的试验测试。试验表明,该方法的系统的招回率较低,而准确率较高,取得了令人满意的结果。  相似文献   

19.
基于COM技术的视频流文字检测   总被引:8,自引:1,他引:7  
从数字视频中提取文字对基于内容的视频索引的建立具有重要意义。讨论了视频中文字检测的算法,并提出了一种基于COM技术的实现。  相似文献   

20.
语料库词性标注一致性检查方法研究   总被引:4,自引:0,他引:4  
在对大规模语料库进行深加工时,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法,该方法避开了以前一贯采用的规则或统计的方法,利用聚类和分类的思想,对范例进行聚类并求出阈值,对测试数据分类来确定其标注的正误,进而得出每篇文章的词性标注一致性情况,进一步保证大规模语料库标注的正确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号