首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   29篇
  国内免费   2篇
  完全免费   13篇
  自动化技术   44篇
  2018年   2篇
  2017年   2篇
  2015年   2篇
  2014年   2篇
  2013年   2篇
  2012年   1篇
  2011年   5篇
  2010年   1篇
  2008年   5篇
  2007年   5篇
  2006年   5篇
  2005年   1篇
  2004年   3篇
  2003年   1篇
  2002年   2篇
  2001年   2篇
  2000年   1篇
  1992年   2篇
排序方式: 共有44条查询结果,搜索用时 31 毫秒
1.
基于分解与动态规划策略的汉语未登录词识别   总被引:30,自引:6,他引:24  
未登录词的识别是汉语自动分词中的主要问题,本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题,通过对真实语料识别的测试,证明该方法可以提高未登录词识别的正确率和召回率。  相似文献
2.
面向Internet的中文新词语检测   总被引:22,自引:7,他引:15  
随着社会的飞速发展,新词语不断地在日常生活中涌现出来.搜集和整理这些新词语,是中文信息处理中的一个重要研究课题.本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语.根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于<现代汉语新词语信息(电子)词典>的编纂,在实用中大大的减轻了人工查找新词语的负担.  相似文献
3.
提高汉语自动分词精度的多步处理策略   总被引:21,自引:6,他引:15  
汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难,其中两个关键问题是未登录词的识别和切分歧义的消除,本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略,整个处理步骤包括7个部分,即消除伪歧义,句子的全切分,部分确定性切分,数词串处理,重叠词处理,基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理,开放测试结果表明分词精确率可达98%以上。  相似文献
4.
基于统计的汉语组块分析   总被引:16,自引:6,他引:10  
刘芳  赵铁军  于浩 《中文信息学报》2000,14(6):28-32,39
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律,提出了一套符合汉语语言特点的汉语组块体系,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明,该方法能够有效地处理真实文本中的浅层分析问题,具有较好的准确率和鲁棒性。  相似文献
5.
面向商务信息抽取的产品命名实体识别研究   总被引:16,自引:4,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hid-den Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献
6.
基于大规模语料库的新词检测   总被引:12,自引:0,他引:12  
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.  相似文献
7.
Web页面信息块的自动分割   总被引:10,自引:2,他引:8  
随着Internet的发展,Web页面数量的急剧增加,如何快速有效地获取信息变得越来越重要.一类Web页面往往包含着多个信息单元,它们在展现上排列紧凑、风格相似,在HTML语法上具有类似的模式,例如一个BBS页面上多个发言,每个信息被称为一个信息块.对于信息抽取、信息过滤等应用,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理.本文提出了一种自动将Web页面分割为信息块的方法:首先通过创建Web页面结构化的HMTL分析树,然后根据包含有效文本量等确定包含信息块的子树,最后根据子树深度信息利用2-rank PAT算法进行分割.通过对BBS页面的信息块抽取实验,证明了该方法的有效性.  相似文献
8.
基于距离的不确定离群点检测   总被引:4,自引:0,他引:4  
在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定数据离群点检测的高效过滤方法,包括基础过滤方法b-RFA和改进方法o-RFA,最后提出高效概率计算方法DPA.b-RFA方法利用非离群点的过滤性质,减少检测次数.o-RFA方法通过挖掘数据分布信息对b-RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上的查询性能.  相似文献
9.
Blog研究   总被引:4,自引:0,他引:4       下载免费PDF全文
Blog信息源和信息量迅速增长,并已通过频繁的链接和信息交互在互联网上构建了一个动态且紧密的社会网络,成为现实世界一个重要的信息来源.目前,Blog领域的研究主要集中在Blog的定义与识别、内容挖掘、社区发现、重要性分析、Blog搜索和作弊Blog识别等几个方面.大部分研究采用或借鉴了链接分析、自然语言处理等方面的技术和方法,也提出了一些针对Blog领域的特定方法.分析和比较了Blog领域的相关研究,并且讨论了研究中存在的问题,展望了未来的研究方向.  相似文献
10.
生物文本中蛋白质名称的识别*   总被引:2,自引:1,他引:1       下载免费PDF全文
随着基因和蛋白质序列的发布和分子生物学研究的发展,其相关的数据呈指数级增长,因此如何从海量的相关文献中直接获取生物学家研究领域的相关信息变得迫在眉睫,识别生物文献中的命名实体如蛋白质、基因、脱氧核糖核酸名称等成为生物信息学中信息抽取的最基本任务。介绍了国际同类研究中生物命名实体识别的各种方法,重点介绍了蛋白质名称识别的相关方法、所用资源、实验结果及与国际同类研究的比较结果。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号