首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
中文检索是信息产业中发展较快且很重要的领域,在对全文索引进行深入的理论分析基础上,设计实现了基于倒排索引结构的中文文本检索系统.该系统采用词库匹配法对文本文档进行关键词的切分,并对关键词建立索引,最后通过索引实现对关键词的检索.  相似文献   

2.
提出了一个改进的书面汉语全切分算法,它通过确保每次切分位置的唯一性,克服了全切分中普遍存在的重复切分。实验证明,改进后的全切分算法效率平均提高80%以上。  相似文献   

3.
互联网页面文本挖掘是大数据时代快速获取广域实时专题信息的重要技术手段.针对公众出行服务和交通相关应用,互联网页面中所蕴含的交通信息极具价值,但需要借助有效的自然语言分词方法来实现语义理解过程.针对互联网文本页面中蕴含交通信息的表达特点,设计了一种基于双字Hash和List相结合的三层词典数据结构,提出了一种改进的最大匹配分词算法,该算法在切分过程中增加了对关键词汇的词库归属性判断,保存了根据各个词库切分出来的关键词汇的个数与顺序,使其能够更好地满足自然语言语义理解的需求;同时,算法考虑了交通信息词库中词的长度分布,采用分治方法实现对长句或组合句的有效处理.实验表明:所提出的互联网文本页面蕴含交通信息的中文分词算法具有较好的精度和效率,可以满足互联网页面蕴含交通信息的实时分词需求,为交通信息文本的语义理解奠定了技术基础.  相似文献   

4.
输入法用户词库保存用户自定义的词汇,为了方便同步用户词库设计了用户词库自动更新工具ImeWordsAutoUpdate.用户词汇存放在XML格式的文件中,通过WINDOWS API对该文件的操作,实现用户词库自动上传、下载及更新.与同类工具相比,具有操作简单、快速同步用户词库等特点.同时给出了该工具的设计过程,并用C#实现了主要的方法.  相似文献   

5.
输入法用户词库保存用户自定义的词汇,为了方便同步用户词库设计了用户词库自动更新工具ImeWordsAutoUpdate.用户词汇存放在XML格式的文件中,通过WINDOWS API对该文件的操作,实现用户词库自动上传、下载及更新.与同类工具相比,具有操作简单、快速同步用户词库等特点.同时给出了该工具的设计过程,并用C#实现了主要的方法.  相似文献   

6.
基于可编程控制器的冷轧机自动控制系统   总被引:1,自引:1,他引:0  
冷轧无缝钢管的生产工艺复杂、过程烦琐,具有独特的生产特点,因此冷轧机自动控制系统是一个复杂的系统.整个系统由可编程控制器、全数字式直流调速系统、芯棒断裂检测系统、管料跟踪系统等构成.本文主要分析了系统的原理、组成、功能及自动控制过程.最后提供了几点在生产维护中的经验.  相似文献   

7.
基于可编程控制器的冷轧机自动控制系统   总被引:1,自引:1,他引:0  
冷轧无缝钢管的生产工艺复杂、过程烦琐,具有独特的生产特点,因此冷轧机自动控制系统是一个复杂的系统.整个系统由可编程控制器、全数字式直流调速系统、芯棒断裂检测系统、管料跟踪系统等构成.本文主要分析了系统的原理、组成、功能及自动控制过程.最后提供了几点在生产维护中的经验.  相似文献   

8.
分析了下一代网络环境下综合业务的特点及其对计费系 统的要求;提出了一种通用计费系统体系结构;介绍了事件切分和圆整在计费系统中的位置 ,提出了一种事件切分、圆整的算法;分析了事件切分和圆整的策略需求和现有主要策略, 并给出了事件切分和圆整算法在计费系统中的应用.  相似文献   

9.
综合业务计费中的事件切分和圆整策略研究   总被引:1,自引:0,他引:1  
分析了下一代网络环境下综合业务的特点及其对计费系 统的要求;提出了一种通用计费系统体系结构;介绍了事件切分和圆整在计费系统中的位置 ,提出了一种事件切分、圆整的算法;分析了事件切分和圆整的策略需求和现有主要策略, 并给出了事件切分和圆整算法在计费系统中的应用.  相似文献   

10.
适用于银行票据手写数字串切分的滴水算法   总被引:5,自引:0,他引:5  
在连通域提取与属性判别的基础上,得到不固定长度的粘连字串,利用波形分析的方法对字串个数进行判断,用具有指导信息的改进滴水切分算法解决了覆盖、粘连等非约束不确定位数的手写数字串切分问题. 该切分算法在实际的银行票据自动识别系统中取得了实用化的效果.  相似文献   

11.
语序是语言成分按语法关系进行的线性的、横向的组合序列,它是表达语法关系的重要手段,是言内意义在句法层的突出表现。在英汉两种语言中,语序对于句子结构内部的语法关系起着决定性的作用。英语和汉语属于不同的语系,英汉民族对周围世界的认识有着各具特色的思维过程和评价体系,对同一事物的表达次序有不同的安排。文章从词、短语和句子三个层面对这种不同的次序加以对比分析,以便人们可以更好地了解两种语言的特点,从而带来更大的交际价值。  相似文献   

12.
汉语分词技术综述   总被引:15,自引:0,他引:15  
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。  相似文献   

13.
本文提出一种汉字词组音形编码方案。该方案根据汉字的声母、笔划和字形的特点对词组进行编码。四键一词,好学易忆、见词识码、便于盲打。由数据库系统支持词库,输入、修改和查询快速方便。汉字词库具有自学习能力,用户可以随时增加词汇、系统自动记录词组、自动编码,并自动调整词频。  相似文献   

14.
互联网的普及导致了大量网络词汇的诞生,这些网络词汇在一定程度上遵循了现代汉语的造词法规则,即:语音学造词、修辞学造词、词法学造词、句法学造词和综合法造词.同时,网络语言对现代汉语造词法又有一定的超越和突破,对汉语词汇提出了新的要求.  相似文献   

15.
本文通过对GW2.13A系统汉字联想软字库结构和原理分析,提出了一种改进方案,使其具备可由用户方便地随意增删的功能.用户使用证明,此联想字库明显地提高了汉字输入的速度.  相似文献   

16.
词语义项标注在自然语言处理领域占有重要地位.词义排歧知识的获取、基于排歧知识构建词义标注的语言模型,以及对所构建模型性能的评价就成为词语义项标注系统的三个核心问题,尤其是前两个问题非常重要,难度也很大.为更好地研究这些问题,设计并实现了一个面向词语义项标注研究的试验软件平台,应用该软件平台,很容易实现对不同语言模型、知识获取算法的试验与比较,且在模型确定之后,稍作改进,该实验系统就能成为一个功能完善的自动标注软件系统.试验表明,该平台对汉语词义标注的研究是有用的.  相似文献   

17.
对正在发展中的广告中的新兴颜色词进行整理和研究将有利于现代汉语词汇系统的发展和完善。标新立异、避俗求雅、追逐时尚前卫等心理是新兴颜色词产生的原因。新兴颜色词存在着任意性大、模糊性强等需要规范的问题。  相似文献   

18.
基于多特征的自适应新词识别   总被引:4,自引:0,他引:4  
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.  相似文献   

19.
使用有序词语移动距离特征进行中文文本蕴含识别   总被引:1,自引:0,他引:1  
提出了一种基于有序词语移动距离的中文文本蕴含识别方法,该方法基于word2vec词向量计算有序词语移动距离特征,进而利用有序词语移动距离特征和传统语言学特征通过支持向量机生成分类模型,然后使用分类模型进行蕴含识别,最终得到蕴含结果.该方法在RITE-VAL评测任务的CS数据上的MacroF1为0.629,超过RITE-VAL的最优评测结果(BUPTTeam,0.615).实验结果表明,该方法可以提升中文文本蕴含识别系统的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号