首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。  相似文献   

2.
该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转换和更新统计等模块,最终搭建了一个可以达到应用要求的蒙古文信息检索系统。  相似文献   

3.
本文主要介绍了蒙古文自动处理系统的构成;蒙古文语料库,蒙古文知识库,蒙古文数据库以及蒙古文自动处理系统的软件等问题的初步探索研究的过程。  相似文献   

4.
信息检索用户查询语句的停用词过滤   总被引:5,自引:0,他引:5       下载免费PDF全文
熊文新  宋柔 《计算机工程》2007,33(6):195-197
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。  相似文献   

5.
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。  相似文献   

6.
7.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。  相似文献   

8.
科学合理的输入码方案对一个输入法至关重要。通过输入码重码量分布和平均码长等量化指标,综合分析比较了蒙古文读音输入法可使用的三类七种输入码方案,提出了以音节为编码单位的支持模糊输入的输入码方案,应用于项目组新版输入法中获得推广普及。试验结果和推广应用经验表明,新输入码方案顺应人的思维和记忆的同时可保证较高的录入速度。  相似文献   

9.
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。  相似文献   

10.
蒙古文政府信息系统,是构建我国政府信息化浓墨重彩的一笔.共性与个性兼得,共性在于,政策与信息技术揉合,个性在于,它是民族内外,技术和政治,地方与国家,综合作用的产物.其中,对于蒙古文字信息化不是技术问题,更是一个政治问题.我国在信息化背景下,实现民族平等,实现社会主义民主政治的必由之路.  相似文献   

11.
汉语同音字和多音字处理方法研究   总被引:2,自引:0,他引:2  
汉语同音字和多音字的存在给我国计算机应用增加了难度,本文分析了汉语关键词在计算机内存储、检索的过程,给出了同音检索算法。此外,还介绍了一种解决汉语系统中多音字判别和处理的方法。  相似文献   

12.
蒙古文整词编码研究   总被引:4,自引:2,他引:2  
作者基于蒙古文黏着记录其词汇方式和按书面音节拼读书写整词规则,提出了蒙古文整词编码方法。本文依据可计算性理论,提出了拼音文字非键盘映射编码方法,将整词编码分为输写码与计算码。整词输写码设计模仿传统蒙古文整词固有拼读书写规则,达到了最佳人机键盘交互目的。整词计算码既可载荷整词复杂特征知识信息、又可保证信息的可计算性,从而为蒙古文整词复杂特征合一计算和并行处理奠定了可行性科学基础。  相似文献   

13.
以跨语言信息检索需求为背景,介绍了目前语义词典及应用的概况,根据蒙古文互联网发展的现状,从应用需求出发,提出构建面向跨语言信息检索的蒙汉双语语义词典的重要性,并利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。  相似文献   

14.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。  相似文献   

15.
本文的重点是应用句法分析提高汉语信息检索的性能。本文使用定制的PCFG句法分析算法提取相邻实词的关系。在TREC Mandarin的实验证实相邻词关系对信息检索的作用:R—Precision从38.66%提高到39.74%,面向用户系统的重要指标——返回20个文档时的精确率由55.16%提高到57.89%,平均精确率从39.28%提高到40.34%。  相似文献   

16.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。  相似文献   

17.
斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。  相似文献   

18.
作为蒙古文信息处理的重要组成部分,开发符合蒙古文应用习惯的办公套件产品对于传承民族文化具有重要意义。开源项目OpenOffice.org的不断发展和日益成熟,为蒙古文办公套件的研制开发提供了有利的契机。该文讲述了以OpenOffice.org为源代码基础,实现基于蒙古文编码国际标准而研制的蒙古文办公套件的实现方案,并为开发其他复杂文字的少数民族语言的办公套件提供了很好的借鉴作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号