共查询到18条相似文献,搜索用时 78 毫秒
1.
为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影响了文本处理的效果。针对该问题,提出一种应用于维吾尔语的停用词抽取方法。在分析维吾尔语停用词特点的基础上,采用文档频数、词项频率和信息熵的方法对大量语料进行统计,并分析候选停用词的词性分布情况。通过文本分类实验确定停用词阈值,结果表明,使用该方法进行停用词过滤后,文本分类的计算复杂度降低,分类准确率达到80.8%。 相似文献
2.
3.
4.
5.
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。 相似文献
6.
7.
摘 要: 为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合主题模型LDA与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好的实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA模型与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。 相似文献
8.
9.
蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。 相似文献
10.
蒙古文政府信息系统,是构建我国政府信息化浓墨重彩的一笔.共性与个性兼得,共性在于,政策与信息技术揉合,个性在于,它是民族内外,技术和政治,地方与国家,综合作用的产物.其中,对于蒙古文字信息化不是技术问题,更是一个政治问题.我国在信息化背景下,实现民族平等,实现社会主义民主政治的必由之路. 相似文献
11.
12.
13.
以跨语言信息检索需求为背景,介绍了目前语义词典及应用的概况,根据蒙古文互联网发展的现状,从应用需求出发,提出构建面向跨语言信息检索的蒙汉双语语义词典的重要性,并利用构建领域本体的方法给出蒙汉双语计算机术语语义词典的初步设计方法。 相似文献
14.
蒙古词法分析是蒙古语信息处理的基础性问题,是蒙古语信息处理工作的第一步。通过对统计模型和蒙古语构词规则进行深入研究,提出了一种融合统计和规则技术的蒙古语词切分和词性标注的方法。该方法以统计模型作为基本框架,采用树形结构描述系统的解空间,并加入了蒙古语语言学规则和词干、词缀词典。实验结果表明,该系统分词和词性标注的词级准确率为95.1%,词干/词缀级准确率为94.6%,较已有蒙古语词法分析系统的准确率有所提高。 相似文献
15.
本文的重点是应用句法分析提高汉语信息检索的性能。本文使用定制的PCFG句法分析算法提取相邻实词的关系。在TREC Mandarin的实验证实相邻词关系对信息检索的作用:R—Precision从38.66%提高到39.74%,面向用户系统的重要指标——返回20个文档时的精确率由55.16%提高到57.89%,平均精确率从39.28%提高到40.34%。 相似文献
16.
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明: 在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。 相似文献
17.
18.
作为蒙古文信息处理的重要组成部分,开发符合蒙古文应用习惯的办公套件产品对于传承民族文化具有重要意义。开源项目OpenOffice.org的不断发展和日益成熟,为蒙古文办公套件的研制开发提供了有利的契机。该文讲述了以OpenOffice.org为源代码基础,实现基于蒙古文编码国际标准而研制的蒙古文办公套件的实现方案,并为开发其他复杂文字的少数民族语言的办公套件提供了很好的借鉴作用。 相似文献