首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。  相似文献   

2.
现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干,提高名词识别效率。首先陈述形态分析概念,通过这些形态特征可以准确地识别其词性的意义;其次讨论维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则;该文提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等;最后将初中、高中物理维吾尔语教材作为验证对象,对名词词干进行统计与分析。  相似文献   

3.
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  相似文献   

4.
通过对维吾尔语名词形态结构进行研究,构造了名词有限状态自动机(FSM);针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。有机地结合以上三种方法构造出了基于规则和统计的名词词干提取方法。为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计结合的名词词干提取方法相结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统。该系统具有较强的鲁棒性,准确率保持95%以上。  相似文献   

5.
以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。首先介绍小学语文教材电子语料库;其次讨论《信息处理用现代维吾尔语词干词类标注标记集》的基本情况和多策略现代维吾尔语词干标注系统模型设计与算法;最后分析现代维吾尔语词性标注标记集验证结果,并验证《信息处理用现代维吾尔语词干词类标注标记集》的科学性,补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。  相似文献   

6.
首先对现代维吾尔语词尾或词缀进行描述和定义;其次陈述调查使用的网络媒体语料来源、语料说明、词法结构、词语还原方法、语料应用领域、采集的语料时间跨度与统计方法;最后介绍词尾的使用情况,包括频次超过万次以上的词尾、词尾频次分段分析、词尾长分段分析结果.  相似文献   

7.
针对维吾尔语形态变化,提出了利用规则和词典相结合的混合处理方法进行形态还原技术。利用从左到右地分析和Lovin算法实现了词干提取器。通过总结词法连接规则,提出了规则实现词干提取、用词典验证提取结果。经过对不同新闻内容的五次测试得出平均准确率达到了77.4%。  相似文献   

8.
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性.  相似文献   

9.
首先陈述调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法;其次按词长排序的前20个最长的词情况,介绍词语长度分布;在此基础上分析词干长度分布、常用纯词干长度分布及常用去尾词干长度分布;最后介绍平均词干、词长统计与分析结果。  相似文献   

10.
汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。基于开放语料的实验证明我们的词干词缀翻译模型以及语言模型显著优于之前的基于词粒度的模型。  相似文献   

11.
随着社会的发展,语言也在不断地发展变化。为了切实掌握维吾尔语当前使用情况,及时把握维吾尔语年度用词的第一手资料,对网络媒体的现代维吾尔语用词进行研究。首先对现代维吾尔语词语的结构进行分析,并给出描述现代维吾尔语词法的结构模型;然后介绍调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法以及统计结果讨论。  相似文献   

12.
介绍和研究了上海房地产交易服务网站的系统架构,系统各子系统功能的应用、系统的安全措施以及对将来可能发展的探索.  相似文献   

13.
.net平台下网站安全性问题的研究及其解决方案   总被引:1,自引:0,他引:1  
针对目前网络环境下网站的安全性进行分析,并结合南京理工大学经济管理学院网站改版的实际项目来说明在.net平台中如何通过角色分配,权限控制,程序编写等方式来解决网站的安全访问性问题.  相似文献   

14.
网站开发技术研究的一个方向是以网站作为一个平台,实现尽可能多的功能;二是尽可能以较低的成本实现网站的开发和管理。主要研究通过图形化方式简化网站开发、管理、维护过程,降低手工代码编写率,降低成本,提高效率,兼顾功能。并以SQL Server、Hibernate和JSF技术为基础设计一个实用的图形化的网站开发平台。  相似文献   

15.
定义了链接可达性和网页可达性的概念.为计算网页可达性,设计了计算到达网页路 径的路径树生成算法(PTSA).建立了一种极大化网页访问率与可达性之间相关性的网站链接 结构调整的数学模型,并提出将PTSA嵌入禁忌搜索的求解方法.试验结果表明本文的方法可 以帮助网站设计者改进网站的链接结构.  相似文献   

16.
提出一种基于分类特征提取的手部动作识别方法,该方法通过自适应的混合高斯模型构建背景模型,使用背景减除法并充分利用人体手部肤色信息分割出人体手部区域,结合手部关节、骨骼特征及肤色信息估算手部关节点位置,构建三维手部骨架模型,然后提取手部各关节角度、位置信息并利用隐马尔柯夫(HMM)模型对其所表示的动作进行训练识别。  相似文献   

17.
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。  相似文献   

18.
传统的信息集成虚拟方法通常采用Wrapper技术实现结构化异构数据的抽取。针对Wrapper与结构化异构数据源间一对一关系的非灵活性,提出了一种基于公共仓库元模型CWM(Common Warehouse Metamodel)的信息集成架构,利用CWM独立于任何具体实现的优势,在其基础上生成的Wrapper程序可以很好地适用于与之相关的所有结构化异构数据源的抽取。CWM元模型所提供的统一文档类型定义(DTD),使结构化异构数据源拥有了统一的XML表达方式,从而使抽取后的信息可以进行更有效的共享和转换。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号