首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。  相似文献   

2.
为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。  相似文献   

3.
在分词模型跨领域分词时,其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型,然后利用领域词典对分词结果进行逆向最大匹配的校正。实验结果表明,在军队遗留系统相关文档语料上,该方法训练的分词模型将F值提高了12.4%。  相似文献   

4.
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。
  相似文献   

5.
《软件》2019,(2):1-5
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。  相似文献   

6.
词位标注汉语分词中特征模板定量研究   总被引:1,自引:0,他引:1  
基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长.  相似文献   

7.
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。  相似文献   

8.
自动分词是自然语言处理的关键基础技术。针对传统泰语统计分词方法特征模板复杂、搜索空间大的问题,提出融合上下文字符信息的泰语神经网络分词模型。该模型借助词分布表示方法,训练泰语字符表示向量,利用多层神经网络分类器实现泰语分词。基于InterBEST 2009泰语分词评测语料的实验结果表明,所提方法相较于条件随机场分词模型、Character-Cluster Hybrid 分词模型以及 GLR and N-gram 分词模型取得了更好的分词效果,分词准确率、召回率和F值分别达到了97.27%、99.26 %及98.26 %,相比条件随机场分词速度提高了112.78%。  相似文献   

9.
分词是中文自然语言处理中的一个关键基础技术。通过基于字的统计机器学习方法学习判断词边界是当前中文分词的主流做法。然而,传统机器学习方法严重依赖人工设计的特征,而验证特征的有效性需要不断的尝试和修改,是一项费时费力的工作。随着基于神经网络的表示学习方法的兴起,使得自动学习特征成为可能。该文探索了一种基于表示学习的中文分词方法。首先从大规模语料中无监督地学习中文字的语义向量,然后将字的语义向量应用于基于神经网络的有监督中文分词。实验表明,表示学习算法是一种有效的中文分词方法,但是我们仍然发现,由于语料规模等的限制,表示学习方法尚不能完全取代传统基于人工设计特征的有监督机器学习方法。  相似文献   

10.
作为中文自然语言处理中的基础任务中文分词,其分词的好坏直接影响之后的自然语言处理任务。当前中文分词大部分都是采用基于机器学习的方法,但是其需要人工构建大量特征。针对上述问题,论文提出一种基于深度学习的新分词模型,该模型基于BLSTM(双向长短期神经网络),CNN(卷积神经网络)和CRF(条件随机场),充分利用了BLSTM可以利用长距离信息和CNN提取局部信息的优点。并设计了实验,在三个数据集上验证论文提出的模型在中文分词上的正确性和优越性。  相似文献   

11.
在多媒体教学软件中嵌入虚拟场景可以实现生动教学的目的。采用AutoCAD2000三维建模技术建立对象的三维模型,然后利用3DMAXR3.0对三维模型进行渲染和动画制作,最后通过程序生成虚拟场景。嵌入虚拟场景的多媒体教学软件更具生动性、直观性,可以达到身临其境的效果。  相似文献   

12.
楼宇智能微网采用一个多输入直流变换器,代替多个单输入直流变换器,实现风光水储能量汇集,简化电路,降低成本,提高能源综合利用率。它优先利用分布式能源,并能根据大电网动态引导电价移峰填谷,降低楼宇总电费,还利用储能装置和抽水储能赚取电网峰谷差价。多种分布式能源单独/同时连续供给负荷,增加新能源消纳能力,提高自动需求响应的快速性、可靠性和灵活性。小功率仿真实验验证了多源能量汇集的可行性和混合供电系统的稳定性。  相似文献   

13.
为了快速和准确地鉴别有关人员的身份,开发一个指纹和语音自动识别系统。该系统通过采集指纹图像和语音信号,采用参考模型和相似度计算分别实现了指纹和语音识别。实验结果表明该系统不仅能自动地识别指纹和语音,而且还能实时地将识别结果与指纹和语音数据库进行比对,从而迅速地获得被识别人员的身份信息。该系统在监控出入境关口、机场车站、机关大院、住宅小区、以及刑事侦察等场合有着广泛的应用前景。  相似文献   

14.
MIS系统中信息群的发掘与实现   总被引:1,自引:0,他引:1  
基于软件重用的思想,在带有平台性质的MIS系统中设定和使用主码、外码,充分挖掘数据间的关系,从主码和外码两条线上追踪数据,破除物理表的局限性,将管理信息系统中的相关信息整合起来,从中动态抽取出“上卷信息集”和“下钻信息集”,从而组成“信息群”,消除了软件系统中的“信息孤岛”,保证了管理信息系统中的信息的逻辑整体性,也确保了系统内的信息流动畅通无阻,使用户可以轻松地进行“信息漫游”,从而有力提升管理信息系统的可用性和使用效率。  相似文献   

15.
杨有  余萍  尚晋 《计算机科学》2008,35(5):243-245
通过对图像进行Fourier分析,获取能够表达图像纹理的能量谱,进而定义能量谱的环特征和楔特征.环特征可以描述纹理的粗细,楔特征可以描述纹理的方向,以这两个特征值作为边缘检测模板选择的依据,使边缘检测具有纹理自适应能力.实验表明,该算法边缘检测精确,抗干扰能力强.  相似文献   

16.
基于保局投影的相关反馈算法   总被引:1,自引:0,他引:1  
在原有保局投影算法中引入用户反馈,用其更新构建降维映射的特征向量,从而得到一个更能够反映语义属性的图像表示子空间.该算法利用用户反馈迅速优化图像表示,使它具有长期学习的能力.实验结果表明:该算法可以提高检索的准确度,而且在经过长期学习后可以获得一个近似最优的图像降维子空间.  相似文献   

17.
交互式内容放大的方法可以让用户对图片的内容采取不同的关注度,能够维持图像的整体效果。当用户选定区域后,在对图像进行操作时,能够保持该区域内容的连贯性,使该区域的内容有明显的放大效果。在接缝雕刻(Seam Carving)技术的协助下可以对图像的内容进行修改,移除一些与周围区域相关度小的接缝,在不改变图像原本尺寸的前提下,对图片的内容进行放大。通过特定的相关度计算函数,可以得到图像中的各个像素点的能量值。用权值函数[M]来改变选定区域内的各个像素点的能量值,令该区域内的环境能被更好地保留,使该区域内容达到更合理的放大效果。  相似文献   

18.
Visual Basic 6.0中浏览器控件的重要方法和重要事件,利用该控件设计了一个具有可装入页面,可返回上一个页面、可进入下一个页面、可刷新页面、可搜索网页或站点的浏览器,该浏览器短小精悍,代码精练,可方便地嵌入到应用程序中,增强应用软件的网络功能。  相似文献   

19.
将门限签名体制引入到多代理多签名方案中,首次提出了一个门限多代理多签名方案.新方案不仅能实现多个原始签名人将签名权委托给多个代理签名人,还能将每个代理人的密钥进行分享,实现一定数量的原始签名人就能授权,一定数量的代理签名人就能产生有效的代理签名.另外,新方案还可以控制代理签名的有效时间和回收代理签名权.  相似文献   

20.
ASIC可以采用全定制和半定制的方法加以实现,采用FPGA来进行ASIC的可测试设计,可以很大程度上节约ASIC设计的成本.本文介绍了一种基于FPGA实现的DDS信号源的ASIC的设计方案,它可以灵活地输出任意波形,并可以较方便地改变波形的频率和相位.该方案可以嵌入到采用FPGA芯片实现的仪器仪表中,具有结构简单、功能强大、性价比高的特点,稍加改动可适用于许多仪器仪表系统中,具有很好的可移植性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号