共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
汉语计算机自动分词知识 总被引:17,自引:3,他引:17
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。 相似文献
3.
汉语自动分词技术的现状及发展趋势 总被引:11,自引:0,他引:11
一、汉语自动分词的提出与困难 汉语自动分词是80年代初期中文信息处理领域提出的重大课题,分为书面汉语分词和口词分词,前者指对键盘输入或以光电识别输入计算机的汉语进行处 相似文献
4.
基于规则的汉语自动分词系统 总被引:33,自引:3,他引:33
本文通过对汉语自动分词难点的分析, 讨论了词频和词结合力的关系, 提出了一套机械切分与语义校正的汉语自动分词方法。系统包括建立绝对切分标志符表, 变长度最大匹配法、2一3一1优先规则集、固有歧义切分和组合歧义切分校正方法等。最后列举描述语义校正规则的实例。系统作为CETRAN.A的一部令, 在SUN8一280工作站上实现。 相似文献
5.
6.
7.
自动分词软件质量的评价模型 总被引:1,自引:0,他引:1
汉语自动分词是中文信息处理的基础性工作。近年来, 我国已研制了十多种自动分词软件, 但尚无评价此类软件的模型和方法。本文针对分词软件的特点, 提出了自动分词软件质量的评价准则, 并对这类软件质量的两个重妥特性令词正确率和切分速度给出了定量的度量方法。 相似文献
8.
9.
本文阐述了自动分词技术的理论与技术创新点,提出了一个适用于中英文WWW搜索引擎的分词器的实现,它具有高速的特点,同时具有较好的切分精度。该分词技术能对外提供基于全文和关键字检索的接口,并采用一系列的策略来提高切分速度,优化结构。它已应用于“中英文WWW搜索引擎系统”中,应用效果较好。 相似文献
10.
一、神经网络的基本特征和信息处理能力 神经网络是一个具有高度非线性的超大规模连续时间动力系统,其最主要特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。同时它又具有一般非线性动力系统的共性,即不可预测性、吸引性、耗散性、非平衡性、不可逆性、高维性、广泛联结性与自适应性等。因此它实际上是一个超大规模非线性连续时间自适应信息处理系统。 相似文献
11.
针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元分词模型,讨论了切分算法和人机交互中的具体问题,并通过实验确定模型系数和闽值.实验结果表明,该分词模型经三次学习后。闭式分词中的切分错误有78.44%得到纠正,切分正确率达到99.43%,开式分词中的切分错误有63.56%得到纠正,切分正确率达到98.46%.系统具有较高的实用价值. 相似文献
12.
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号,现代读者难以理解。人工断句有助于缓解上述困境,但需要丰富的专业知识,耗时耗力。计算机自动断句有助于加速对古文的准确理解,从而促进古籍研究以及中华文化的弘扬。除自动断句,该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型,并针对具体任务进行微调适配。实验表明,该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型,在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是,模型表现出了很强的泛化能力,未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%,较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳,相关代码和模型已经开源发布。 相似文献
13.
中文信息处理中自动分词技术的研究与展望 总被引:22,自引:0,他引:22
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。 相似文献
14.
15.
介绍了软件组件结构一般模型及Microsoft公司的组件对 象模型,并在此基础上,探讨如何将汉语自动分词与词性标注软件组件化。 相似文献
16.
信息过滤中的中文自动分词技术研究 总被引:2,自引:0,他引:2
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。 相似文献
17.
基于Hash结构的机械统计分词系统研究 总被引:3,自引:1,他引:3
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。 相似文献
18.
宫廷服饰纹样蕴含着丰富的文化内涵,但由于缺少像素级语义标注的数据库,使 得宫廷服饰纹样精准分割成为极具挑战的问题。为此,提出一种融合深度学习和 GrabCut 算法 的双层模型,实现目标检测和分割功能。分析不同深度卷积神经网络的特点,在模型目标检测 层(ODL)选择使用二阶段目标检测框架中的 R-FCN 方法;在模型分割层(SL)使用基于图论的 GrabCut 算法产生最终分割结果。在宫廷服饰图像数据集上进行仿真实验,证明基于深度卷积 神经网络和 GrabCut 算法的双层模型可以产生较好的分割效果。 相似文献
19.
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。 相似文献