排序方式: 共有26条查询结果,搜索用时 428 毫秒
1.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下 相似文献
2.
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和Word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过Word2vec对文档训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到的不同F值,确定了最佳主题数。实验结果表明所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。 相似文献
3.
命名实体识别任务是朝鲜语自然语言处理研究过程中最重要的基础任务之一。针对朝鲜语命名实体识别的边界划定不明确和准确率低等问题,该文提出基于Transformer的音节-形态素融合的朝鲜语命名实体识别模型。首先通过BERT预训练模型分别对音节和形态素进行词嵌入;其次使用两种不同的向量融合方法将音节向量和形态素向量相融合,即简单的向量拼接方法和考虑到向量联系与差异的启发式融合方法;最后将融合后的向量作为模型的输入完成命名实体识别任务。实验结果在KLUE公布的朝鲜语命名实体识别数据集中F1值达到了88.78%,相比单一粒度实验提高约3至4个百分点。 相似文献
4.
5.
对不同语言的句对齐文献资料进行分析,提出了基于多语主题模型的跨语言文献相似度的计算方法.首先,对收集整理的不同语言(中文、英文、韩文)文献构建数据模型,通过分词、分词结果修正及选择、词权重计算等预处理工作构造词项-文档矩阵.其次,建立多语主题语义空间,将译成3种不同语言的文献映射到语义空间,在语义空间中每一主题都由3种语言构成.最后,通过其语义空间中对应的主题计算比较不同语言间的文献相似度.实验结果显示,不同语言之间的文献相似度可以直接在语义空间中计算,且相似度计算的准确性在90%以上,验证了本文方法在跨语言文献相似度计算时的有效性. 相似文献
6.
针对用户安全登录问题,提出了一种基于自动机的密码匹配模型.首先,对于用户任意输入的密码进行同态映射加密; 其次,构造出可接受加密密码的自动机——状态数目可变自动机(VNS - DFA),该自动机不仅能够匹配加密密码,同时还可以输出加密密码的同态原像以及匹配成功的次数; 最后,在状态数目可变的自动机上对用户输入的密码进行实验验证表明,用户建立的密码经过同态映射后可全部被该自动机接受,且该自动机的时间复杂度优于传统的DFA以及改进的DFA. 相似文献
7.
针对目前自然语言句子匹配方法未能融合公共语义信息以及难以捕获深层次语义信息的问题,提出了一种融合高低层语义信息的自然语言句子匹配算法。该算法首先采用预训练词向量GloVe和字符级别的词向量获取句子P和句子Q的词嵌入表示;其次,使用双向LSTM(long-short term memory)对P和Q进行编码,再初步融合P和Q获取低层语义信息;然后,计算P与Q的双向注意力,拼接得到语义表征,再计算其自注意力获取高层语义信息;最后,采用启发式的融合函数将低层语义信息和高层语义信息进行融合,得到最终的语义表征,使用卷积神经网络预测得到答案。在文本蕴涵识别和释义识别两个任务上评估了该模型。在文本蕴涵识别任务SNLI数据集和释义识别任务Quora数据集上进行了实验,实验结果表明该算法在SNLI测试集上的准确率为87.1%,在Quora测试集上的准确率为86.8%,验证了算法在自然语言句子匹配任务上的有效性。 相似文献
8.
松湖铁矿床位于新疆西天山伊犁地块东北缘阿吾拉勒成矿带西段,赋矿围岩为下石炭统大哈拉军山组安山岩及安山质火山碎屑岩。现有研究对于该矿床成因尚有争议,焦点在于是否存在矿浆(或岩浆)成因磁铁矿。据此,系统采集松湖铁矿床内各类典型矿石开展详细的磁铁矿标型特征研究,并利用LA-ICP-MS技术分析了磁铁矿的微量元素组成。结果表明:浸染状与块状矿石中磁铁矿具有高V、Ni、Ti含量,低Al、Mn、Co、Zn、Sn含量等岩浆磁铁矿地球化学特征; 而条带状与角砾状矿石胶结物中磁铁矿Mg、Al、Mn、Zn含量高,V含量相对较低,各元素含量均与矽卡岩型矿床中的热液磁铁矿相当。磁铁矿包裹体爆裂温度指示:浸染状及块状矿石中存在两期包裹体,形成温度分别为328 ℃~397 ℃和424 ℃~485 ℃; 条带状及角砾状矿石中粗粒磁铁矿包裹体数量较少,形成温度为343 ℃~385 ℃。综合矿物标型特征,认为各类矿石中浸染状矿石形成温度最高,其次为块状矿石,再次为角砾状矿石,条带状矿石形成温度最低,这也是各类矿石在松湖铁矿床成矿过程中的形成顺序。岩相学及微量元素地球化学特征均证实松湖铁矿床形成过程中存在矿浆成矿阶段,晚期热液成矿以高温火山热液充填交代成矿为主,而非沉积成矿。综合矿床地质及磁铁矿标型特征,认为松湖铁矿床成因类型应属火山岩浆-热液复合型铁矿床。 相似文献
9.
针对目前机器翻译模型存在的曝光偏差和译文多样性差的问题,提出一种基于强化学习和机器翻译质量评估的中朝神经机器翻译模型QR-Transformer.首先,在句子级别引入评价机制来指导模型预测不完全收敛于参考译文;其次,采用强化学习方法作为指导策略,实现模型在句子级别优化目标序列;最后,在训练过程中融入单语语料并进行多粒度数据预处理以缓解数据稀疏问题.实验表明,QR-Transformer有效提升了中朝神经机器翻译性能,与Transformer相比,中—朝语向BLEU值提升了5.39,QE分数降低了5.16,朝—中语向BLEU值提升了2.73,QE分数下降了2.82. 相似文献
10.
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。 相似文献