排序方式: 共有31条查询结果,搜索用时 15 毫秒
1.
受限域FAQ中文问答系统研究 总被引:2,自引:0,他引:2
在受限域中采用常问问题(FAQ)实现业务咨询系统是一种较好的问答模式,提出了一种受限域FAQ问答系统模型,借助于本体论的思想,构建了领域知识库,利用KDML语言定义和描述了领域本体及本体之间的关系,并实现了领域知识库"领域知网"与常识库"知网"的融合.在此基础上,提出了一种问句相似度的计算方法,该方法借助领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念关系,实现问句相似度计算.并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案.云南旅游FAQ问答原型系统测试结果表明该方法可行,有较好的效果. 相似文献
2.
熊明明李英郭剑毅毛存礼余正涛 《数据采集与处理》2017,32(3):636-642
通过对越南语词法特点的研究,把越南语的基本特征融入到条件随机场中(Condition random fields,CRFs),提出了一种基于CRFs和歧义模型的越南语分词方法。通过机器标注、人工校对的方式获取了25 981条越南语分词语料作为CRFs的训练语料。越南语中交叉歧义广泛分布在句子中,为了克服交叉歧义的影响,通过词典的正向和逆向匹配算法从训练语料中抽取了5 377条歧义片段,并通过最大熵模型训练得到一个歧义模型,并融入到分词模型中。把训练语料均分为10份做交叉验证实验,分词准确率达到了96.55%。与已有越南语分词工具VnTokenizer比较,实验结果表明该方法提高了越南语分词的准确率、召回率和F值。 相似文献
3.
新闻与案件相关性分析是案件领域新闻舆情分析的基础,其可以转化为文本聚类问题。由于缺乏有效的监督信息,传统聚类方法易导致聚类发散,降低结果的准确性。针对案件和新闻文本的特点,该文提出了基于案件要素指导及深度聚类的新闻与案件相关性分析方法。该方法首先抽取出重要的句子表征文本;然后利用案件要素对案件进行表征,用于初始化聚类中心,指导聚类的搜索过程;最后选用卷积自编码器获得文本表征,利用重构损失和聚类损失联合训练网络,使文本的表征更接近于案件,并将文本表征和聚类过程统一到同一框架中,交替更新自编码器参数及聚类模型参数,实现文本聚类。实验表明,该文的方法较基线方法在准确率上提高了4.61%。 相似文献
4.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 相似文献
5.
缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07%和3.82%. 相似文献
6.
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 相似文献
7.
由于跨境民族相关的文化实体常出现相同实体具有不同名称表达的情况,使用当前主流的文本检索方法在跨境民族文化数据集上将面临语义稀疏的问题。该文提出一种基于实体语义扩展的跨境民族文化检索方法,利用跨境民族文化知识图谱,以知识三元组的形式将跨境民族文化之间的实体关联起来,并添加实体类别标签,以此缓解跨境民族文化实体中语义信息不充分的问题。通过TransH模型对实体及扩展语义信息进行向量化表示,融合到查询文本中进行语义增强,以此提升跨境民族文化文本检索的准确性。实验结果表明,该方法比基线模型提高了5.4%。 相似文献
8.
基于通用背景-联合估计(UB-JE)的说话人识别方法 总被引:2,自引:1,他引:1
在说话人识别中,有效的识别方法是核心.近年来,基于总变化因子分析(i-vector)方法成为了说话人识别领域的主流,其中总变化因子空间的估计是整个算法的关键.本文结合常规的因子分析方法提出一种新的总变化因子空间估计算法,即通用背景—联合估计(Universal background-joint estimation algorithm,UB-JE)算法.首先,根据高斯混合—通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)思想提出总变化矩阵通用背景(UB)算法;其次,根据因子分析理论结合相关文献提出了一种总变化矩阵联合估计(JE)算法;最后,将两种算法相结合得到通用背景—联合估计(UB-JE)算法.采用TIMIT和MDSVC语音数据库,结合i-vector方法将所提的算法与传统算法进行对比实验.结果显示,等错误率(Equal error rate,EER)和最小检测代价函数(Minimum detection cost function,MinDCF)分别提升了8.3%与6.9%,所提方法能够提升i-vector方法的性能. 相似文献
9.
音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然后基于卷积神经网络将音节及其上下文的特征进行融合,得到有效的特征表示,并通过深层网络的逐层特征优化自动学习到缅甸语分词的有效特征向量,最后利用softmax分类器来对构成缅甸语词汇的音节序列标记进行预测。实验结果表明,该方法取得了较好的效果。 相似文献
10.
专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL 链接、专家元数据等独立页面特征以及候选专家证据文档间的链接和内容等关联关系;然后将独立页面特征以及页面之间的关联关系融入到无向图中构建专家证据文档识别无向图模型;最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行专家证据文档识别.通过对比实验验证了该方法的有效性.实验结果表明,该方法有较好的效果. 相似文献