首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
文本分类或文本匹配是解决基于常见问题和解答(FAQ)问答的2个途径.单独使用分类方法不能有效利用标准问题本身的信息,而单独使用匹配方法时,负样本的选择很困难,为此,提出一类将文本分类和文本匹配方法相结合的模型,不仅能选择真正需要区分的负例,并且能够有效利用标准问题的信息.实验结果表明,提出的模型在多个FAQ问答数据上能达到最好性能.  相似文献   

2.
针对文本分类问题,提出新的基于知识增强的图卷积神经网络(KEGCN)分类模型. KEGCN模型在整个文本集上构建了一个包含单词节点、文档节点、外部实体节点的文本图,不同类型节点之间使用不同的相似性计算方法;在文本图构建完成后将其输入到2层图卷积网络中学习节点的表示并进行分类. KEGCN模型引入外部知识进行构图,捕获长距离不连续的全局语义信息,是第1个将知识信息引入图卷积网络进行分类任务的工作. 在4个大规模真实数据集20NG、OHSUMED、R52、R8上进行文本分类实验,结果表明,KEGCN模型的分类准确率优于所有的基线模型. 将知识信息融入图卷积神经网络有利于学习到更精准的文本表示,提高文本分类的准确率.  相似文献   

3.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

4.
预训练语言模型被广泛运用在多项自然语言处理任务中,但是对于不同的任务没有精细的微调.针对文本分类任务,提出基于探测任务的语言模型微调方法,利用探测任务训练模型特定的语言学知识,可提高模型在文本分类任务上的性能.设计了6个探测任务,覆盖句子浅层、语法和语义三方面信息.最后在6个文本分类数据集上验证了本文的方法,使分类错误率得到改善.  相似文献   

5.
介绍了文本分类技术和文本倾向性分类技术,并基于文本倾向性分类技术分析了图书评论中的信息,研究如何将机器学习方法应用在图书评论的倾向性分类中,提出了一种图书评价模型构建的解决方法.  相似文献   

6.
阐述了中文文本自动分类技术在法制领域中对描述案情的法律文本自动分类的改进及应用,并初步构建了一个中文法律案情文本分类系统.该系统在Visual C 环境上编程实现,通过对测试集中文本实验结果的分析,表明该方法具有一定的分类功能.  相似文献   

7.
为解决在法院数据信息化过程中,海量的法院文书存在缺乏自动管理分类的问题,提出一种基于字符级卷积神经网络的文本分类模型。模型通过卷积神经网络进行特征提取,能够精确有效地解决文本分类问题。实验结果证明,该模型可以实现在测试集上准确率99.67%的分类,且训练用时只有常用循环神经网络算法的50%。  相似文献   

8.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

9.
文本自动分类是一种有效的组织信息和管理信息的工具,传统分类方法一般在分类效果和运行效率上两者不可兼得,通过综合Rocchio和KNN2种分类方法的优点,设计出一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好地解决不平衡类问题,实验结果显示,该方法能达到与SVM相当的分类效果.  相似文献   

10.
为了利用商品文本标题实现商品自动分类,提出一种基于高层特征融合的商品分类模型.首先,提出基于字嵌入和词嵌入的文本底层特征表示法,进而获得更强的商品标题结构特征表达;其次,提出了联合自注意力、卷积神经网络和通道注意力的机制,对文本标题的底层特征进行增强并获得高层增强特征;最后,通过将文本的字嵌入和词嵌入的高层增强特征进行融合,最终获得商品文本标题的综合特征,并实现商品自动分类.以商品标题语料作为数据集进行了实验,实验结果表明,该模型对三级商品类别的分类精度能够达到84.348%,召回率和F1值分别达到了47.8%和49.4%,优于现有可用于商品文本标题分类的先进短文本分类方法.  相似文献   

11.
在科学把握决策树与信用风险管理理论的基础上,对现有信用风险评估模型和方法进行了分析评价,针对信用评估结果不确定的情况,在企业信用风险评估中引入决策树分析方法,建立了基于决策树技术的企业信用风险评估模型,使信用风险评估工作更科学、可靠,更直观,以便更科学地筛选赊销对象。  相似文献   

12.
安全隐患描述文本是通过自然语言描述进行记录的,具有主观随意性问题,现有的序列标注相关模型无法从中提取关键知识信息.根据安全隐患描述文本的特点,首先设计了一种适用于安全隐患描述文本的序列标注方法,提出了基于知识集成的增强表示(ERNIE)模型的进行词向量特征提取,在其基础上通过融合条件随机场(CRF)模块和信息提取(ESL)模块,构建了一种安全生产隐患描述文本结构化解析方法.在某超大城市的安全隐患描述文本上进行了实验,实验结果表明,所提模型在文本结构化解析任务的精确率达到了65.1%,可以从城市安全隐患非结构化数据中获取更多的知识信息,进而规范化安全隐患排查记录工作.  相似文献   

13.
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此, 提出了一种集成算法——新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性, 提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法, 发掘其中大量存在的网络用语以实现更加准确的分词及语义把握; 其次, 引入Simhash算法使得微博文本中的“信息过载”现象得到改观; 再次, 为改善微博文本的简洁性而引起的特征稀疏问题, 采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征; 最后, 通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型, 从而有效构建多粒度微博用户兴趣画像。实验结果表明, 粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macro-average F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%, 63.6%, 相对于基准模型, NWD算法的集成使得模型的mF1值和AUC值均能提升3%~5%, 其促进作用优于现有的新词发现方法。  相似文献   

14.
分类是当前机器学习的重要研究内容之一,已取得了一定的进展.现有的文本分类方法大多基于VSM模型,而VSM未能有效地利用隐含在文本中的结构信息.同时,VSM下的样本空间常常是高维的,单一的降维策略可能会丢失有用信息.为改进现有算法的不足,提出了一种基于多模态模型的随机子空间分类集成算法MMRFSEn,有效地利用文本中的结构信息(单词分布位置的均值和标准差),且各基分类器是由随机选择的子空间构建而成.实验结果表明,该方法是有效可行的.  相似文献   

15.
介绍了无线通讯模块TC35的结构及功能,分析了单片机控制TC35模块进行短信息发送的硬件和软件实现,并给出了TC35短消息收发模块在家庭智能防盗报警系统中的具体应用.  相似文献   

16.
本文针对目前企业培训中存在的一些问题 ,提出了提高对培训的认识 ,加大培训投入、明确培训目标、建立培训激励机制、加强培训师资队伍建设、充分利用环境资源、创最佳培训模式等建设性对策。  相似文献   

17.
介绍了文本词向量及预训练语言模型的发展体系,系统整理并分析了其中重点方法的思想特点。首先,阐述了传统的文本词向量表征方法及基于语言模型的文本表征方法;然后,详述了预训练语言模型方法的研究进展,包括动态词向量的表征方法和基于Transformer架构的预训练模型;最后,指出了未来探究多模态间更有效的融合方式和迁移学习将成为该领域的发展趋势。  相似文献   

18.
现有混凝土本构关系主要是基于成熟的经典弹塑性模型所建立的,弹塑性模型在数学上较严格,但是与混凝土材料破坏机理不协调,各国学者针对混凝土这类特殊多相复合材料提出了很多基于不可逆热力学理论的损伤本构模型。系统综述了混凝土损伤本构研究的成果,在分析了各个有代表意义的混凝土损伤本构模型基础之上,对比研究了各个模型的特点及各自适用范围,通过总结前人成果,为损伤本构模型研究提供了思路。  相似文献   

19.
魏博识    卢涛   《武汉工程大学学报》2021,43(4):455-461
针对现有数值型作物推荐算法忽略了文本域数据对于作物推荐的指导性意义,无法挖掘数值域数据与文本域数据之间的内在关联,导致推荐模型预测精度较低的问题,提出了一种基于土壤数据广度与深度模型的作物推荐算法。对残缺、重复、不平衡的土壤数据进行数据预处理,采用数值归一化和向量嵌入的方法融合数值域数据与文本域数据,然后使用广度与深度模型联合训练的方法挖掘其内在关联,改进多分类激活函数实现多分类。实验结果表明:该方法的预测精度优于现有数值型作物推荐算法。  相似文献   

20.
An extended phonemic set of mandarin from the view of speech recognition is proposed. This set absorbs most principles of some other existing phonemic sets for mandarin, like Worldbet and SAMPA-C, and also takes advantage of some practical experiences from speech recognition research for increasing the discriminability between word models. And the experiments in speaker independent continuous speech recognition show that hidden Markov models defined by this phonemic set have a better performance than those based on initial/final units of mandarin and have a very compact size.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号