排序方式: 共有17条查询结果,搜索用时 0 毫秒
1.
2.
3.
由于短文本极稀疏性和特征分散的特点,短文本的情感分类效果总是不及篇章文本的情感分类,针对此问题,该文提出面向短文本情感分类的特征拓扑聚合模型。模型首先从特征点互信息,情感指向相似度,主题归属差异值三个维度整合计算情感特征的关联度,然后根据特征关联度建立拓扑聚合图模型,通过在图上求解强联通分量聚合高关联度情感特征,从大量未标注语料中提取相似特征对训练集特征进行补充,同时降低训练空间维度。实验将模型应用于短文本情感分类,与基准算法对比能提高分类准确率和召回率分别达0.03和0.027。验证了模型在缓解短文本极稀疏性和特征分散问题上的效果。
相似文献
相似文献
4.
5.
在多标记分类中,标签与标签之间的相关关系是影响分类效果的一个重要因子。而传统的经典多标签分类方法如BR算法,ML-KNN算法等,忽略了标签之间的相关关系对实际分类的影响,分类效果一直不能令人满意。面对类别关联度极高的不良信息的多标签分类,分类效果更是大打折扣。针对上述问题,本文改进一种经典的多标签分类算法RAkEL,首先根据训练文本计算出各标签之间的相似度系数,然后再根据自定义不良信息层次关系计算出综合标签相似度系数矩阵,最后在RAkEL算法投票过程中根据综合标签相似度与中心标签重新确定最终的结果标签集合。与传统的分类方法在真实的语料库上进行多标签分类效果对比,实验证明,该方法在对不良信息分类具有较好的效果。 相似文献
6.
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。 相似文献
7.
8.
传统的聊天机器人中用户意图识别一般采用基于模板匹配或人工特征集合等方法,针对其费时费力而且扩展性不强的问题,并结合医疗领域聊天文本的特点,提出了基于短文本主题模型(BTM)和双向门控循环单元(BiGRU)的意图识别模型。该混合模型将用户就医意图识别看作分类问题,使用主题特征,首先通过BTM对用户聊天文本逐句进行主题挖掘并量化,然后送入BiGRU进行完整上下文学习得到连续语句最终表示,最后通过分类完成用户就医意图识别。对爬取的语料进行实验,BTM-BiGRU方法明显优于传统的支持向量机(SVM)等方法,其F值更是高出目前较好的卷积长短期记忆组合神经网络(CNN-LSTM)近1.5个百分点。实验结果表明,在本任务上该混合模型重点考虑研究对象的特点,能有效提高意图识别的准确率。 相似文献
9.
胸部X光片是患者胸部检查的优先选择,对患者的诊断治疗起着重要的作用。医生依据自身的经验和习惯书写胸部X光片诊断报告,由于一些主观或者客观的原因,会开具一些影像描述与诊断结论不相符的异常诊断报告,因此对诊断报告进行异常检测有着重要的研究意义。胸片诊断报告未登录词多、数据高维稀疏,缺乏大量有效标注,传统方法检测异常胸片诊断报告效果不佳,为此,提出了一种基于主题模型的胸部X光片诊断报告异常检测方法。首先用双向LSTM-CRF模型结合诊断报告中的字符级特征,获取特定的医疗术语特征,解决诊断报告中未登录词多,描述自由的问题。然后依据领域知识和模板将诊断报告进行有效的特征扩展,缓解数据稀疏问题。最后用LDA模型判断诊断报告中影像描述与诊断结论特征是否匹配,检测出异常胸片诊断报告。实验结果表明,在阈值为2的情况下,异常检测的准确率为92.82%,召回率为69.54%,检测性能优于传统方法的。 相似文献
10.
微博中短文本、用语不规范和大量噪音等特性使得传统话题发现方法不能很好地从中获取新话题。针对微博以上特性和话题动态性提出一种基于聚类集成的微博话题发现方法,该方法考虑微博发布的非线性时间因子,采用改进的K-Means方法分别融合微博的各个特性构造其对应的基聚类器,并评估各基聚类器之间的有效性和差异性,以此设置集成投票权值并最终进行聚类集成。实验对比结果表明,该方法将微博发现话题的准确性提升约9.5%,能够更有效地探测到新话题。 相似文献