排序方式: 共有9条查询结果,搜索用时 31 毫秒
1
1.
结构化集成学习垃圾邮件过滤 总被引:4,自引:0,他引:4
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5). 相似文献
2.
缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实验中提升了3个多点的BLEU4评分。实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性。 相似文献
3.
本文提出了一种个性化垃圾邮件过滤方法,它能够根据用户反馈自动学习出用户兴趣,并随时间的推移自动适应用户兴趣的变化。该方法首先抽取邮件的语言特征和行为特征构建多个基于规则的单独过滤器,然后采用SVM集成学习方法组合这些单独过滤器的结果。为了提高学习速度、减少用户提供反馈的数量,本文采用了主动学习方法挑选更加富含知识的邮件请求用户给出反馈。实验结果表明:集成学习和主动学习相结合的个性化过滤方法在个性化程度、分类准确率、过滤速度以及自动学习能力等方面具有更好的性能。 相似文献
4.
5.
非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要表示语义信息,而韩国语谓词更多地担负句法框架功能。实验结果表明基于关键体词抽取的文摘算法效果优于采用谓词或全词的效果,且新提出的韩国语文摘算法在韩国语文摘任务中能够达到最优性能,证明了体词主要表示语义信息的论断是有效的。 相似文献
6.
随着近几年语音识别研究的逐渐升温,把握好语音识别领域的正确研究方向显得尤为重要。本文介绍了语音识别技术的原理及系统构成,对2010年以来中国知网(CNKI)收录的中文核心期刊中主题为语音识别的论文进行统计分析,得出国内语音识别领域的研究现状和趋势。通过探讨其中存在的问题,得出大数据背景下的大词汇连续语音识别系统的设计及实现、方言语音识别研究、语音识别系统在现实生活中的应用以及深度学习、深层神经网络的应用将是未来语音识别领域研究的主要方向。 相似文献
7.
文章研究异构多域高性能计算环境的高效全局资源调度问题。采用约束满足问题模型建立全局调度系统模型,设计了全局调度模块结构。通过对全局调度策略的研究,实现了一个全局资源调度原型系统。 相似文献
8.
垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。
相似文献
相似文献
9.
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。 相似文献
1