首页 | 本学科首页   官方微博 | 高级检索  
     

基于机器学习的网页主题词自动抽取
引用本文:张永奎,赵辄谦,陈鑫卿,白丽君.基于机器学习的网页主题词自动抽取[J].计算机应用,2003,23(3):1-3.
作者姓名:张永奎  赵辄谦  陈鑫卿  白丽君
作者单位:山西大学,计算机科学系,山西,太原,030006
基金项目:山西省自然科学基金项目 (991 0 35)
摘    要:主题词在信息处理和信息检索过程中有广泛的用途,然而大量网页没有主题词,手工抽取主题词是一个繁重的过程,可以将主题词自动抽取看作是分类问题,充分利用网页的结构信息并且使用有监督的机器学习方法来自动地抽取网页中的主题词,试验结果表明该算法具有实用的价值。

关 键 词:机器学习  网页  主题词  自动抽取  贝叶斯算法  信息处理  信息检索  计算机网络
文章编号:1001-9081(2003)03-0001-02
修稿时间:2002年9月12日

Machine Learning Based Automatic Keyphrase Extraction
ZHANG Yong kui,ZHAO Zhe qian,CHEN Xin qing,BAI Li jun.Machine Learning Based Automatic Keyphrase Extraction[J].journal of Computer Applications,2003,23(3):1-3.
Authors:ZHANG Yong kui  ZHAO Zhe qian  CHEN Xin qing  BAI Li jun
Abstract:Keyphrases are very useful to information process and information index. But there are still a great number of Web pages without keyphrases. It is a tedious work to extract keyphrases manually. Making use of the visual information of Web pages, a system is proposed, which automatically extrac keyphrases from text as a supervised machine learning task. Experiments show that it is practical.
Keywords:machine learning  keyphrase  automatic extraction  Bayesian algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号