首页 | 本学科首页   官方微博 | 高级检索  
     

搜索引擎日志中“N+V+N”、“V+N+N”型短语识别
引用本文:郑 丽,吕学强.搜索引擎日志中“N+V+N”、“V+N+N”型短语识别[J].计算机工程与应用,2013,49(6):143-147.
作者姓名:郑 丽  吕学强
作者单位:北京信息科技大学 中文信息处理研究中心,北京 100101
摘    要:短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中“N+V+N”、“V+N+N”型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。

关 键 词:短语识别  搜索引擎日志  &ldquo  N+V+N&rdquo  &ldquo  V+N+N&rdquo  最大熵方法  
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号