首页 | 本学科首页   官方微博 | 高级检索  
     

搜索日志中中文人名自动识别
引用本文:王玥,吕学强,李卓,舒燕.搜索日志中中文人名自动识别[J].中文信息学报,2015,29(3):162-168.
作者姓名:王玥  吕学强  李卓  舒燕
作者单位:1. 北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 100101;
2. 北京拓尔思信息技术股份有限公司,北京 100101
基金项目:国家自然科学基金,北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目,北京信息科技大学网络文化与数字传播北京市重点实验室开放课题
摘    要:搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。

关 键 词:人名识别  搜索日志  条件随机场  可信度  

Automatic Identification of Chinese Names in Search Logs
WANG Yue,LV Xueqiang,LI Zhuo,SHU Yan.Automatic Identification of Chinese Names in Search Logs[J].Journal of Chinese Information Processing,2015,29(3):162-168.
Authors:WANG Yue  LV Xueqiang  LI Zhuo  SHU Yan
Affiliation:1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University,Beijing 100101,China;
2. Beijing TRS Information Technology Co., Ltd, Beijing 100101,China
Abstract:Search log name recognition has been a focus in Log Mining, which has direct impact on search engine’s retrieval efficiency and accuracy. The paper analyzes the drawbacks of name identification methods for long texts when applied to search logs, and proposes a method to identify Chinese names in search logs. The method employs the name internal word probability extracted from search query logs by the Conditional Random Fields, then estimates the credibility of person name according to the characteristics in the search log. Experimental results on Sogou query logs show that our approach reaches 81.97%accuracyand 85.81% recall on average, yielding F-measure of 83.79% .
Keywords:recognition of person names  search query logs  conditional random fields  reliability
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号