共查询到10条相似文献,搜索用时 15 毫秒
1.
大量的网络评论已经成为挖掘用户意见、改进产品质量的重要信息来源,而特征抽取作为后续分析的基础,直接影响到最终意见挖掘结果的准确性. 本文提出了一种PMI-Bootstrapping算法,并结合了语言规则实现中文网络评论的产品特征抽取. 首先利用语言规则产生候选特征集,计算每个候选特征与初始给定种子集的加权平均互信息,将满足阈值的候选特征添加到种子集中,如此循环迭代,直到种子集合收敛,输出排队后的种子集合作为抽取结果. 实验证明,该算法取得良好的准确率和召回率. 相似文献
2.
针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错误对属性词识别的影响,在中文产品评论语料中通过设计词性序列模板获得候选属性词集,该词性序列模板包含名词和名词短语模板、动词和动词短语模板,采用统计技术和自然语言处理技术筛选候选属性词。实验结果表明,对于3 623篇手机评论文章,利用该方法可获得1 732个属性词,准确率为0.565、召回率为0.726、调和平均值为0.636,具有较好的抽取性能。 相似文献
3.
针对现有的中文客户评论产品属性识别方法存在的不足,通过采用词法分析、句法分析、同义词词林等多项技术和资源,挖掘真实语料中蕴藏的语言知识,提出了一种基于模板的产品属性识别方法.该方法对评论语料进行词法、句法分析和人工标注,从标注结果中综合分析和归纳评论句的全局语言规则,提取属性词和评价词之间的词性和依存关系序列,借助同义词词林构建产品属性模板,使用属性模板识别产品属性.对比实验结果表明了提出方法的有效性. 相似文献
4.
用户评论中产品特征的抽取及聚类 总被引:1,自引:0,他引:1
在用户评论中蕴含了大量的产品特征和用户对这些特征的观点和态度.本研究提出了基于Apriori关联规则算法的产品特征抽取方法,利用与种子特征集合的互信息和与观点词的共现度对候选特征进行过滤;并提出了一种特征自动聚类方法,以特征词间的字符串相似度和语义相似度以及特征所对应的观点词作为衡量产品特征之间关联程度的特征,采用K-means聚类算法对产品特征进行聚类.本研究采用大众点评网对美食店铺的评论语料,对该方法进行了数据实验,实验结果初步验证了该方法有效性. 相似文献
5.
6.
《计算机应用与软件》2016,(7)
针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括"分配"和"转移"两个过程。"分配"过程对特征词进行聚类得到初始簇序列;"转移"过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。 相似文献
7.
8.
9.
10.
论文以酒店在线评论数据为研究对象,对酒店在线评论数据的特征挖掘进行了研究。论文首先从酒店在线评论数据的获取出发,经过数据清洗、词性分析、特征抽取、指标确定、特征筛选、特征确定、特征校验几个环节,实现了酒店在线评论数据特征挖掘的目的。论文以词频为基础,融合了词性分析、聚类分析等方法,利用词频数(TF)、词频率(TF1)、词频权重(TTW)、评论频率(DF)、逆文档频率(IDF)和TF1-IDF等指标对候选特征词进行降维,得出酒店在线评论数据的特征,并对特征词进行校验,完成了酒店在线评论数据的特征挖掘的过程。论文将为以评论为依据的客户分类、酒店分类、智能推荐奠定基础。 相似文献