首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对现有的中文客户评论产品属性识别方法存在的不足,通过采用词法分析、句法分析、同义词词林等多项技术和资源,挖掘真实语料中蕴藏的语言知识,提出了一种基于模板的产品属性识别方法.该方法对评论语料进行词法、句法分析和人工标注,从标注结果中综合分析和归纳评论句的全局语言规则,提取属性词和评价词之间的词性和依存关系序列,借助同义词词林构建产品属性模板,使用属性模板识别产品属性.对比实验结果表明了提出方法的有效性.  相似文献   

2.
中文产品评论中属性词抽取方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
针对现有属性词抽取方法的准确率和覆盖率偏低问题,利用百度百科和分词后相邻词语同现比例识别专业领域生词,降低分词错误对属性词识别的影响,在中文产品评论语料中通过设计词性序列模板获得候选属性词集,该词性序列模板包含名词和名词短语模板、动词和动词短语模板,采用统计技术和自然语言处理技术筛选候选属性词。实验结果表明,对于3 623篇手机评论文章,利用该方法可获得1 732个属性词,准确率为0.565、召回率为0.726、调和平均值为0.636,具有较好的抽取性能。  相似文献   

3.
从词向量的训练模式入手,研究了基于语料语句分割(BWP)算法,分隔符分割(BSP)算法以及属性主题分割(BTP)算法三种分割情况下的词向量训练结果的优劣。研究发现,由于评论短文本的自身特征,传统的无分割(NP)训练方法,在词向量训练结果的准确率和相似度等方面与BWP算法、BSP算法以及BTP算法具有明显的差异。通过对0.7亿条评论短文本进行词向量构建实验对比后发现,该文所提出的BTP算法在同义词(属性词)测试任务上获得的结果是最佳的,因此BTP算法对于优化评论短文本词向量的训练,评论短文本属性词的抽取以及情感倾向分析等在内的,以词向量为基础的应用研究工作具有较为重要的实践意义。同时,该文在超大规模评论语料集上构建的词向量(开源)对于其他商品评论文本分析的应用任务具有较好可用性。
  相似文献   

4.
一个用于OCR输出的中文文本的拼写校对系统   总被引:1,自引:0,他引:1  
该文描述了一个处理OCR输出的中文文本的拼写校正系统。使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本。首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存(校正词, 错词, 出现次数)。用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库。错误模式可看作是校正规则,用于校正文本中和模式中与“错词”相同形式的错误。根据“错词”的长度将错误模式分为两类,一类为“错词”的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为“错词”的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正。以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累。由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好。结尾部分给出了本校对系统的实验结果。  相似文献   

5.
在分析维吾尔语词性规则和语法特征的基础上,以维吾尔语评论性语句为研究语料,提出了一种基于Bootstrapping算法的意见挖掘关系抽取方法.在每一次迭代过程中,根据改进的评分公式选取最优模式抽取主题词-意见词对;迭代结束后,对于主题-意见词对为空的评论语句,使用最近匹配算法抽取主题-意见词对;用并联模式和否定模式对抽取的主题-意见词对进行扩展和修正.关系抽取的最终目标是为每一个评论性语句建立一个或多个二元组<主题词,意见词>,并使主题词和意见词一一对应.实验结果表明了该方法在关系抽取上的有效性.  相似文献   

6.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

7.
基于词汇吸引与排斥模型的共现词提取   总被引:3,自引:0,他引:3  
共现词提取在信息挖掘和自然语言处理中有着十分重要的地位。而传统的共现词提取方法仅仅局限在单一的一种统计量上,其结果十分不精确,需要人工再进行整理。本文提出了一种基于词汇吸引与排斥模型的共现词提取算法,并通过将多种常用统计量进行组合,改进了算法的效果。在开放测试环境下,所提取的共现词其用户感兴趣度为60.87%。将该算法应用于基于Web的共现词检索系统,在速度和共现词的提取精度上均取得了比较好的效果。  相似文献   

8.
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。  相似文献   

9.
多序列联配(MSA)是一个NP问题,为了取得一个好的联配结果,常用渐进和迭代两种方法,但渐进方法不能调整早期的错误,迭代方法面临怎样跳出局部最优的问题。该文提出了一种新的求精方法,该方法基于极值遗传算法和挖掘策略。极值遗传算法基于极值组合元素,能够减少搜索空间。易于找到全局最优解。算法实现过程中,首先用挖掘算法挖掘出已知联配中的不良序列块,然后所有的不良序列块用极值遗传算法重新联配。当初始的序列是用渐进算法联配时,新的求精方法能调整早期的一些错误,充分结合渐进和迭代算法的优点。最后算法用来自于数据库BAliBASE中数据进行了验证。  相似文献   

10.
在基于Winnow算法的基础上引入混淆词和介词搭配的方法.首先通过混淆集获得训练集,对训练集进行预处理后利用文本特征提取方法获得特征词集,然后对特征词集进行Winnow训练得到带有权重的特征词集并把出现在混淆词后的介词提取出来生成介词向量,最后从测试集提取特征并进行结合Winnow算法和混淆词与介词搭配方法的测试得到真词错误检查的结果.混淆词与介词搭配方法的加入使得某些混淆词的正确率、召回率以及F1测度提高了10%~20%,有的甚至提高到了100%.  相似文献   

11.
PD (Parkinson’s disease) 的运动障碍会累及口、咽、腭肌以及面部肌肉,引起声带震颤和面部运动迟缓,为利用声纹和面部特征识别PD患者提供了可能。为了有效利用以上两种特征以提高PD 识别率,提出了基于多尺度特征与动态注意力机制的多模态循环融合模型对患者进行识别检测。首先,设计了多尺度特征提取网络,将高、低层级特征的语义信息融合以得到完整的特征信息;其次,在多尺度特征融合过程中为了充分考虑模态间的相关性和互补性,提出了以不同模态信息互为辅助条件生成注意力特征图的动态注意力机制算法,降低特征融合时信息的冗余;最后设计了多模态循环融合模型,通过计算循环矩阵的每个行向量与特征向量间的哈达玛积得到更有效的融合特征,提高了模型性能。在自建数据集上进行的多组实验结果表明,提出的方法识别准确率高达96.24%,优于当前流行的单模态和多模态识别算法,可以有效区分PD患者和HP (healthy people),为高效识别PD患者奠定了基础。  相似文献   

12.
张伟  王志海  原继东  郝石磊 《软件学报》2020,31(10):3216-3237
时间序列数据广泛产生于科技和经济的多个领域.基于符号傅里叶近似(symbolic Fourier approximation)和滑动窗口的定长单词抽取算法是目前时间序列特征字典构建过程中最有效的特征生成算法之一,但是该算法在特征生成过程中不能根据不同滑动窗口长度动态地选择保留的最优傅里叶值的个数,而且特征字典构建过程中缺少从生成的海量特征中对鉴别性特征进行有效选择的算法.为此,提出一种鉴别性特征字典构建算法.首先,提出一种针对不同长度滑动窗口学习最优单词长度的基于Fourier近似的可变长度单词抽取方法;其次,构建了一种新的特征鉴别性评价指标,并依据其动态阈值对生成的特征进行选择.实验结果表明,基于构建的特征字典的逻辑回归模型不仅分类精度高,而且可以有效发现预测过程中的鉴别性特征.  相似文献   

13.
人脸识别技术可应用于各监控和安保领域,它涉及特征提取、识别模型等关键技术。其中特征提取方法直接影响识别效果,目前所用的特征提取方法存在特征表达不全面、计算复杂度高等问题。据此,提出一种基于WPD-HOG金字塔的人脸特征提取方法,该方法结合小波包分解(Wavelet Packet Decomposition,WPD)、图像金字塔以及方向梯度直方图(Histograms of Oriented Gradients,HOG)对人脸图像特征进行有效表征,最终将WPD-HOG金字塔特征通过SVM分类器进行分类。通过在ORL人脸库上进行实验,与四种对比方法HOG、HOG金字塔、FWPD-HOG以及FWPD-HOG金字塔进行比较,实验结果表明,WPD-HOG金字塔特征提取方法的识别率要高于对比方法,且在噪声方面具有较好的鲁棒性。  相似文献   

14.
15.
Due to rapid development of Internet technology and electronic business, fraudulent activities have increased. One of the ways to cope with damages of them is fraud detection. In this field, there is a need for methods accurate and fast. Therefore, a novel and efficient feature extraction method based on social network analysis called FEMBSNA is proposed for fraud detection in banking accounts. In this method, in order to increase accuracy and control runtime in the first step, features based on network level are considered using social network analysis and extracted feature is combined with other features based on user level in the next phase. To evaluate our feature extraction method, we use PCK-means method as a basic method to learn. The results show using the proposed feature extraction as a pre-processing step in fraud detection improves the accuracy remarkably while it controls runtime in comparison with other methods.  相似文献   

16.
In sentiment analysis, a finer-grained opinion mining method not only focuses on the view of the product itself, but also focuses on product features, which can be a component or attribute of the product. Previous related research mainly relied on explicit features but ignored implicit features. However, the implicit features, which are implied by some words or phrases, are so significant that they can express the users’ opinion and help us to better understand the users’ comments. It is a big challenge to detect these implicit features in Chinese product reviews, due to the complexity of Chinese. This paper is mainly centered on implicit features identification in Chinese product reviews. A novel hybrid association rule mining method is proposed for this task. The core idea of this approach is mining as many association rules as possible via several complementary algorithms. Firstly, we extract candidate feature indicators based word segmentation, part-of-speech (POS) tagging and feature clustering, then compute the co-occurrence degree between the candidate feature indicators and the feature words using five collocation extraction algorithms. Each indicator and the corresponding feature word constitute a rule (feature indicator → feature word). The best rules in five different rule sets are chosen as the basic rules. Next, three methods are proposed to mine some possible reasonable rules from the lower co-occurrence feature indicators and non indicator words. Finally, the latest rules are used to identify implicit features and the results are compared with the previous. Experiment results demonstrate that our proposed approach is competent at the task, especially via using several expanding methods. The recall is effectively improved, suggesting that the shortcomings of the basic rules have been overcome to certain extent. Besides those high co-occurrence degree indicators, the final rules also contain uncommon rules.  相似文献   

17.
二噁英是城市固废焚烧过程排放的痕量有机污染物.受限于相关技术的复杂度和高成本,二噁英排放浓度检测的大时滞已成为制约城市固废焚烧过程优化控制的关键因素之一.虽然具有低成本、快响应、高精度等特点的数据驱动软测量模型能够有效解决上述问题,但二噁英建模方法必须要契合数据的小样本、高维度特性.对此,提出了由特征映射层、潜在特征提取层、特征增强层和增量学习层组成的宽度混合森林回归软测量方法.首先,构建由随机森林和完全随机森林构成的混合森林组进行高维特征映射;其次,依据贡献率对全联接混合矩阵进行潜在特征提取,采用信息度量准则保证潜在有价值信息的最大化传递和最小化冗余,降低模型的复杂度和计算消耗;然后,基于所提取潜在信息训练特征增强层以增强特征表征能力;最后,通过增量式学习策略构建增量学习层后采用Moore-Penrose伪逆获得权重矩阵.在基准数据集和城市固废焚烧过程二噁英数据集上的实验结果表明了方法的有效性和优越性.  相似文献   

18.
目前基于机器学习的入侵检测研究都是从提高检测精度的分类器算法设计出发,大多未考虑对样本特征的分析。文章提出了一种基于特征抽取的异常检测方法,应用主元神经网络(PCNN)抽取入侵特征,再应用SVM检测入侵。采用广义Hebb学习规则训练线性主元神经网络,SVM采用基于网格粒度搜索获得最优参数。利用KDD99数据集,将线性PCNN-SVM与SVM进行比较,结果显示在不降低分类器性能的情况下,PCNN特征抽取方法能对输入数据有效降维。  相似文献   

19.
针对现有杆塔状态检测方案缺乏外破振动识别的现状,提出了一种基于深度学习模型的杆塔外破振动识别技术。首先获取外破条件下的输电杆塔外破振动信号和不同风激励条件下的输电杆塔振动信号,应用延时嵌陷技术对振动信号预处理,将原始信号转为二维形式后送入卷积神经网络(Convolutional Neural Network, CNN)进行特征提取,并采用相关向量机(Relevance Vector Machine, RVM)分类器实现振动模式识别;通过多次实验,确定CNN的最佳参数,再利用softmax分类器和梯度下降法对CNN的权值和阈值进行调整,最终得到高精度识别结构。仿真结果表明,提出的CNN-RVM识别模型在三种振动条件实验中准确率都高于99%,相比于国内外现有其它振动识别方案,具有高精度和高效率的优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号