共查询到20条相似文献,搜索用时 187 毫秒
1.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。 相似文献
2.
词语替代任务旨在为句子中的目标词寻找合适的替代词。基于预训练语言模型BERT的词语替代方法直接利用目标词的上下文信息生成替代候选词。由于标注数据资源的缺乏使得研究人员通常采用无监督的方法,这也限制了预训练模型在此任务上的适用性。考虑到现有的大规模复述语料中包含了大量的词语替代规则,该文提出一种通过复述模型生成替代候选词的方法。具体的做法是:利用复述语料训练一个神经复述模型;提出了一种只关注目标词变化的解码策略,用于从复述模型中生成替代词;根据文本生成评估指标计算替代词对原句意思的改变程度,对替代词排序。相对已有的词语替代方法,在两个广泛使用的数据集LS07和CoInCo上进行评估,该文提出的方法取得了显著的提高。 相似文献
3.
4.
5.
过量过滤规则存在冗余性影响着网关设备处理性能。在分析过滤规则属性集的基础上,利用粗糙集区分矩阵的性质对过量过滤规则属性集进行约简处理。同时,通过属性权重方法产生过滤规则属性核集实现对过量过滤规则冗余的约简算法。测试证明基于粗糙集的约简算法在网关设备中具有较好的适用性。 相似文献
6.
文中改进了基于后缀数组的无词典分词算法.原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词集,并通过置信度的比较来筛选候选词集以获得分词集.文中改进了其计算候选词出现频率的方法并且大大减少了筛选候选词集时两两判断候选词是否具有父子关系的次数.试验表明,改进的算法能够在没有词典的情况下更快速构建候选词集和筛选候选词集.适用于对词条频度敏感,对计算速度要求较高的中文信息处理. 相似文献
7.
针对协同过滤算法推荐结果存在受噪音数据影响严重的问题,提出了一种基于用户项目间的关联规则集的协同过滤算法.利用经典的Apriori算法进行频繁项集合关联规则集的挖掘,利用挖掘的关联规则集进行用户间的相似度计算,相比于pearson相似等方法,基于关联规则集相似可以提高改进算法对噪音数据的抵抗力,最后进行最近邻居集计算并产生更适合用户的推荐结果.改进算法和传统算法在MovieLens数据集上的实验表明,基于Apriori算法的协同过滤算法较传统算法进一步提高了推荐准度和覆盖率. 相似文献
8.
新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68%和81.13%,与现有方法相比,F1值分别提高了8.66%和2.21%。 相似文献
9.
基于最小编辑距离的维语词语检错与纠错研究 总被引:2,自引:1,他引:2
拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimum edit distance)算法实现了维吾尔语文本拼写错误分析中的查错和纠错功能,并以此为基础,结合维吾尔语构词规则,进一步提高了建议候选词的准确率和速度。该算法已被成功地应用到了维吾尔语文字自动校对和多文种文本检索等领域中。在以新疆高校学报为语料的测试中,词语查纠率达到 85%以上。 相似文献
10.
11.
12.
基于HMM的满文文本识别后处理的研究 总被引:1,自引:0,他引:1
将满文单词识别系统的识别信息和满文的词组信息有机的结合起来,建立满文词组和待定词集统计信息库,采用基于统计的隐马尔可夫模型的方法,依据贝叶斯准则,综合满文待定词的后验概率和词组的先验概率信息,建立合理有效便于实现的数据结构,采用动态规划法对满文单词识别系统输出存在的拒识词和错识词进行检测和纠正,从而有效的提高满文文本识别系统的识别率。实验表明:后处理性能除取决于语言模型外,还取决于概率的精确估计。另外,在单词识别系统识别率高的情况下,后处理的纠错能力会增强。 相似文献
13.
在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使用改进的TNG模型构建一个特征扩展库并对特征进行扩展,该扩展库不仅可以推断单词分布,还可以推断每个主题文本的短语分布;然后根据短文本中的原始特征,计算这些文本的主题倾向,根据主题倾向,从特征扩展库中选择适当的候选词和短语,并将这些候选词和短语放入原始文本中;最后运用MLFM-MN算法对这些扩展的原始文本对象进行分类,并使用精确率、召回率和F1分数来评估分类效果。实验结果表明,本文提出的新型分类算法能够显著提高文本的分类性能。 相似文献
14.
15.
文章针对列表类自动问题回答的任务要求,提出了一种基于短语检索和答案距离排序模型的列表类问题回答的方法。该短语检索模型在传统的TF/IDF检索模型上进行改进,提出了利用不同长度短语作为查询词的检索方法,能够返回更多包含正确答案的相关文档;答案的距离排序模型则利用答案与上下文词之间的距离作为排序的依据对答案列表进行排序,可以提高正确答案的排名。这两种模型地提出在一定程度上解决了如何在返回尽可能多的答案的同时保证答案质量的问题。实验结果表明利用这两种模型的列表类问题回答方法对系统的性能有显著提高。 相似文献
16.
17.
基于购物网站用户搜索日志的商品词发现 总被引:1,自引:0,他引:1
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,对查询进行分词,采用N元递增分步算法和串频统计,计算候选串的条件概率,选择候选商品词。为了降低人工审核的成本,只对产出商品词的准确率进行评价。利用该方法在手机、面霜和香水三类商品的搜索日志上进行了实验,最高准确率达到92.58%。 相似文献
18.
Chinese word segmentation is a difficult and challenging job because Chinese has no white space to mark word boundaries. Its result largely depends on the quality of the segmentation dictionary. Many domain phrases are cut into single words for they are not contained in the general dictionary. This paper demonstrates a Chinese domain phrase identification algorithm based on atomic word formation. First, atomic word formation algorithm is used to extract candidate strings from corpus after pretreatment. These extracted strings are stored as the candidate domain phrase set. Second, a lot of strategies such as repeated substring screening, part of speech (POS) combination filtering, and prefix and suffix filtering and so on are used to filter the candidate domain phrases. Third, a domain phrase refining method is used to determine whether a string is a domain phrase or not by calculating the domain relevance of this string. Finally, sort all the identified strings and then export them to users. With the help of morphological rules, this method uses the combination of statistical information and rules instead of corpus machine learning. Experiments proved that this method can obtain better results than traditional n-gram methods. 相似文献
19.
中文句子评价对象抽取是指在中文句子中抽取评论所针对的对象或对象的属性。目前国内相关研究工作尚未能有效识别复合词评价对象和未登陆评价对象。针对以上两种情况,该文提出了一种基于层叠条件随机场的中文句子评价对象抽取方法。该方法首先通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。实验结果显示,与基于线性链条件随机场的识别方法相比,该方法准确率、召回率和F1值分别提升1.62%、5.75%和4.17%,能有效地识别复合词评价对象和未登录评价对象,从而提高中文句子评价对象的识别精度。 相似文献
20.
当前的影响力分析算法大多基于网络拓扑结构或用户交互信息,然而单一方面的方法会使挖掘结果出现较大的偏差,目前缺乏全面准确的影响力挖掘方法。本文通过对传统PageRank算法进行扩展,提出一种面向新浪微博的基于用户交互度连接属性的TCRank算法;其次设计了3种微博意见领袖特征指标,并对其加权求和用于意见领袖候选集的精化操作;同时提出一种基于卷积神经网络模型的情感支持度的意见领袖抽取算法,对意见领袖候选集进行最终排名。最后,通过实验验证所提出算法的有效性。 相似文献