首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于相似度的词聚类算法   总被引:1,自引:1,他引:0  
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了词相似度定义、词集合相似度定义,一种自下而上的分层聚类算法.这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,从而提高聚类的使用效果.  相似文献   

2.
袁里驰 《电子学报》2013,41(7):1337-1342
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.  相似文献   

3.
张仰森  段宇翔  王建  吴云芳 《电子学报》2019,47(9):1919-1928
近年来,各领域内频频发生各类突发事件,对社会稳定发展产生了一定程度的影响.本文提出了一种基于多种词特征的微博突发事件检测模型,可以在海量微博数据中对突发事件进行检测,便于相关决策者进行微博监控和舆论引导,尽可能减少突发事件给社会带来的危害.首先根据时间信息对微博数据进行时间切片,对每一个时间窗口内的数据分别计算各个词语的词频特征、话题标签特征和词频增长率特征;然后基于D-S证据理论和层次分析法,确定词的各个特征权重,并进行加权融合得到词的突发特征值,将突发特征值大的词挑选出来构成突发特征词集,构建基于共现度和结合紧密度的突发事件特征词集的耦合度矩阵;最后将该耦合度矩阵作为凝聚式层次聚类算法的输入,生成一棵由突发词为叶子节点的二叉树,并采用内部相似度的二叉树剪枝算法对聚类结果进行划分,即可实现对相应时间窗口突发事件的检测.实验结果表明,基于突发词的事件检测模型在簇内部相似度阈值等于1.1时效果最好,正确率达到0.8462、召回率达到0.8684、F值为0.8571,表明了本文所提方法的有效性.  相似文献   

4.
基于后缀树词序列核挖掘Web文档   总被引:1,自引:1,他引:0  
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核.首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类.理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间.在reuters21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用.  相似文献   

5.
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。  相似文献   

6.
由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。  相似文献   

7.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

8.
针对迁移聚类问题,该文提出一种新的基于Kullback-Leiber距离的迁移仿射聚类算法(TAP_KL)。该算法从概率角度重新解释AP算法的目标函数,并借助于信息论中最常见的一种距离度量,即Kullback-Leiber距离,测量源域与目标域代表点的相似性。另外,通过详细分析TAP_KL算法与AP算法的目标函数,得出一个重要结论,即可以将源域与目标域的相似性嵌入到目标域数据集相似性矩阵的计算中,从而直接利用AP算法的优化算法优化TAP_KL算法的目标函数,解决基于代表点的迁移聚类问题。最后,通过基于4个数据集的仿真实验,进一步验证了TAP_KL算法在解决迁移聚类问题时的有效性。  相似文献   

9.
孙广路  王晓龙  刘秉权  关毅 《电子学报》2008,36(12):2450-2453
 提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.  相似文献   

10.
 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用GloVe(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了202%,同时语音识别系统的词错误率降低了183%。   相似文献   

11.
基于本体的概念语义相似度计算及其应用   总被引:7,自引:4,他引:3  
概念的语义相似度计算是自然语言处理研究的重要组成部分,也是人工智能应用中亟待解决的问题.本体作为共享概念模型的明确的形式化的规范说明,给概念语义相似度的计算带来了新的生机,从而提出了一种基于本体的计算概念间语义相似度的方法,综合考虑了语义距离、节点深度和节点密度的影响,并加入了一个可调节的参数,以适应不同场景下的灵活应用,最后简单介绍了语义相似度在搜索引擎领域的应用.  相似文献   

12.
潘博  于重重  张青川  徐世璇  曹帅 《电子学报》2018,46(8):1976-1982
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性.  相似文献   

13.
This paper focuses on the task of human-object interaction (HOI) recognition, which aims to classify the interaction between human and objects. It is a challenging task partially due to the extremely imbalanced data among classes. To solve this problem, we propose a language-guided graph parsing attention network (LG-GPAN) that makes use of the word distribution in language to guide the classification in vision. We first associate each HOI class name with a word embedding vector in language and then all the vectors can construct a language space specified for HOI recognition. Simultaneously, the visual feature is extracted from the inputs via the proposed graph parsing attention network (GPAN) for better visual representation. The visual feature is then transformed into the linguistic one in language space. Finally, the output score is obtained via measuring the distance between the linguistic feature and the word embedding of classes in language space. Experimental results on the popular CAD-120 and V-COCO datasets validate our design choice and demonstrate its superior performance in comparison to the state-of-the-art.  相似文献   

14.
该文针对协议类型未知条件下非等帧长同步字的盲识别问题,提出一种基于多重分形谱的同步字盲识别算法。首先,在定义有偏性的基础上,通过分析比较协议帧、同步字和信息段中0, 1的概率分布,得出协议帧的有偏性小于同步字的结论。然后,利用上述结论并结合多重分形谱具有描述有偏性分布的特点,通过比较删减前后待识别序列多重分形谱宽度的变化实现信息段的有效删减,达到提高同步字浓度的目的。最后,在计算完成删减的序列中固定长度比特串浓度值分布的基础上,实现了同步字的准确识别。仿真试验验证了所提算法的有效性,表明其具有一定的工程应用价值。  相似文献   

15.
提出了基于两阶段查询重写的XML近似查询算法.该算法不仅能够返回精确查询结果,而且能够返回带有相似度分值的近似结果序列.首先,通过模式重写策略,将原始查询树改写为多种XML DTD(文档类型定义)下的重写查询树,从而解决了XML数据的多样性带来的查询语义缺失问题,接着,利用基本变异操作得到的变异查询树对XML数据树完成精确嵌入,可将XML近似查询的问题转变为多棵变异查询树的精确查询问题,并给出了基于XML数据统计的相似度计算模型和Top-K问题求解的优化算法.最后,在汽车外形智能化设计的实验中表明该算法优于SSO算法.  相似文献   

16.
为了在Word中插入数学函数图像图形,需要掌握几个格式简单、功能强大的Matlab绘图命令函数,给出一种基于Matlab在Word中插入数学函数图像图形的方法。Matlab提供了丰富的函数命令,安装Matlab软件后,再在Word里安装一个称之为"M-book.dot"的模板文档。用"M-book.dot"模板创建Word文档,把Matlab的几个绘图函数语句及NoteBook与Word结合,定义直接在Word文档中可以执行的"输入单元"而插入数学函数图像图形。经实际运用,该方法可以精准、快捷、方便地在Word中插入任意一个数学函数图像图形,即使没有学过计算机语言的人,也很容易掌握。  相似文献   

17.
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。  相似文献   

18.
该文提出一种基于人工免疫的同步字识别算法,解决了无线网络链路层协议帧同步字的识别问题。算法在定义相关概念的基础上,通过对已知协议类型文件集脱氧核苷酸(ODN)浓度的计算,得到了相关协议的同步字脱氧核苷酸库;然后,利用得到的同步字脱氧核苷酸库与相关文件集进行连续一致匹配,生成同步字检测基因库;最后,利用得到的同步字脱氧核苷酸库和同步字检测基因库,通过连续一致匹配和基因相似度值的计算,实现了同步字的准确识别。仿真实验验证了算法的有效性,与已有的模式串匹配算法相比,所提算法的鲁棒性较好,具有一定的工程应用价值。  相似文献   

19.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。  相似文献   

20.
基于信息增益改进贝叶斯模型的汉语词义消歧   总被引:2,自引:0,他引:2  
词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号