首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 70 毫秒
1.
针对文本信息的分类问题,提出正向最大匹配分词算法与自组织映射神经网络融合算法(MMSOM)。利用正向最大匹配分词算法对文本信息进行自动提取,设定关键词信息规范框架,将规范化后的文本信息量化结果作为神经网络输入,结合文本分词结果,实现分类对象信息提取与分类的自动化。将该算法应用于藻类水华领域专家分类问题,分类结果表明了算法的可行性和有效性。  相似文献   

2.
中医方剂是中医药信息的核心内容,借助现代化的工具和手段是处理信息中医药研究的新趋势。在数量逾十万的方剂中,许多方剂之间存在着相似性,一些方剂是在基本方的基础上进行增加或修改形成,研究方剂的相似性有重要意义。定义了相似度的概念,利用自然语言处理领域的知识,基于文本分类算法,计算方剂相似度,为研究中医方剂提供有用信息。  相似文献   

3.
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题, 本文采取了相关改进方法. 首先在分词阶段采用基于词频统计的重复词串提取算法, 保留地质专业名词以准确提取文本主题, 同时减少冗余词串数量节约内存花销, 提升保留词的提取效率. 另外, 使用基于TF-IDF和词向量的文本数据增强算法, 对原始分词语料进行处理以强化文本主题特征. 之后该算法与主题模型相结合在处理后的语料上提取语料主题. 由于模型的先验信息得到增强, 故性能得以提高. 实验结果表明本文算法与LDA模型相结合的方法表现较好, 在相关指标及输出结果上均优于其他方法.  相似文献   

4.
一种基于语义匹配的Web信息提取方法研究   总被引:1,自引:0,他引:1  
为了较好地解决信息过量难以消化、汉语词的歧义划分、Web信息形式不一致并且难以辨识的问题,文章提出了一种基于语义匹配的Web信息提取方法。该方法融合了网页分类、汉语分词、语义信息匹配方法,并给出了一种义素相似度,进而提出了一种基于语义的信息匹配方法来识别和提取网页信息项。基于这种Web信息提取方法的网上药品信息监管系统Web-MIND能够提取出网上药品广告的信息项,并具有较高的准确率。  相似文献   

5.
一种基于提取上下文信息的分词算法   总被引:8,自引:0,他引:8  
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。  相似文献   

6.
针对中医药方剂信息的特点提出了一种新型的方剂概念模型,并利用机器学习理论对非结构化的文本特征以及其内容组织形式加以学习,得到方剂概念的抽取模式。该模式学习的方法有效地解决了方剂非结构化文本抽取的难题,被用于中美百万册数字图书馆的方剂文本处理。而对抽取的方剂属性信息作聚类,则发掘了不同方剂药性药效间的联系,为中医药方剂查询模块提供推荐服务。  相似文献   

7.
许高建  胡学钢  王庆人 《微机发展》2007,17(12):122-124
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

8.
为了解决中医药方剂相似度无法定量化和方剂组成成分互相干扰问题,提出了一种基于信任模型的中医药方剂相似度的计算方法,通过方剂自身交互经验,计算不同方剂直接信任值,同时依靠两种方剂间的推荐信息来获得第三种方剂信任程度,凭借所得信息计算推荐信任值,使用直接信任值与推荐信任值构建综合信任模型,对信任值较高的方剂与其它信任值较高的方剂交互,确定方剂组成成分分布,利用多变量普遍化分布描述交互方剂,得到组成成分分布规范化因子,构建方剂、证型、组成成分关联,并将该关联存放至信任模型内,依靠信任模型对方剂—证型、方剂—组成成分进行相似度计算.仿真结果证明,所提方法能够更为精确识别方剂之间含有的组成成分,并且不会因为成分重复记录较大,导致计算结果出现误差.  相似文献   

9.
周永英 《自动化技术与应用》2021,40(11):127-130,135
为提升英文语料库分词精准度,以英文语料库作为研究对象,采用改进的K-SVD算法,构建一个分词特征提取模型.利用稀疏编码与字典更新两个步骤,将初始数据替换为更高级别的特征表示,作为K-SVD算法输入项来获取最优字典.基于模型开发平台,采用文本预处理模块、文本网络构建模块、特征提取模块以及特征加权模块,构建英文语料库分词特征提取模型.选取近十年的新闻素材作为英文语料库,组成训练集,根据分词特征提取结果与提取效果度量指标数据,验证所建模型具有语义辨别与文本还原的有效性,且准确率与召回率也有显著优越性.  相似文献   

10.
互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号