首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在语音识别和合成中文本分析是很重要的,文本分词是文本分析正确与否的基础。目前语音合成系统中的分词一般是基于词典分析建立的,对于多音字易产生错误。文章基于数据挖掘中的关联规则的发现方法对文本分词中词语的关联关系进行研究,通过文本数据的文本特征及语音特征描述的有机结合,获取词语自身属性的关联关系,最后进行了实例测评。  相似文献   

2.
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进一步文本处理的准确性.近年来随着微博平台、直播平台、朋友圈等自由舆情平台的兴起,大量不规范使用的舆情文本尤其是不断出现的新词给分词结果的准确性带来了巨大的挑战,新词发现成为分词算法必须解决的问题.为解决在新词发现过程中,新词整体数据体量小、新词用法灵活以及过度合并词语易形成短语块等问题,本文提出了结合关联置信度与结巴分词的新词发现算法,该算法以结巴分词的初步分词结果为基础,通过计算词语与其左右邻接词集中各个词语之间的关联置信度,将被错误拆分的词语合并成候选新词,并通过切分连接词以防止多个词语被连接成短语的情况出现.以微博言论数据进行测试的实验表明,相比于其它基于置信度的分词方法结果,本文提出的算法可以大幅度提升发现新词尤其是命名实体、网络用语的准确率,在确保新词语义完整的前提下降低新词长度,并且在少量测试语料的情境下,本文提出的算法对低频新词依然具有识别能力.  相似文献   

3.
目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。  相似文献   

4.
中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高.  相似文献   

5.
基于规则与统计相结合的中文文本自动查错模型与算法   总被引:7,自引:0,他引:7  
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。  相似文献   

6.
互联网中存在海量易获取的自然语言形式地址描述文本,其中蕴含丰富的空间信息。针对其非结构化特点,提出了自动提取中文自然语言地址描述中词语和句法信息的方法,以便深度挖掘空间知识。首先,根据地址语料中字串共现的统计规律设计一种不依赖地名词典的中文分词算法,并利用在地址文本中起指示、限定作用的常见词语组成的预定义词表改善分词效果及辅助词性标注。分词完成后,定义能够表达中文地址描述常用句法的有限状态机模型,进而利用其自动匹配与识别地址文本的句法结构。最后,基于大规模真实语料的统计分词及句法识别实验表明了该方法的可用性及有效性。  相似文献   

7.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容.  相似文献   

8.
提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA).该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语.实验结果显示,BPFA能够有效提高分词结果的查准率和查全率.该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等.  相似文献   

9.
使用概念基元特征进行自动文本分类   总被引:2,自引:0,他引:2  
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。  相似文献   

10.
许高建  胡学钢  王庆人 《微机发展》2007,17(12):122-124
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

11.
杨有  余萍  尚晋 《计算机科学》2008,35(5):243-245
通过对图像进行Fourier分析,获取能够表达图像纹理的能量谱,进而定义能量谱的环特征和楔特征.环特征可以描述纹理的粗细,楔特征可以描述纹理的方向,以这两个特征值作为边缘检测模板选择的依据,使边缘检测具有纹理自适应能力.实验表明,该算法边缘检测精确,抗干扰能力强.  相似文献   

12.
基于保局投影的相关反馈算法   总被引:1,自引:0,他引:1  
在原有保局投影算法中引入用户反馈,用其更新构建降维映射的特征向量,从而得到一个更能够反映语义属性的图像表示子空间.该算法利用用户反馈迅速优化图像表示,使它具有长期学习的能力.实验结果表明:该算法可以提高检索的准确度,而且在经过长期学习后可以获得一个近似最优的图像降维子空间.  相似文献   

13.
ASIC可以采用全定制和半定制的方法加以实现,采用FPGA来进行ASIC的可测试设计,可以很大程度上节约ASIC设计的成本.本文介绍了一种基于FPGA实现的DDS信号源的ASIC的设计方案,它可以灵活地输出任意波形,并可以较方便地改变波形的频率和相位.该方案可以嵌入到采用FPGA芯片实现的仪器仪表中,具有结构简单、功能强大、性价比高的特点,稍加改动可适用于许多仪器仪表系统中,具有很好的可移植性.  相似文献   

14.
楼宇智能微网采用一个多输入直流变换器,代替多个单输入直流变换器,实现风光水储能量汇集,简化电路,降低成本,提高能源综合利用率。它优先利用分布式能源,并能根据大电网动态引导电价移峰填谷,降低楼宇总电费,还利用储能装置和抽水储能赚取电网峰谷差价。多种分布式能源单独/同时连续供给负荷,增加新能源消纳能力,提高自动需求响应的快速性、可靠性和灵活性。小功率仿真实验验证了多源能量汇集的可行性和混合供电系统的稳定性。  相似文献   

15.
在多媒体教学软件中嵌入虚拟场景可以实现生动教学的目的。采用AutoCAD2000三维建模技术建立对象的三维模型,然后利用3DMAXR3.0对三维模型进行渲染和动画制作,最后通过程序生成虚拟场景。嵌入虚拟场景的多媒体教学软件更具生动性、直观性,可以达到身临其境的效果。  相似文献   

16.
Visual Basic 6.0中浏览器控件的重要方法和重要事件,利用该控件设计了一个具有可装入页面,可返回上一个页面、可进入下一个页面、可刷新页面、可搜索网页或站点的浏览器,该浏览器短小精悍,代码精练,可方便地嵌入到应用程序中,增强应用软件的网络功能。  相似文献   

17.
H.323信令与媒体流穿越NAT的通用方法   总被引:1,自引:0,他引:1  
针对NAT对H.323通信造成的困难,提出了一种通用的穿越NAT的方案,此种方案针对所有类型的NAT,不需要修改NAT,只对H.323作小的修改,使处于NAT后的任意H.323终端都能自由通信,并尽可能地保证媒体流数据能直接送达对方,保证语言、视频质量,做到大容量。  相似文献   

18.
为了快速和准确地鉴别有关人员的身份,开发一个指纹和语音自动识别系统。该系统通过采集指纹图像和语音信号,采用参考模型和相似度计算分别实现了指纹和语音识别。实验结果表明该系统不仅能自动地识别指纹和语音,而且还能实时地将识别结果与指纹和语音数据库进行比对,从而迅速地获得被识别人员的身份信息。该系统在监控出入境关口、机场车站、机关大院、住宅小区、以及刑事侦察等场合有着广泛的应用前景。  相似文献   

19.
将门限签名体制引入到多代理多签名方案中,首次提出了一个门限多代理多签名方案.新方案不仅能实现多个原始签名人将签名权委托给多个代理签名人,还能将每个代理人的密钥进行分享,实现一定数量的原始签名人就能授权,一定数量的代理签名人就能产生有效的代理签名.另外,新方案还可以控制代理签名的有效时间和回收代理签名权.  相似文献   

20.
MIS系统中信息群的发掘与实现   总被引:1,自引:0,他引:1  
基于软件重用的思想,在带有平台性质的MIS系统中设定和使用主码、外码,充分挖掘数据间的关系,从主码和外码两条线上追踪数据,破除物理表的局限性,将管理信息系统中的相关信息整合起来,从中动态抽取出“上卷信息集”和“下钻信息集”,从而组成“信息群”,消除了软件系统中的“信息孤岛”,保证了管理信息系统中的信息的逻辑整体性,也确保了系统内的信息流动畅通无阻,使用户可以轻松地进行“信息漫游”,从而有力提升管理信息系统的可用性和使用效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号