共查询到17条相似文献,搜索用时 62 毫秒
1.
一种基于语义分析的中文特征值提取方法 总被引:3,自引:2,他引:3
文章根据中文文本的特点,不仅考虑了文本中词汇概率信息,还结合了文本语义等多方面来提取文本特征值,从而提出了一种基于语义分析的中文文本特征值提取方法,并给出了具体算法。通过与传统特征值提取方法的比较试验,证明文中提出的特征值提取方法能有效提高文本分类正确率,并达到有效降低特征向量维数的目的。 相似文献
2.
郑海燕 《自动化技术与应用》2023,(11):95-97
提出一种基于多重启发式规则的英文特征值提取算法。该算法从概率论和英语语义两个层面引入了词频启发式规则、集中度启发式规则、同义启发式规则、同源启发式规则等特征值提取手段,阐述各种启发规则下的数据处理方法以及特征值提取算法具体流程,并将所提出的基于多重启发式规则的英文特征值提取算法与基于词频的常规算法进行对比,取得了较为理想的特征值提取效果。 相似文献
3.
NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论. 相似文献
4.
利用电子邮件的特点提出了一种面向电子邮件分类处理的特征值提取方法。本方法根据电子邮件文法随意性的特点,利用模糊集合对其同义词和多义现象都进行了处理,使得所得到的特征值能更好的契合文本的特点。通过与其它特征值提取方法的比较实验,以及在不同分类算法中应用实验结果都证明文中提出的特征值提取方法能够提高电子邮件分类处理的正确率,并达到有效降低特征向量维数的目的。 相似文献
5.
付敏戴祖旭 《计算机与数字工程》2014,(2):220-222
在文本特征值的信息隐藏过程中,特征值是一个句子固有的属性,具有随机性.通过分析特征值之间的相关关系,找出其分布变化规律,才能控制其变化,以实现更好的信息隐藏.针对文本信息,首先在VC平台下设计出自动的特征值提取算法,然后利用SPSS统计软件统计分析了文本的特征值.实验结果表明该算法的统计分析给出了有效的特征值数据. 相似文献
6.
本文针对垂直搜索引擎对中文文本关键词提取方法的需要,提出一种基于统计的行业中文文本关键词提取方法。该方法是将词语的位置信息、词跨度信息等指标融入到传统的基于统计特征的关键词提取方法之中,并采用一些方法对指标的权重进行校准,以达到垂直搜索引擎需要的提取的准确率和效率。实验表明,该方法能够有效提高对行业文本的关键词提取的准确率,具有良好的时间效率和稳定性。 相似文献
7.
本文主要研究关键词提取算法,在分析可能影响关键词提取的词语各种属性并将其量化的基础上,提出并实现了一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。 相似文献
8.
自然语言处理技术在文本分类、文本纠错等任务中表现出强大性能,但容易受到对抗样本的影响,导致深度学习模型的分类准确性下降。防御对抗性攻击是对模型进行对抗性训练,然而对抗性训练需要大量高质量的对抗样本数据。针对目前中文对抗样本相对缺乏的现状,提出一种可探测黑盒的对抗样本生成方法 WordIllusion。在数据处理与计算模块中,数据在删除标点符号后输入文本分类模型得到分类置信度,再将分类置信度输入CKSFM计算函数,通过计算比较cksf值选出句子中的关键词。在关键词替换模块中,利用字形嵌入空间和同音字库中的相似词语替换关键词并构建对抗样本候选序列,再将序列重新输入数据处理与计算模块计算cksf值,最终选择cksf值最高的数据作为最终生成的对抗样本。实验结果表明,WordIllusion方法生成的对抗样本在多数深度学习模型上的攻击成功率高于基线方法,在新闻分类场景的DPCNN模型上相比于CWordAttack方法最多高出41.73个百分点,且生成的对抗样本与原始文本相似度很高,具有较强的欺骗性与泛化性。 相似文献
9.
10.
启发式相关文本提取技术研究 总被引:2,自引:0,他引:2
随着WEB上图片资源的日益丰富,人们对WEB图片检索的需求也日趋强烈,基于文本检索WEB图片,是人们当前检索WEB图片的主要手段,其中,提取图片的相关文本是实现基于文本的图片检索的基础,现有的相关文本提取技术对WEB的复杂性理解不够,使用固定的模式提取文本,常常以偏概全,提取效果不佳.本文进一步明确了相关文本的概念,使用启发式提取方法,让系统更智能地提取相关文本,实验表明,该技术能提取到绝大部分的相关文本,并且所提取的文本与图片的相关度也很高. 相似文献
11.
无人驾驶汽车的测试技术主要是通过虚拟测试和场地测试的方法来检测无人驾驶汽车的智能化水平,通过不断的学习和总结经验来提高无人驾驶的安全性,这种方法耗费大量的人力物力以及时间。为此,从文本的角度出发,利用驾驶行为相关文本,通过NLP技术和基于规则的方法构建一个无人驾驶规则库,依据这个规则库来辅助测试无人驾驶汽车能否满足道路安全要求。实验结果表明,对《中华人民共和国道路交通安全法实施条例》处理后规则提取的正确率为89.85%,驾考题库文本的正确率为87.33%。 相似文献
12.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。 相似文献
13.
14.
Learning Information Extraction Rules for Semi-Structured and Free Text 总被引:47,自引:0,他引:47
A wealth of on-line text information can be made available to automatic processing by information extraction (IE) systems. Each IE application needs a separate set of rules tuned to the domain and writing style. WHISK helps to overcome this knowledge-engineering bottleneck by learning text extraction rules automatically.WHISK is designed to handle text styles ranging from highly structured to free text, including text that is neither rigidly formatted nor composed of grammatical sentences. Such semi-structured text has largely been beyond the scope of previous systems. When used in conjunction with a syntactic analyzer and semantic tagging, WHISK can also handle extraction from free text such as news stories. 相似文献
15.
日志事件提取指将非结构化的日志消息解析为系统中对应的事件,是多数日志分析中必不可少的前置工作.传统的日志事件提取以批处理方法为主,需要等待所有日志数据到达再进行处理,实时性不佳.能够进行实时日志采集并处理的流处理方法逐渐成为主要研究方向,但已有的流处理方法在解析模型的构建方面存在缺陷,准确性不够高.针对上述问题,提出了... 相似文献
16.
一种基于字同现频率的汉语文本主题抽取方法 总被引:24,自引:0,他引:24
主题抽取是文本自动处理的基础工作之一,而主题的抽取一直以分词或者抽词作为第1步.由于汉语词间缺少明显的间隔,因此分词和抽词的效果往往不够理想,从而在一定程度上影响了主题抽取的质量.提出以字为处理单位,基于字同现领率的汉语文本主题自动抽取的新方法.该方法速度快,适应多种文体类型,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于其他语言的文本主题抽取.主题句自动抽取实验表明,该方法抽取新闻文本主题句的正确率达到77.19%.汉语文本的主题抽取比较实验还表明,省略分词步骤并没有降低抽取算法的正确率. 相似文献
17.
基于语料库的字母词语自动提取研究 总被引:5,自引:1,他引:5
目前,很多最新的术语和专有名词,首先以字母词语的形式出现在汉语中,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词,其正确识别,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上,分析了字母词语组成情况的复杂特征和自动识别的难点,结合字母词语的各种统计特征和其独有的特点———字母串“锚点”,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单,但有效。召回率为100 % ,准确率在80 %以上。 相似文献