首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 221 毫秒
1.
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。  相似文献   

2.
针对中文同一个词的不同词性在句子中所代表的关系不同的问题,提出基于Transformer融合词性特征的中文语法纠错(CGEC)模型,所提模型将语言学知识作为辅助信息融入中文语法纠错任务。首先,在不改变句子序列长度的基础上,在原始词嵌入层中以不同方式拼接词性向量,得到全差异词嵌入、词差异词嵌入和词性差异词嵌入三种不同的词嵌入方式;然后,将新的词嵌入方式与Transformer模型相结合,对错误语句进行语法纠错。实验结果表明,三种词嵌入方式均不同程度地提高了F0.5值,且全差异词嵌入方式的效果最好:与Transformer模型相比,F0.5提升了2.73个百分点,BLEU提升了6.27个百分点;与基于Transformer增强架构的中文语法纠错模型相比,F0.5提升了1.88个百分点。所提模型在对词性特征提取时可以侧重源语句与目标语句的语法差异,更好地捕捉句子的语法特征。  相似文献   

3.
许静芳  李星  李粤 《计算机工程》2005,31(21):143-145
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。  相似文献   

4.
利用搜索日志中查询串自身信息和用户点击信息,提出了双层模型识别领域查询串的方法。第一层模型采用贝叶斯法则和词典相结合的方法对查询串进行识别;针对搜索日志查询串内容简短、信息量少的特点,提出基于域名可信度的第二层识别模型。在搜狗2012版用户查询日志上对双层模型进行了开放测试,召回率和准确率分别达到了85.2%和94.6%,实验结果表明了该方法的有效性。  相似文献   

5.
中文拼写纠错是一项检测和纠正文本中拼写错误的任务。大多数中文拼写错误是在语义、读音或字形上相似的字符被误用,因此常见的做法是对不同模态提取特征进行建模。但将不同特征直接融合或是利用固定权重进行求和,使得不同模态信息之间的重要性关系被忽略以及模型在识别错误时会出现偏差,阻止了模型以有效的方式学习。为此,提出了一种新的模型以改善这个问题,称为基于文本序列错误概率和中文拼写错误概率融合的汉语纠错算法。该方法使用文本序列错误概率作为动态权重、中文常见拼写错误概率作为固定权重,对语义、读音和字形信息进行了高效融合。模型能够合理控制不同模态信息流入混合模态表示,更加针对错误发生处进行学习。在SIGHAN基准上进行的实验表明,所提模型的各项评估分数在不同数据集上均有提升,这验证了该算法的可行性。  相似文献   

6.
编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。  相似文献   

7.
中文纠错属于自然语言处理的基础任务,考虑到现有方法纠错性能偏低,无法满足实际的纠错需求,提出了一种融合MacBERT和Kenlm的中文纠错方法。在公开数据集上的实验结果表明,该方法的精确率、召回率和F1值分别达到了78.2%、72.7%、75.3%。尤其是F1值比基线方法提升了3.6个百分点,充分证明了所提方法的有效性。  相似文献   

8.
阐述了在中文文本校错系统研究和实现过程中 ,面向文本错误查找与纠错建议产生的语言知识获取及知识库构建的思想及其实现算法 .针对数据稀疏问题探讨了查错知识库的存取技术 ,针对不同错误源 ,重点研究了相似码词典、字驱动双向词典和骨架键词典的构造方法 .基于所构建的知识库而实现的中文文本校错系统 ,其查错的召回率和精确率以及纠错建议的有效率都得到很大的提高  相似文献   

9.
网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。  相似文献   

10.
在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取.针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM.首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN...  相似文献   

11.
针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一种新的词典构造方法并设计了相应的双向最大匹配算法,同时在算法中加入了互信息歧义处理模块来处理分词中出现的交集型歧义。该算法可以在分词的过程中显著提高分词的精确度,适用于对词语切分精度要求较高的中文语言处理系统。  相似文献   

12.
一种基于字词结合的汉字识别上下文处理新方法   总被引:6,自引:0,他引:6  
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。  相似文献   

13.
基于自然语言理解的SPARQL本体查询   总被引:1,自引:0,他引:1  
张宗仁  杨天奇 《计算机应用》2010,30(12):3397-3400
为了用户能够方便地获取本体知识,提出了基于自然语言理解的SPARQL本体查询。利用Stanford Parser分析用户的自然语言查询,根据语法构建查询三元组,与关键词的方法相比,有效地减少了组合的个数。结合用户词典,能较准确地把查询三元组的词汇映射到本体实体。分值计算时除了考虑词语的形式相似和语义相似外,还考虑了概念的模糊性,尽量返回具体的概念。利用本体推理获取隐藏在本体中的信息,对查询进行过滤和限制,提高了准确率。用户通过图形交互界面和系统进行交互,选择需要的结果,最后返回树形查询结果,并能看到相关的信息。实验结果表明,该方法达到了预期的效果。  相似文献   

14.
基于Hash结构的逆向最大匹配分词算法的改进   总被引:8,自引:1,他引:7  
分析中文的语义,首先要对句子进行分词.中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果.对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM).该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义.实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高.  相似文献   

15.
本文提出了站点热度函数概念与相关的查询设计要点。设计一种基于Intetnet环境下的提高站点热度的数据库查询模型,并给出了该模型方案下将模糊查询与超媒体存取相结合的实现方法。  相似文献   

16.
在中英语料下复现Facebook提出的无监督神经机器翻译方法时,我们发现模型出现了退化现象。该文分析了退化的可能原因并提出三种简单方法来抑制模型退化。方法一,遮蔽非目标语输出;方法二,双语词典逐词翻译退化译文;方法三,在训练过程中,添加10万句对的平行语料。结果显示,三种方法都能有效抑制模型退化。在无监督条件下,方法二的性能更好,BLEU值为7.87;在10万语料的低资源条件下,方法一效果更好,BLEU值为14.28,该文还分析了产生此现象的原因。  相似文献   

17.
当前主流的中文分词方法是基于字标注的传统机器学习的方法。但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且仅利用CPU训练模型时间长的缺点。针对以上问题,进行了研究提出基于LSTM(Long Short-Term Memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比,结果表明:基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理(NLP)中序列标注的任务。  相似文献   

18.
在传统的分布式操作系统灾备处理过程的基础上,结合已有分布式跨边界片段连接优化方法,提出基于空间片段拓扑连接优化的关系代数转换原则,通过利用等价转换规则,进一步简化经过数据本地化处理后的查询树。然后引入连接归并树和执行计划树等概念,并利用相应归并和优化算法将全局空间查询转化为各个场地局部空间数据库的具体执行计划。  相似文献   

19.
朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向量训练模型KWSE,用于获取包含语义及分写倾向性信息的字符向量。其次,将朝鲜语分写增强字符向量与LSTM-CRF模型结合,完成朝鲜语自动分写任务。实验结果表明该方法的单词级分写F1值为92.86%,优于其他方法。  相似文献   

20.
基于词典的汉藏句子对齐研究与实现   总被引:1,自引:0,他引:1  
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为 81.11%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号