首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 140 毫秒
1.
针对中文微博垃圾特点,提取基于向量空间模型的中文文本相似度、长短链接相似度、发文时间规律等新的分类特征,加入现有的特征集,运用支持向量机方法,训练后得到分类模型.实验结果表明,该方法是一种有效的垃圾微博识别技术.  相似文献   

2.
介绍WWW搜索引擎的分类特点和几种重要中文搜索引擎,以及应用中文搜索引擎全面、准确、快速、有效地进行中文信息检索的技巧.  相似文献   

3.
针对水稻病虫害知识图谱构建所需实体和关系,提出了一种基于FastBert模型的中文实体关系抽取方法. 首先,在中文语料收集的基础上,使用Hanlp工具和农业词典提取了与水稻病虫害相关的领域实体,并依据实体间关系的特点定义了病虫害别名、为害部位、为害地区、防治方法等7种类型. 然后,在词嵌入和句子嵌入的基础上通过FastBert模型实现水稻病虫害关系的抽取. 该模型与Robert、Electra、Distilbert等其它Bert相关模型的关系抽取结果比较显示,基于FastBert模型的中文水稻病虫害关系抽取效果更好,模型获得的实体间关系F1值达0.72,模型精度达0.69. 该方法为中文农业病虫害知识图谱的自动化构建提供了参考.  相似文献   

4.
通过对中文互联网的信息内容特点和信息提取难点的分析,阐述了基于现有搜索引擎进行互联网汉语近似网络词频的提取方法,并对汉语近似网络词频的特点和应用进行了初步探讨.  相似文献   

5.
《时代周刊》作为美国最受欢迎的新闻杂志,常被中文媒体译载,而其独特的语言风格常给翻译带来困难.结合词汇特点,探讨了如何选择合适的翻译方法及翻译策略来对《时代周刊》进行翻译.  相似文献   

6.
针对近代以来中国物理学体制化过程中,中文物理学名词的命名和演化的一般特性和规律,采用文献调研和统计分析方法进行研究.探究了汉语表义语言的特点和物理学翻译的三阶段发展史,提出了物理学中文名词的直译、意译、音意混合、形译和词根扩展等五种定名方式.完善了物理学中文名词的定名规范:科学性、单义性、简明性、系统性、协调性、习惯性、中文性、国际性等原则.指出中文物理学名词的四种演化趋势.该研究获得的物理学名词的中文定名与演化规律,为以后的定名和演化提供了理论依据,有助于新世纪物理学科的本土化发展.  相似文献   

7.
段艳会    李晓林    黄爽   《武汉工程大学学报》2015,37(11):47-51
为了在非规范中文地址中有效的提取行政区划信息,提出了一种基于条件随机场的方法. 该方法根据中文地址中行政区划的表达特点和特征,采用判别式概率模型,在观测序列已知的基础上对目标序列建模,通过构建语料训练集和建立相应的特征模板,得到行政区划的表达模型,然后使用该模型对测试集进行测试,并与标注好的测试数据进行比对,验证模型的性能. 实验表明,与最大熵模型相比,条件随机场模型总的性能指标在其之上,地址信息解析的准确率能达到89.93%.  相似文献   

8.
讨论了一种利用维尔南加密算法和ASP代码对中文文本文件信息进行加密与解密的方法.应用该方法已在实际操作中实现了对中文文本文件的加、解密过程.  相似文献   

9.
为了解决中文组块分析精度不高和未利用词的语义信息的问题,提出了一种基于条件随机域模型和语义类的中文组块分析方法.该方法通过研究中文组块分析任务及其序列化特性,采用条件随机域模型融合不同类型特征,克服标记偏置问题,将语义词典中抽取的语义类特征应用到中文组块分析中,提高分析精度.实验表明,该方法取得了F值为92.77%的中...  相似文献   

10.
针对中文网页分类技术中的一些特征选择方法存在的问题.分析了常用的网页分类特征选择方法,提出了一种比较适合中文网页分类的特征选择方法.该方法将已有的X2统计方法进行了一些变形处理,并把该方法应用到后续的网页分类中,分类实验结果表明,准确率得到了一定的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号