排序方式: 共有16条查询结果,搜索用时 156 毫秒
11.
本文以2016-2020年中国知网数据库收录的2818篇国内有关大数据安全的期刊论文作为研究样本,利用文献计量学方法,借助CiteSpace、VOSviewer等可视化分析软件,对5G背景下的大数据安全领域的文献增长时间分布、主题内容和前沿热点进行分析,绘制出了关键词共现网络图和突现词分布表,总结出了近年来该领域研究的五个发展方向以及总体发展趋势,为该领域的未来发展提供理论参考。 相似文献
12.
13.
14.
15.
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 相似文献
16.
基于二元语法的N-最大概率中文粗分模型 总被引:2,自引:0,他引:2
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声—信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型的有效性。 相似文献