排序方式: 共有40条查询结果,搜索用时 310 毫秒
11.
12.
13.
一种用于基因名字规范化的多层歧义消解框架 总被引:1,自引:0,他引:1
灵活的基因名字命名方式使基因名字具有严重的歧义, 这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一. 基因名字规范化是解决这一问题的有效途径. 本文提出了一种多层歧义消解框架来完成基因名字规范化任务. 基因名字规范化过程中不同阶段有不同的歧义情形, 在本文提出的框架中, 针对这些情形采用了有针对性的解决策略, 包括: 基于词典的基因名字检测, 基于机器学习方法的候选选择以及基于语义的歧义消解. 试验表明, 我们的方法能够在BioCreAtIvE2006的基因名字规范化测试集上取得0.746的F度量. 相似文献
14.
WNS型燃气锅炉因其结构简单、节能、环保、效率高等特点受到人们广泛关注。燃气锅炉在国内的需求量每年逐渐上升。燃气锅炉炉膛出口烟气温度的大小对燃气锅炉的性能有直接影响,而燃料的种类、炉膛的形状和过量空气系数对炉膛出口烟气温度有着重要的影响,尤其是过量空气系数。为了详细研究炉膛出口烟气温度的影响因素,利用FLUENT软件对直形炉胆和波形炉胆数值进行模拟;过量空气系数取1.05、1.10、1.15、1.20、1.25;分别选用天然气、炼焦煤气和液化石油气3种燃料。通过对不同种工况下炉膛的燃烧进行数值模拟,得出理论分析数据,可以为WNS型燃气锅炉的实际运行、优化设计和制造提供理论支持,具有一定的工程应用价值。 相似文献
15.
针对超光谱图像压缩进行了研究,提出了一种有效的基于分布式信源编码(Distributed Source Coding, DSC)的有损压缩算法。该算法利用多元陪集码和标量量化的方式实现超光谱图像的分布式有损压缩,针对分布式信源编码,利用多波段预测的方式为每个编码块构造边信息,然后采用标量量化的方式对编码块和其边信息同时进行量化处理。根据分布式信源编码原理,给出了各编码块量化后的编码码率。为了减少标量量化带来的信息丢失,算法引入了跳跃策越。部分均方误差意义上损失较大的编码块将由其边信息直接代替。实验结果表明,所提出的算法性能与基于小波变换的算法性能相当;此外,该算法复杂度较低,适合星载超光谱图像的压缩。 相似文献
16.
信息检索中的聚类分析技术 总被引:1,自引:0,他引:1
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度,将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。 相似文献
17.
基于聚类分析策略的用户偏好挖掘 总被引:5,自引:0,他引:5
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。 相似文献
18.
基于GA的文本子主题切分中的参数优化研究 总被引:1,自引:0,他引:1
如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。 相似文献
19.
中文文本时间信息获取及语义计算 总被引:2,自引:0,他引:2
为了解决中文文本中时间信息的形式表达、抽取及时间语义计算等一系列问题,提出了一种可以适用于多种自然语言处理任务的时间信息处理系统,通过对汉语句子时间要素的分析以及时间词语构成形式的研究,采用一种时间表达式的概念,将承载时间信息的短语按照功能的不同分解成若干容易识别,语义单一的“小”的成分,并在此基础上给出基于规则的时间信息抽取、理解及时间语义的计算方法. 相似文献
20.