排序方式: 共有110条查询结果,搜索用时 140 毫秒
41.
提出基于重启随机游走的实体识别和链接方法,在知识库部分实体构成的图结构中进行随机游走,从而获得实体和指称的分布式表示,并由此计算出相似度最高的实体作为链接实体.该方法在2015年Tri-Lingual Entity Discovery and Linking评测任务中的F值为0.665,高于其他参赛系统.实验结果表明,本方法可以有效克服特征稀缺问题,并减轻流行度差异对实验结果造成的影响. 相似文献
42.
英文光学字符识别的后处理 总被引:2,自引:0,他引:2
总结了英文光学字符识别(OCR)系统中的常见错误类型,论证了使用拼写检查技术发现错误的可能性,以最相似单词替换OCR的错误输出,从而达到改正错误的目的。利用编辑距离实现词汇相似性评估,并用动态规划技术优化了编辑距离的计算。试验结果证明该方法可以使OCR系统的单词识别率提高6.25%。 相似文献
43.
44.
建筑节能是利用保温材料的低热传导率,在保证室内环境舒适的条件下,尽可能地减少供暖、空调等设备的能耗,外墙外保温系统是建筑外墙保温中应用最广泛的保温做法。聚苯乙烯保温板由于具有非常致密的蜂窝状结构,能够有效地阻隔热量,因此,聚苯乙烯保温板在外墙外保温系统中有着非常广泛的应用。针对挤塑聚苯乙烯保温板的特性,对外墙外保温施工的条件、施工过程中需要注意的工艺要点进行了介绍,并对外墙外保温施工过程中存在的问题进行了分析。 相似文献
45.
领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特征模板,同时通过10倍交叉验证法确定模型训练参数。实验结果表明,通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。 相似文献
46.
短语识别是进行短语分析的前期准备工作。针对搜索引擎日志中“N+V+N”、“V+N+N”型短语特点,采用最大熵方法,按词信息、词性信息、音节数及前位标记信息提取特征构建训练集,得到最大熵方法进行短语识别的机器学习模型。实验结果显示,利用最大熵方法对两种短语进行开放性测试,两种短语的识别F值分别达到85.78%和76.47%,取得了较好的自动识别效果,在半开放性测试中,其识别结果更佳。 相似文献
47.
针对有效利用图像底层视觉特征和图像语义特征进行图像标注,提出一种改进的AP(Affinity Propagation)聚类标注模型。首先采用半监督距离测度学习算法,融合图像语义信息,训练得到新的距离测度。然后使用新的距离测度对每一类图像进行AP聚类,生成各类图像的聚类中心,计算待标注图像到各类图像聚类中心的平均距离,确定待标注图像类别。最后计算待标注图像到类内各个聚类中心的距离,确定待标注图像类内类别,统计该类别下图像的标注词,作为待标注图像的标注词。在Corel5K和NUS-WIDE数据集上进行了实验,经验证,该方法有效提高了标注精度。 相似文献
48.
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。 相似文献
49.
50.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。 相似文献