期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王素琴邹旭楷《软件学报》1995,6(8):463-467

本文提出了一种有效的并行汉字／字符串相似检索技术．通过引入搜索状态向量及字符一模式匹配向量，该技术将字符串匹配比较转化为简单的整数字位运算，通过对字符串方向相反的搜索有效地实现了多处理机对汉字／字符串的并行相似检索．文中也给出了并行实现算法，同时分析了算法的复杂性．相似文献

2.

基于改进编辑距离的中文相似句子检索 总被引：28，自引：0，他引：28

车万翔刘挺秦兵李生《高技术通讯》2004,14(7):15-19

中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使用该算法进行中文句子检索,最后获得了81．33％的查准率和95．31％的查全率。相似文献

3.

基于相似性搜索的水利普查数据融合

下载免费PDF全文

王继民徐波朱跃龙张鹏程汪卫军《水利信息化》2014,(2):30-35

针对第一次全国水利普查数据融合存在的问题,提出自适应编辑距离相似性度量,通过调整编辑操作权重及启发式学习权重等措施,对传统的编辑距离进行改进,提高相似性搜索的准确性,并给出基于编辑距离的水利普查数据融合的方法和流程,算法的有效性在第一次全国水利普查数据处理中得到验证。相似文献

4.

基于词典法和机器学习法相结合的蛋白质名识别

李刚郭崇慧林鸿飞杨志豪唐焕文《计算机与应用化学》2006,23(5):395-398

生物实体名识别对生物医学文献的信息抽取有重要的意义。本文针对如何识别蛋白质名进行了有益的尝试,主要采用了基于词典的方法,其中运用了近似搭配算法和首词查询的方法进行蛋白质名识别,同时结合机器学习方法训练了一个分类器来过滤候选词以提高识别的准确率。相似文献

5.

基于改进编辑距离和依存文法的汉语句子相似度计算 总被引：3，自引：0，他引：3

刘宝艳林鸿飞赵晶《计算机应用与软件》2008,25(7)

句子相似度计算在中文自然语言处理领域有着广泛的应用背景。要准确地刻画一个句子所表达的意思,必须深入到语义层面级并结合语法结构信息,提出了一种基于改进编辑距离和依存文法的汉语句子相似度计算方法。依存文法考虑到句子内部的结构和词语之间的相互作用关系,而编辑距离由于《同义词词林》的应用可以兼顾同义词之间的替换,因此该方法与其他方法相比,描述句子的信息更加全面,试验结果表明该方法是有效的。相似文献

6.

改进的句子相似度计算在问答系统中的应用

秦元巧孙国强《微计算机信息》2011,(8)

本文设计并实现了一种基于词形词序词长、编辑距离和依存文法相集合的一种句子相似度计算方法。通过将顾客输入的自然语言问句与常问问题库中的候选问题集进行相似度计算,自动返回最匹配的答案给顾客,自动更新和维护常问问题库。实验结果表明该方法在问句匹配上比传统方法具有更高的准确率。相似文献

7.

Part-Join:基于划分的字符串相似性连接

陈懿诚骆吉洲李建中《计算机应用研究》2014,31(10)

目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高.为此,提出了一种基于划分的算法Part-Join,它从频率向量、字母表、频率分布三方面对数据集进行子集划分,并给出子集间的过滤策略用于排除不相似的字符串对.扩展实验表明,Part-Join比已有算法Pass-Join效率提高了10％～ 15％. 相似文献

8.

Discovering Shape Classes using Tree Edit-Distance and Pairwise Clustering 总被引：2，自引：0，他引：2

Andrea Torsello Antonio Robles-Kelly Edwin R. Hancock 《International Journal of Computer Vision》2007,72(3):259-285

This paper describes work aimed at the unsupervised learning of shape-classes from shock trees. We commence by considering how to compute the edit distance between weighted trees. We show how to transform the tree edit distance problem into a series of maximum weight clique problems, and show how to use relaxation labeling to find an approximate solution. This allows us to compute a set of pairwise distances between graph-structures. We show how the edit distances can be used to compute a matrix of pairwise affinities using χ² statistics. We present a maximum likelihood method for clustering the graphs by iteratively updating the elements of the affinity matrix. This involves interleaved steps for updating the affinity matrix using an eigendecomposition method and updating the cluster membership indicators. We illustrate the new tree clustering framework on shock-graphs extracted from the silhouettes of 2D shapes. National ICT Australia is funded by the Australian Government’s Backing Australia’s Ability initiative, in part through the Australian Research Council. 相似文献

9.

句子相似度计算及其应用

景红岳群琴《计算机系统应用》2014,23(11):136-139

随着互联网技术的发展,智能答疑系统也受到了更多的关注,应用它能够及时给学生提供学生疑惑的问题答案。智能答疑系统通常包括问句理解、信息检索、答案抽取和选择三个主要部分,其中句子相似度计算是问句理解的一部分,它的性能将直接影响到最后答案的准确性。本文通过对词型和普通的编辑距离算法为基础,加入了词性的语义信息,提出了一种新的句子相似度算法,并将其应用到计算机基础课程答疑系统中,使得系统的正确率有了较大的提高。相似文献