共查询到18条相似文献,搜索用时 244 毫秒
1.
针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。 相似文献
2.
3.
4.
针对数学表达式表达形式多样、语法语义变换丰富给基于数学表达式的检索结果排序所带来的困难,提出一种基于IVHFS(Interval Valued Hesitation Fuzzy Sets)的数学表达式检索结果排序算法,利用IVHFS在排序中可以完整保留属性信息的优势,改善排序性能.首先,通过对数学表达式检索特征的归纳,确定数学表达式检索结果的排序属性;然后,利用所归纳的数学排序属性构造IVHFS集合;最后,采用IVHFS相似性测度计算出数学表达式之间的相似度,进而得出排序结果.本实验从公共数据集NTCIR-12_Math IR_Wikipedia_Corpus中获取了528188个数学表达式作为实验数据集,并设计了子式空间结构属性、运算符关联属性以及运算数关联属性作为评价指标,从而实现数学表达式检索结果的排序.实验结果表明,检索系统的查全率和查准率分别为75.8%和66.4%,其检索结果排序效果更加合理. 相似文献
5.
6.
7.
《计算机研究与发展》1980,(1)
这一节描述算术、字符、关系和逻辑表达式的形成、解释和求值规则。表达式是由操作数、运算符和括号形成的。 6.1 算术表达式算术表达式用来表示数值计算。算术表达式的求值产生一个数值。算术表达式的最简单形式是一个无符号的算术常数、算术常数的符号名字、算术变量引用、算术数组元素引用或算术函数引用。使用一个或多个算术操作数以及运算符和括号,可 相似文献
8.
一种新颖的汉字字形相似度计算方法 总被引:1,自引:0,他引:1
为了利用字形描述技术识别相似汉字, 提出了三元组递归表示的汉字字形相似度计算方法。该算法把汉字表示为汉字结构、字首部件和字尾部件三元组, 以部件为运算对象, 字型结构为运算符, 将汉字描述为前缀表达式。通过建立汉字字形相似度计算递归模型, 使计算过程被逐层分解为原子部件间的相似性比较, 从而更好地降低了计算的复杂性。然后将其用于计算汉字的最佳相似字。实验结果表明, 该方法与人的认知结果吻合度很好, 算法是有效可行的。 相似文献
9.
Tabular 表达式是一种采用表格化结构组织函数或关系的形式化描述工具,在需求工程领域中具有广泛的应用,为Tabular 表达式建立形式的语义模型是非常必要的.针对Tabular 表达式通用模型,给出了Tabular 表达式的形式文法及指称语义.通过定义形式文法中各语法单元的语义指派方程,描述了Tabular 表达式的指称语义,分别对传统类型Tabular 表达式和新类型Tabular 表达式中一些典型表类型的指称语义进行了描述,并与其他几种Tabular 表达式的语义描述方法进行了比较.分析结果表明:该语义描述方法不仅准确描述了Tabular 表达式的语义,而且不再受Tabular 表达式模型和Tabular 表达式类型的限制,打破了现有方法的局限性,是一种非常有效的方法. 相似文献
10.
表达式求值是程序设计语言编译中的一个最基本问题。与人们习惯的中缀表示的表达式相比,后缀表达式不存在括号,没有优先级的差别,表达式中各个运算是按照运算符出现的顺序进行的。因此非常适合串行工作的计算机处理方式。该文首先对这两种表达式表示方法进行了分析比较,然后通过具体分析实现这两种表达式求值的算法来论证表达式后缀表示优于中缀表示。最后简要谈一下中缀表达式到后缀表达式的转换。 相似文献
11.
数学公式识别系统:MatheReader 总被引:9,自引:0,他引:9
数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.义章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定伉方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富. 相似文献
12.
数学表达式相似度计算在信息检索中起着重要的作用,但现有的计算方法较少考虑数学表达式侧重点对相似度计算准确度的影响。为解决该问题,提出一种基于侧重点聚类的数学表达式相似度计算方法。针对侧重点主观性强的特点,定义表达式元素映射规则,使用[K]-means++算法对数学表达式聚类,从而归纳出数学表达式所属侧重点簇;以侧重点簇为依据,使用遗传算法对相似度计算方法中相关参数进行优化调节,以加强侧重点对相似度结果的影响。对比实验表明,该方法的相似度计算性能有所提高,得到的表达式结果列表更为理想。 相似文献
13.
数学公式识别是OCR技术的重要组成部分,目前相关的研究还很欠缺。文章在简要介绍数学公式识别发展状况的基础上,针对结构分析这一公式识别的关键环节,提出了一种基于基准线、运算符作用域并结合语法分析数学公式结构的方法。实验表明,该方法对公式结构具有较好的适应性。 相似文献
14.
本文源于一个手写数学公式识别系统,该系统实现了手写数学公式到文本公式的自动转化。文中提出了一种基于分块树的数学公式结构分析方法,该方法首先根据其内部结构特征将数学表达式分解为若干子模块,并采用树型结构对每个子模块内部字符之间的结构关系进行表示,最终形成整个表达式的树型表示。该方法定义了一系列的字符结构属性,将字符及属性值作为结构分析的结果,这些属性值再现了公式的结构特征,并很容易被系统的公式文本显示部分所利用。另外,该方法对传统的字符空间关系类型进行了简化,减小了识别误差,而引入的分块处理方式更加适合具有根式和分式等多层嵌套结构公式的处理,并且具有较强的可扩展性。 相似文献
15.
汉字数学表达式的自动生成 总被引:10,自引:0,他引:10
汉字的数学表达式是一种全新的汉字表示方法.通过对汉字部件特征的深入分析,利用图像处理技术对汉字数学表达式的自动生成做了探讨.选取了大约500个基本汉字部件,提取了各部件的连通数、亏格数、端点数、折点数、连接点数、交叉点数以及NMI,HNMI,VNMI值作为汉字部件的基本特征;并通过汉字连通区域的分割与合并进行汉字部件的划分和识别;最后,通过汉字结构的识别得到了汉字的数学表达式.实验中,汉字表达式自动生成的正确率为92%.这将在排版印刷、广告及包装设计、网络传输和中文移动通信等领域进一步促进中文信息的处理和传播. 相似文献
16.
实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低。提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果。在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020测评任务2提供的数据集上的实验结果表明,辅助任务的引入能够缓解短文本实体链接过程中信息不充分的问题,且该多任务学习模型的F值为0.894 9,优于基于BERT编码器的单任务实体链接模型。 相似文献
17.
基于字符串的逻辑表达式的合法性进行判断在很多领域和场合下是经常遇到的 ,比如 :文件检索 ,信息查询等等 .而我们常见的文件检索与信息查询软件大多仅仅支持几个简单的逻辑算符 ,例如 :与、或 ,并且逻辑表达式中的组成字符串只能做简单的与、或运算 ,使得逻辑表达式的表达能力有限 ,用户使用的灵活性小 .本文针对上述问题进行了研究 ,采用算符优先算法给出了对该问题一种非常实用而又简练的实现方法 ,不但实现了普通搜索引擎所支持的简单的逻辑表达式的合法性判断功能 ,而且扩展了所支持的逻辑表达式的逻辑表达能力 :支持非运算 ;增加了支持逻辑表达式的优先级算符“(”和“)”.这使得逻辑表达式的表达功能和表达灵活性都得到很大的增强和提高 .本文给出的算法还可用于许多其他的基于字符串的逻辑表达式的操作功能 . 相似文献
18.
基于部件的文本相似度计算 总被引:1,自引:0,他引:1
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点. 相似文献