首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于XHTML+MathML+SVG框架的数学辅助教学系统   总被引:1,自引:0,他引:1  
从数学辅助教学系统的需求分析入手,结合Web开发的特点,确立了三层B/S体系结构,并介绍了用XHTML+MathML+SVG框架解决XHTML文档中含有文本、数学公式和数学图形以及SVG文档中含有文本和数学公式等Web数学信息问题,并给出了可行的文档结构,满足了数学辅助教学的要求.  相似文献   

2.
多文档自动文摘综述   总被引:18,自引:9,他引:18  
秦兵  刘挺  李生 《中文信息学报》2005,19(6):15-20,56
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术。随着互联网上信息的日益丰富,多文档文摘技术成为新的研究热点。本文介绍了多文档文摘的产生和应用背景,阐述了多文档文摘和其他自然语言处理技术的关系,对多文档文摘国内外研究现状进行了分析,在此基础上汇总提出了多文档文摘研究的基本路线及关键技术,并总结了多文档文摘的未来及发展趋势。  相似文献   

3.
智能文本分类系统的研究与设计   总被引:9,自引:1,他引:9  
本文介绍了基于实例学习建立自动文本分类器的方法.通过对文本自动分类的原理的剖析。介绍了文本自动分类系统建立的基本过程,同时详细地说明和比较了文档表示、功能选择以及机器学习方法以及相关算法。  相似文献   

4.
分析了信息系统提供的电子文档编辑功能和实际应用中在该方面的需求,针对电子文档编辑效率低问题,提出一种文档智能编辑方法。该方法采用XML技术,将文档内容归纳为既有文本、输入文本、单选文本和多选组合文本4种类型,分别采用编辑框、单选框和复选框控件界面,实现文档内容的智能交互编辑。实验结果表明,该方法缩短了电子文档的编辑时间,为信息化系统电子文档快速编辑提供了新的技术。  相似文献   

5.
流派分类和基于主题的文本分类最大的区别之处就在于文本的特征。流派分类需要能够描述文档风格的、表达更强语义信息的特征,基于特征情感色彩的分类方法是将情感色彩这种语义信息附加到特征上。首先介绍了文档流派分类的概念及其应用,然后分析了流派分类的文本特征和词汇的情感倾向权值的几种计算方法,论述了基于特征情感色彩的文档流派分类过程,最后对几种分类方法进行了实验结果分析和比较。  相似文献   

6.
介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征,实验验证了方法的特性并与具有代表性的文档复制检测系统进行了对比,结果表明该方法能够确保发现文本长度大于保证闽值的复制内容,有效地提高了检测结果的准确性.  相似文献   

7.
袁灏  徐丹 《微机发展》2003,13(11):6-8
在分析WindowsAPI多文档界面(MDI)环境机制的基础上,介绍支持多文档界面的应用程序的组成结构,并利用WindowsAPI预定义的文本编辑标准控件(edit类)开发一个支持多文档界面的文本编辑器,从而实现了在一个编辑器程序实例中同时编辑不同的文本。文中给出了具体的编程方法和相关程序代码。通过该编程示例展示出开发支持多文档界面的Windows应用程序的基本编程规范。  相似文献   

8.
自然语言文档复制检测研究综述   总被引:37,自引:1,他引:37  
鲍军鹏  沈钧毅  刘晓东  宋擒豹 《软件学报》2003,14(10):1753-1760
复制检测技术在知识产权保护和信息检索中有着重要应用.到目前为止,复制检测技术主要集中在文档复制检测上.文档复制检测在初期主要检测程序复制,现在则主要为文本复制检测.分别介绍了程序复制检测和文本复制检测技术的发展,详细分析了目前已知各种文本复制检测系统的检测方法和技术特点,并比较了各系统关键技术的异同,最后指出了文本复制检测技术的发展思路.  相似文献   

9.
在分析Windows API 多文档界面( MDI )环境机制的基础上,介绍支持多文档界面的应用程序的组成结构,并利用Windows API预定义的文本编辑标准控件(edit 类) 开发一个支持多文档界面的文本编辑器,从而实现了在一个编辑器程序实例中同时编辑不同的文本.文中给出了具体的编程方法和相关程序代码.通过该编程示例展示出开发支持多文档界面的 Windows 应用程序的基本编程规范.  相似文献   

10.
Word2007中的查找与替换功能是非常强大的,该功能不仅可以对文档中的文本、符号或特殊字符进行查找替换,还可以对相同格式的文本内容进行查找与替换,大大简化了文档的修订于更改过程。本文将对Word2007中的查找与替换功能进行讲解,为大家介绍使用该功能对文档进行修订与完善的方法。  相似文献   

11.
基于Yahoo的信息自动分类器的原理与设计   总被引:2,自引:0,他引:2       下载免费PDF全文
本文介绍了一种基于Yahoo层次的自动分类器,此分类器主要是把基于文本数据的机器学习技巧用于Yahoo的层次结构;讨论了分类文档过程的文档表示、功能选择和学习方法及相关的算法。  相似文献   

12.
文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用.文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想.针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的.使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高.  相似文献   

13.
一种支持多语言文本布局方向的文档处理模型   总被引:1,自引:0,他引:1  
文档处理是文字处理的关键组成部分,针对多语言混合排版的需求,本文提出了基于“框”的支持不同方向的多语言文本布局的文档处理模型。该模型把对文本布局方向的处理封装在文档格式化模块中,将多文本布局方向的问题规约为文本布局方向为从左向右(水平)的文档格式化的问题,并设计了多文本布局方向文档格式化的递归算法。该模型可以很好支持包括我国民族文字蒙古文、维吾尔文、藏文在内的各种不同书写方向文字的文本布局。  相似文献   

14.
基于文档标引图模型的文本相似度策略   总被引:2,自引:1,他引:1       下载免费PDF全文
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。  相似文献   

15.
中文文档自动分类系统的设计与实现   总被引:30,自引:4,他引:30  
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。  相似文献   

16.
Lucene应用中Pdf文档文本数据提取方法研究   总被引:1,自引:0,他引:1  
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。  相似文献   

17.
向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了如何通过计算检索向量和文档向量矩阵的相关度来确定返回的检索内容。  相似文献   

18.
智能手机拍摄的图像中经常会出现变形的文档图像,变形的文档图像影响文本的识别和后期图像处理等工作,而现有的变形文档图像校正方法存在校正类型单一和校正效果不理想的问题.针对以上问题,提出了一种基于最小化重投影的变形文档图像校正方法.该方法首先通过文本域轮廓检测,合并文本域轮廓来获取文本行连通域.然后利用主成分分析法PCA在...  相似文献   

19.
介绍了一种反垃圾邮件系统的内容过滤模块的总体设计,以及内容过滤模块中采用的关键技术——多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,从而更好地完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。  相似文献   

20.
分析了文本控制技术目前在电子政务领域中的作用,阐述文本控制技术中文本的分类及多文档结构文本控制技术中的主要关键技术,总结多文档结构文本控制技术在电子政务、电子商务以及企业ERP领域的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号