首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
针对流式办公文档和固定版式办公文档如何共享与交换文档信息的问题,提出了以XSL-FO作为中间格式实现流式文档到版式文档转换的方法.系统地分析了XSL-FO和“标文通”字处理部分两种文档格式标准之间的相同点及存在的差异,探讨了两种文档格式之间的转换能力,并通过XSLT实现了两种文档格式之间的转换.实验结果表明了该方法的可行性.  相似文献   

2.
针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法: 第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。  相似文献   

3.
为提高流式文档格式的标准符合性和兼容性测试效率,面向基于XML的流式文档,提出了一种排版效果自动化测试方法。结合流式文档特点和图像分析技术,通过逆向关联分析和排版格式分析实现对流式文档的排版效果分析,通过统计和层次分析法构建评价模型,对分析结果进行评价,给出量化的测试结果。相比人工测试可以大幅提高测试的自动化程度和准确率,对于文档格式标准的研制以及提高文字处理软件的质量均有重要的作用。  相似文献   

4.
为了避免基于传统机器学习的中文文本蕴含识别方法需要人工筛选大量特征以及使用多种自然语言处理工具造成的错误累计问题,该文提出了基于CNN与双向LSTM的中文文本蕴含识别方法。该方法使用CNN与双向LSTM分别对句子进行编码,自动提取相关特征,然后使用全连接层进行分类得到初步的识别结果,最后使用语义规则对网络识别结果进行修正,得到最终的蕴含识别结果。在2014年RITE-VAL评测任务的数据集上MacroF1结果为61.74%,超过评测第一名的结果61.51%。实验结果表明,该方法对于中文文本蕴含识别是有效的。  相似文献   

5.
针对软件测试活动中文档审查后文档问题入库工作繁琐的问题,提出一种Word审阅批注自动导出方法。该方法基于VSTO进行Word功能扩展,实现自定义的批注自动化导出,提出的批注筛选定位算法实现了批注的分类识别,导出批注的同时为其自动生成定位描述。文档审阅批注以审阅报告的形式导出,通过规范导出的内容要素及描述格式,生成的批注描述可供测试人员在文档问题入库时直接粘贴复制,简化了文档问题的入库过程。  相似文献   

6.
主要探讨文档格式转换中的关键问题及其解决途径。文档格式转换是解决当前多种文档格式并存,互操作性差的一种有效途径。然而,现有的文档格式转换器的转换能力尚不理想,难以满足用户需求。基于UOF-OOXML格式转换器的研制情况,试图通过对当前格式转换中存在的问题的讨论,找出对格式转换影响最大的几个关键问题,并对产生这些问题的原因进行深入分析和探讨,提出相应的解决方法。该项研究对于各类文档转换器设计和提高文档互操作性均有一定的借鉴意义。  相似文献   

7.
基于VSTO的文档格式处理系统是以信息工作者为服务主体,通过VSTO工具实现Visual Studio与Office的交互,使Word文档的格式设置操作更为快捷简便。文档格式处理系统主要为用户提供了Word文档格式设置对比和识别、生成指定规格文档的服务功能,提高了用户工作的效率。  相似文献   

8.
为实现“标文通”(Uniform Office Format,UOF)文档格式到EPUB电子书格式的转换,重点分析了UOF格式和EPUB格式的结构以及两种结构之间的映射关系,并详细设计了转换式样单,提出了预处理与主转换相结合的转换思路。通过构建转换器,首次实现两种文档格式之间的转换,方便手持设备用户浏览UOF文档。该项研究对于文档信息共享,流式文档到电子书的转换和“标文通”国家标准的推广实施具有重要意义。  相似文献   

9.
殷昊  徐健  李寿山  周国栋 《计算机科学》2018,45(Z11):105-112
文本情绪识别是自然语言处理问题中的一项基本任务。该任务旨在通过分析文本判断该文本是否含有情绪。针对该任务,提出了一种基于字词融合特征的微博情绪识别方法。相对于传统方法,所提方法能够充分考虑微博语言的特点,充分利用字词融合特征提升识别性能。具体而言,首先将微博文本分别用字特征和词特征表示;然后利用LSTM模型(或双向LSTM模型)分别从字特征和词特征表示的微博文本中提取隐层特征;最后融合两组隐层特征,得到字词融合特征,从而进行情绪识别。实验结果表明,该方法能够获得更好的情绪识别性能。  相似文献   

10.
表格文档在日常生活中运用十分广泛 ,它应用于人口普查、银行票据、各类报表等领域 ,对这类文档进行计算机自动处理具有重要的现实意义。表格文档信息处理系统主要由文档原始图像获取、文档结构提取和填写信息识别等部分组成。在分析了国内外表格文档信息自动录入系统的优缺点后 ,采用一种基于接触式图像传感器 (CIS)摄取表格文档的原始图像信号 ,利用硬件获得了高质量的图像信号。采用光学字符识别 (OCR)技术对填写的表格文档信息进行识别。该表格文档信息处理系统具有对表格文档的纸张和填写的要求低和识别准确度高的特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号