首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 882 毫秒
1.
王勇 《电脑迷》2008,(2):77-77
由于工作的关系,笔者经常要将网页上的内容转换成TXT文本,虽然IE中有另存为TXT文本的功能,但转换出来的文本即不整齐,而且里面时常会有HTML标记,每次都需要自己手动去把它们一一删除掉,实在麻烦,后来用了HTMLASText这款软件,它能将保存下来的HTML网页轻松转换成较整齐的TXT文本,这样就方便多了。  相似文献   

2.
中间文本     
中间文本是源模块的内部表示,从此内部表示产生目标模块的机器指令。从中间文本转换成机器指令需要关于变量、常数、数组、语句号、内部函数和下标等信息。从源语句得来的信息包含在信息表中且由中间文本引用。在阶段25产生机器指令时,信息表补充中间文本。  相似文献   

3.
该文介绍了web文本挖掘的概念和一般处理过程,着重就web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究.同时对不同方法进行了初步比较。  相似文献   

4.
《万能文书》是一个非常有趣的小工具.它可以把任何类型的文件转换成纯文本格式。用记事本或其他文字处理工具打开这样的纯文本文件时,只能看到一片乱码或空格,当然在需要时我们还可以再用《万能文本》逆向恢复文件,因此在一定程度上它可以保护我们的隐私。  相似文献   

5.
在不同语言环境下,文字内容无障碍显示是支持国际化应用的一项基本要求,其具体实现是编程支持unicode字符集。通过对Delphi TLabel组件显示方法的分析.给出了构建支持Unicode文本显示新组件的一般方法.解决了Delphi WIN32 VCL类库不支持Unicode文本显示的问题。  相似文献   

6.
研究了文本信息隐藏技术,提出~种改进的改变文本载体字符字体的隐藏算法。该算法首先把秘密文本信息中的字符转换为ASCII码,再把ASCII码转化16位二进制码,然后把16位二进制码的高八位和低八位转换为十进制数,用RSA加密法将十进制数加密,最后把十进制码再转换成16位二进制码并利用伪随机置换法把秘密信息代码嵌入到载体文本中。嵌入时选取两种字体,若代码为“1”,载体文本的字体不变,若为“0”则改为一种与原字体相近的字体。通过这些处理手段大大提高了单纯的基于特征编码的信息隐藏技术的安全性  相似文献   

7.
语篇倾向性分析是倾向性分析的较高层次领域。根据文本篇幅和结构可以将语篇分为短文本和长文本。该文以网络商品评论作为样本研究短文本倾向性分析的特点和策略。根据倾向极性在文中的决定性因素的不同表现,短文本可以分为含显性归总句、含隐性归总句、含特征词以及一般文本四类,针对不同类别文本采用不同的处理策略。在此基础上,运用词典、规则的方法构建了语篇倾向性分析系统CUCsas,该方法在第四届中文倾向性分析评测(COAE2012)中取得了较好成绩。  相似文献   

8.
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。  相似文献   

9.
蔡坤  姜保庆 《福建电脑》2009,25(4):45-46
本文首先介绍文本挖掘的定义及一般处理过程。重点探讨了文本挖掘中的关健技术文本聚类。  相似文献   

10.
本文提出了分解AutoCAD文本实体的一般方法,将文本实体分解为线、弧等可编辑实体。在此基础上,可以扩充CAD软件处理文本的功能。  相似文献   

11.
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。  相似文献   

12.
This paper report on some of the concrete outcomes of a larger research project on the study of syntactic change. In this part of the project, we are collecting and encoding historical texts and tagging them for syntactic analysis. We have so far produced a TEI-conformant version of an Old French text, La Vie de Saint Louis written by Jehan de Joinville around 1305, and we are in the process of adding syntactic tags to this text. Those syntactic tags are derived from the Penn-Helsinki coding scheme, which had been devised for the syntactic encoding of Middle English texts, and have been translated into TEI.Thus this paper addresses two issues: the development of a TEI encoding for the text, and the adaptation of the Penn-Helsinki syntactic coding scheme. While the first part of this work raises issues of a textual nature independently of the language of the text, and proposes concrete immediate solutions, the second part points to a more general extension of the PH tagset to other types of texts and to other languages.  相似文献   

13.
基于文本分类的文档相似度计算   总被引:1,自引:0,他引:1  
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。  相似文献   

14.
Text detection is important in the retrieval of texts from digital pictures, video databases and webpages. However, it can be very challenging since the text is often embedded in a complex background. In this paper, we propose a classification-based algorithm for text detection using a sparse representation with discriminative dictionaries. First, the edges are detected by the wavelet transform and scanned into patches by a sliding window. Then, candidate text areas are obtained by applying a simple classification procedure using two learned discriminative dictionaries. Finally, the adaptive run-length smoothing algorithm and projection profile analysis are used to further refine the candidate text areas. The proposed method is evaluated on the Microsoft common test set, the ICDAR 2003 text locating set, and an image set collected from the web. Extensive experiments show that the proposed method can effectively detect texts of various sizes, fonts and colors from images and videos.  相似文献   

15.
信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内容推送给用户之前,自动从相关文本中挑选符合用户需求的文本是一个非常有意义的工作。本文致力于相同话题文本之间的内容比较,目的是有效地选出满足需求的文本。我们通过对话题进行重新定义,并根据此定义设定了话题和文本的表示方法,给出了基于该表示方法的话题和文本之间的内容比较计算方法。最后,通过实验说明了这一系列方法的有效性。
  相似文献   

16.
Text retrieval techniques have long focused on the topic of texts rather than the pragmatic role they play per se. In this article, we address two other aspects in text processing that could enhance text retrieval: (a) the detection of functional style in retrieved texts, and (b) the detection of writer"s attitude towards a given topic in retrieved texts. The former is justified by the fact that current text databases have become highly heterogeneous in terms of document inclusion, while the latter is dictated by the need for advanced and intelligent retrieval tools. Towards this aim, two generalised methodologies are presented in order to achieve the implementation of the findings in both aspects in text processing respectively. Particularly, the first one is fully developed and thus is analysed and evaluated in detail, while for the second one the theoretical framework is given for its subsequent computational implementation. Both approaches are as language independent as possible, empirically driven, and can be used, apart from information retrieval purposes, in various natural language processing applications. These include grammar and style checking, natural language generation, summarisation, style verification in real-world texts, recognition of style shift between adjacent portions of text, and author identification.  相似文献   

17.
This paper investigates the intellectualization of text input using a system for accelerated input of texts into digital devices with a view to constructing a model of a corpus of the Ukrainian spoken language and a text typing system based on this model. Such a system uses a smaller number of commands to input letters and predicts variants of words on the basis of the corpus of words and word combinations for communication. It is experimentally shown that the input of texts using four and six command keys is rather efficient for the constructed corpus.  相似文献   

18.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

19.
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号