首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
本文研究应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论与方法,提出了面向合作伙伴选择的中文Web信息获取系统的总体架构,并分析了实现该系统的关键技术一基于元搜索的网页搜集、基于样本公共特征的企业主页过滤、基于模式的企业信息抽取,并对这三个关键技术进行了详细的介绍。最后,按照作者提出的思想,编程实现了一个面向合作伙伴选择的中文Web信息获取原型系统,利用该系统验证了作者所提方法的可行性及证明了该方法的准确性。  相似文献   

2.
上下位关系抽取是知识图谱构建的关键环节,目前常用的基于模板和分布式的方法存在可移植性差、召回率低等不足。针对这些问题,提出了一种基于多通道特征融合的上下位关系抽取方法,通过预训练词嵌入、双向LSTM和依存句法树结果编码三个通道来构建模型编码器。首先,提出了上下位关系抽取整体框架,包括数据挖掘与标注模块、特征抽取模块、候选句打分模块及结果排序模块。然后,针对特征抽取模块,提出了融合句法依存关系、上下文特征以及预训练特征的自适应编码方法;针对句子打分模块,提出了包含编解码器结构的网络模型。最后,通过对准确率、召回率、查全率进行消融实验,表明所提出的模型具有较好的有效性和更好的可解释性。  相似文献   

3.
《现代电子技术》2017,(19):138-141
提出利用基于多目标优化软子空间聚类理论的关联规则数据挖掘方法对高维数据集中局部离散文本数据实现数据特征有效挖掘。首先,利用多目标优化软子空间聚类思想结合非支配排序遗传理论优化加权类内紧致及加权类间分离函数,获取优化后的目标函数及非占优Pareto最优解集,运用加权子空间划分方法对最优解集完成特征聚类;其次,基于关联规则思想运用一种特征提取和关联文本的识别方法,对聚类后的文本特征进行文本间及文本内部的特征识别和分类,即实现了文本信息数据的有效挖掘。实验证明,利用多目标优化软子空间聚类数据挖掘方法可以有效实现高维集中局部离散文本数据的挖掘。  相似文献   

4.
刘艳文  魏赟 《电子科技》2020,33(7):12-16
LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。  相似文献   

5.
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,人们往往不能有效地获取、利用所需的网络知识资源.为了更好地利用网络知识资源,需要应用自动化、智能化的数据挖掘、信息提取方法.Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据.针对现有常用文本表示方法的局限性,本文提出了一种基于命名实体和词向量相结合的网络知识资源表示学习模型.并在算法知识领域内进行实现与应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示本文提出的方法在这些任务上取得了较好的效果.  相似文献   

6.
《无线电工程》2016,(2):27-30
针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名实体识别技术进行了简要介绍,详细描述了基于双向量模型的话题跟踪系统的构建。实验结果表明,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。  相似文献   

7.
体育赛事作为公共话题,是网络舆情的来源之一。针对传统词向量语义表示质量不高,深度学习模型特征提取能力不强等问题,提出了基于ERNIE-BiSRU-AT的体育赛事评论文本分类模型。利用预训练模型ERNIE提取词的动态向量表示,BiSRU-AT模块捕获文本的上下文序列特征,并聚焦于对情感极性贡献较大的词。在真实微博女排赛事评论数据集进行实验,ERNIE-BiSRU-AT模型F1分数达到92.35%,高于实验对比的其他模型,验证了模型的有效性。  相似文献   

8.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

9.
网络作为人们发表其观点和看法的新载体早已成为一个重要的情感抒发与交流平台。对网络中人们所发表的文章、言论进行分析,其中不仅限于包括观点及情感分析,对于有效掌握舆论话题情报、研究网民心里以及预测话题走向就有着重要帮助。本文探讨了目前关于舆情文本情感分析技术现状,使用一种根据情感词识别的优化方法,利用情感词修饰域的判别同时结合语法分析,以提高对于文本情感倾向分析的准确性。  相似文献   

10.
基于KPCA和RBF网络的文本分类研究   总被引:2,自引:2,他引:0  
基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.  相似文献   

11.
随着基于内容检索技术的发展,人们逐渐意识到包含在彩色图像和视频中的文本具有重要的语义作用。提取并识别图像中的文本首先需要确定它们的位置。本文提出了一种新的基于连通区域确定彩色图像中文本位置的方法,它首先对图像进行多通道分解以得到连通区域,然后对连通区域的尺寸和位置排列进行分析以确定图像中文本的位置。本文方法不仅能确定水平排列和垂直排列文本的位置,也能确定按一定倾角排列的文本的位置。实验结果表明,该方法可得到较好的文本定位效果。  相似文献   

12.
We present a two-pass image retrieval system in which retrieval techniques for text and image documents are combined in a novel approach. In the first pass, the text-based initial query is matched against the text captions of the images in the database to obtain the initial retrieved set. In the second pass, text and image features obtained from this initial retrieved set are used to expand the initial query. Additional images from the database are then retrieved based on the expanded query. The image features that we have used are color histograms, DC coefficients from the discrete cosine transform, and two texture features: multiresolution simultaneous autoregressive model and local binary pattern. These are low-level statistical image features that can be easily computed. Extensive experiments have been performed on 1019 color pictures of mixed variety with captions, relevance judgments and queries supplied by a national archives agency. Objective precision-recall results have been obtained with various combinations of text and image features. The results show that the image features do not perform well when used on their own. However, when image features are used in query expansion, they increase the average precision more significantly than text annotations. Moreover, these findings are valid at all precision levels and are not sensitive to the image feature acquisition parameters.  相似文献   

13.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

14.
为了快速获取网络文本中主题内容和情感信息,提出了文本情感文摘的概念,同时提出了一种基于条件随机场模型的情感文摘提取方法.首先提取文本中的句子长度、提示词以及情感词语作为基本特征,同时应用浅层狄利赫雷分配的主题模型,分析文本潜在主题信息,提取主题特征,将这两类特征同时应用到条件随机场模型中,从而获取文本的情感文摘.实验结果表明,该方法细腻刻画了文本的主题信息,同时考虑了文本主题的情感色彩,文摘提取效果较理想,能满足用户的实际需要.  相似文献   

15.
A new method for text detection and recognition in natural scene images is presented in this paper. In the detection process, color, texture, and OCR statistic features are combined in a coarse-to-fine framework to discriminate texts from non-text patterns. In this approach, color feature is used to group text pixels into candidate text lines. Texture feature is used to capture the “dense intensity variance” property of text pattern. Statistic features from OCR (Optical Character Reader) results are employed to further reduce detection false alarms empirically. After the detection process, a restoration process is used. This process is based on plane-to-plane homography. It is carried out to refine the background plane of text when an affine transformation is detected on a located text and independent of camera parameters. Experimental results tested from a large dataset have demonstrated that the proposed method is effective and practical.  相似文献   

16.
图像中的文本包含了重要的语义信息。提出了一种基于连通区域分析的彩色图像文本自动定位算法。首先对彩色图像进行多通道分解,得到少量代表颜色下的二值图像。对二值图像进行连通区域标记,并计算连通区域的属性参数。然后根据关于连通区域属性的先验知识限制,去掉连通区域中的非文本区域,其他的作为候选文本区域。最后根据文本行的排列规律从候选文本区域中提取文本行。实验结果表明该方法能较快地定位文本区域,定位精度较高。  相似文献   

17.
Overlay text brings important semantic clues in video content analysis such as video information retrieval and summarization, since the content of the scene or the editor's intention can be well represented by using inserted text. Most of the previous approaches to extracting overlay text from videos are based on low-level features, such as edge, color, and texture information. However, existing methods experience difficulties in handling texts with various contrasts or inserted in a complex background. In this paper, we propose a novel framework to detect and extract the overlay text from the video scene. Based on our observation that there exist transient colors between inserted text and its adjacent background, a transition map is first generated. Then candidate regions are extracted by a reshaping method and the overlay text regions are determined based on the occurrence of overlay text in each candidate. The detected overlay text regions are localized accurately using the projection of overlay text pixels in the transition map and the text extraction is finally conducted. The proposed method is robust to different character size, position, contrast, and color. It is also language independent. Overlay text region update between frames is also employed to reduce the processing time. Experiments are performed on diverse videos to confirm the efficiency of the proposed method.  相似文献   

18.
视频数据中的文本是视频语义理解和检索的重要信息来源.文中对视频中文本的检测、定位、提取、增强和识别进行了研究.提出了应用小波模极大值算法检测视频帧文本所在的位置,用由粗到精的多层定位方法以及金字塔模型,对于多尺度的静止和滚动中英文文字进行提取,最后对文本区域进行二值化.实验表明文中方法取得了良好的效果.  相似文献   

19.
为了使全文检索系统支持多种文件格式的检索,必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题,文章设计了一种基于插件的支持多格式的文本抽取系统,该系统采用文件后缀名和魔数(magic number)结合的方式自动识别文件类型,以统一接口调用已存在的针对单一类型文件的抽取插件,对得到的纯文本进行编码转换以使得最终的输出编码统一,系统还针对目录输入设计了多进程并行优化以利用CPU多核优势,使用贪心算法优化任务分配以使总运行时间尽可能短。该系统易于扩展,编程接口简单。实验结果表明,该系统能正常抽取文本内容和元数据,且其抽取效率高于Apache的Tika等开源文本抽取系统。  相似文献   

20.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号