共查询到20条相似文献,搜索用时 15 毫秒
1.
随着网络的发展,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频,音乐等。不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便。提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保留人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树。然后设计抽取算法,使用java语言编程,采用抽取算法,删除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息。 相似文献
2.
制造企业现有的内部知识管理系统大多通过人工选取产品研发文档标签,效率低下。应用自然语言处理技术抽取文档关键词作为文档标签有助于制造企业知识管理系统智能化。针对产品研发文档关键词抽取问题,提出了BERT-BiLSTM-TFIDF关键词自动抽取方法,基于BERT-BiLSTM设计句权重模型计算各词语所在句子的句权重,同时添加词性权重以及外部语料库以改进TFIDF算法。本文提出的方法改善了现有关键词自动抽取方法没有合理利用词语的语义信息、上下文关系信息的缺点,经过实验证实具有较好的效果。 相似文献
3.
《高技术通讯》2015,(12)
阐述了事件新闻文本的时间信息抽取与处理对事件研究的重要性,研究了安全事件新闻的时间抽取与转换。考虑到目前采用的基于时间抽取规范TIMEX2/3和机器学习的抽取处理方法得到的时间信息缺少完全统一的形式,在安全事件的舆情发现及分析等场景下很难直接利用的问题,提出了针对安全事件新闻中的时间信息抽取与转换方法。该方法首先对安全事件的新闻根据时间的分类分别对不同形式的时间进行抽取,然后利用六大时间转换算子及时间冲突处理算子输出其时间的年月日时分秒的统一格式。试验表明,采用该方法的抽取结果与使用条件随机场(CRF)的方式进行抽取的结果相差不大,并且在时间转换上的正确率达到90%以上。 相似文献
4.
5.
知识图谱的构建过程是一个迭代更新的过程,包括信息抽取、知识融合和知识加工三个步骤.本文主要对知识图谱构建技术研究及发展趋势进行了研究,以期能够帮助感兴趣的读者全面了解和认识该技术. 相似文献
6.
本文简单介绍了智能入侵检测技术,主要包括神经网络技术,计算机免疫学,数据挖掘技术,状态转换分析,信息抽取,专家系统,基于多智能体的检测技术等等,以及智能入侵检测技术的发展趋势。 相似文献
7.
基于条件随机场的中文命名实体识别研究 总被引:1,自引:0,他引:1
条件随机场模型是文本信息抽取的重要方法之一,在命名实体识别方面CRF性能要明显优于隐马尔科夫模型和最大熵模型。本文以基于字一级的条件随机场模型实现了中文命名实体识别,取得了较好的识别效果。 相似文献
8.
企业信息系统存在大量的异构数据库,如何集成数据库、解决信息孤岛现象是我们面临的问题。利用数据仓库技术来集成数据库是一个有效的解决方案。给出异构数据库的集成方案,提出异构数据库抽取和转换数据的方法,提出ODBC用于数据抽取过程的思路。数据仓库的建立不仅保护过去的投资,还实现企业信息系统中信息的集成,更重要的是为企业决策提供信息源。 相似文献
9.
苏朋艳 《中国新技术新产品》2009,(2):21-22
信息资源共享难一直是困扰政府信息化建设的重要问题,使得政府行政效能大打折扣,因此,数据整合问题急需解决。在政府信息化建设实际应用中,通过Informatica数据抽取模型解决数据仓库的增量抽取问题,取得较好效果。 相似文献
10.
通过对技术转移中心技术成果信息收集的分析,提出采用基于Web格式分析的技术成果信息批量自动采集方案.对Web信息抽取的原理及实现进行了分析,并给出了技术成果信息采集的程序实例. 相似文献
11.
基于WEB的数据抽取及应用实例 总被引:1,自引:0,他引:1
尹津其 《中国新技术新产品》2009,(19):22-22
基于WEB的数据抽取是当前相当热门的方向之一。本文对此作了一个比较全面的介绍,概括了基于WEB的数据抽取的主要概念和特点说明基于WEB的数据抽取所常用的技术。最后简单介绍了基于WEB数据抽取中的实际应用一例。 相似文献
12.
13.
14.
研究基于文本内容的网页过滤技术,网页过滤的成效依赖于网页分类的精度,网页分类的准确与否依赖于网页文本内容抽取的效果,即通过分析网页内容,得到网页中的能够代表网页语义的文本信息。提出一种在同一网站中寻找相似网页的算法,它可以克服其他网页内容抽取方法中存在的弱点。 相似文献
15.
基于谱相关的齿轮振动监测技术研究 总被引:2,自引:2,他引:0
摘要:齿轮振动信号的特征循环频率具有谐频成分,谐频循环频率簇对应的谱线相关性综合反映了系统中的某种啮合振动或调制现象。以此理论为基础,本文提出了啮合振动监测因子和调制监测因子两种累积能量因子,利用单一传感器采集得到的信号,以全频段信息为依据,进行振动信息的抽取和剥离,实现针对性的齿轮振动监测。实例分析结果证实了基于谱相关的状态监测技术具有较高的灵敏性,能够初步判断系统中的故障所在。 相似文献
16.
17.
本文重点探讨了如何将矢量图形进行参数化重建,即从只具备纯几何信息的矢量图中抽取元素间的拓扑信息,从而保证尺寸变动时保持拓扑关系不变,并能对多视图进行同步处理。这一方法的最大优点是用户作图时不受约束,因为系统只处理最终图形。另外,该思想并不局限于Auto CAD环境上,可方便地推广到其它二维绘图系统中。 相似文献
18.
材料的组织结构主要受成分和制备加工工艺的影响,是决定材料性能的关键因素,在材料研发的全周期内具有重要作用。材料组织结构以非结构化图像数据的形式呈现,利用人工经验性的手段进行分析和信息抽取,遗漏了大量的材料学信息和隐含知识。深度学习技术的发展和应用,为材料显微图像中信息的精准、快速、自动获取提供了重要的研究手段。本文从图像处理、图像分析和图像理解3个方面概述了材料显微图像处理与信息挖掘的主要研究内容和关键技术,详细介绍了深度学习在图像分析中的图像识别、图像分割和图像生成3个任务中的研究进展,讨论了深度学习在材料显微图像分析和信息挖掘中的发展方向和挑战。 相似文献
19.
目的探索学龄儿童在儿童馆中通过感官抽取环境中的信息进行处理,进而产生的行为表现与展项界面中对儿童产生高吸引度的设计要素之间的关联。方法儿童在展馆中的行为表现作为"反馈",是信息传播过程中信息回流的最后一个环节。本文通过实地调研和行为分析的方法,来研究展项界面中各要素对儿童与展项之间的互动起到的促进作用。通过样本分析和研究得出影响儿童在展馆中互动行为的三大类要素。结论总结三大类要素对展项的互动性产生的作用并作出了差异化考量的建议,以期对未来儿童馆展项特别是数字展项设计提供一些依据。 相似文献
20.
随着互联网的迅猛发展,web上的信息飞速增长,如何从大量的数据集合中抽取有用的信息,找到有效的数据管理和使用的平台,合理的组织网站结构,成为人们越来越关心的课题。Web数据挖掘是从Web上挖掘有用知识为目标,利用web数据挖掘技术分析其在电子商务系统中的应用,能够发现潜在的客户信息,改进站点的结构,提供优质的个性化服务,从而提高企业的竞争力。 相似文献