期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

在HITS超链接主题查找算法的基础上提出了一种检索改进算法，该算法首先通过网页之间的链接关系计算出每一网页的出度值和入度值，并将查询条件与超链接上的标记文本或网页全文内容进行相似度匹配。得出每一网页的权值，综合权值与出度或入度值，将检索结果进行排序输出。实验结果表明，与HITS、TF*IDF算法相比，该信息检索方法在相同查全率的条件下具有更好的查准率。相似文献

10.

网页文本信息提取及结果评价 总被引：1，自引：0，他引：1

张恒屈景辉张亮《微计算机应用》2007,28(9):921-924

由于HTML本身在自描述上的缺陷，网页信息中不可避免地存在大量的噪音信息。文章在分析了网页的HTML文档结构和噪音类型的基础上，给出了网页文本信息提取、对噪声抑制的方法，以及实现的过程。并尝试性地使用信噪比的概念作为评判文本信息提取去噪结果优劣的依据，实验结果显示，抽取去噪效果明显；同时实验表明，信噪比可以作为网页信息去噪结果优劣的评判标准。相似文献

11.

基于网页结构特征的网页主要文本信息抽取策略

火善栋《现代计算机》2008,(4):73-75

根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作.该抽取方法具有较强的空阃适应性和时间适应性. 相似文献

12.

基于幻灯片播放方式的网页标记语言及其浏览器

彭智勇赵明霞《计算机工程与应用》2004,40(11):111-113,138

目前,绝大多数网页都是用超文本标记语言HTML描述,并通过浏览器进行浏览,这是一种基于论文阅读的网页浏览方式。该文提出了一种基于幻灯片播放方式的网页标记语言HPML及其浏览器,它能够实现将网页中的文字图像内容以幻灯片的形式自动播放,并通过文本-语音转换器(TextToSpeechEngine)将幻灯片中某些文本形式的内容转换成语音形式,同时能够实现幻灯片图像和语音的同步播放。这种方式极大地放松了对显示器屏幕的尺寸和网络带宽的要求,因此特别适合于移动环境下的网页浏览。相似文献

13.

基于统计的中文网页正文抽取的研究

ZHAO Wen TANG Jian-Xiong GAO Qing-Feng 《数字社区&智能家居》2008,(1)

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。相似文献

14.

基于统计的网页正文信息抽取方法的研究 总被引：47，自引：6，他引：47

孙承杰关毅《中文信息学报》2004,18(5):18-23

为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。相似文献

15.

一种基于页面Block的Web信息提取方法

蒙韧邵延振袁鼎荣《微机发展》2010,(1):197-200

基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块（Block）给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。相似文献

16.

基于节点类型标注的网页主题信息抽取方法

谢方立周国民王健《计算机科学》2016,43(Z11):31-34, 49

提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。相似文献

17.

网页内容安全快速信息抽取方法

张驰罗森林《信息网络安全》2012,(10):20-22

文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取．再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96．2％和95．9％,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。相似文献

18.

基于自然语言处理的网页过滤方法研究

张茂元邹春燕《计算机与数字工程》2003,31(3):24-28,11

www上的信息极大丰富，搜索引擎存在精确度低的问题。为准确地从搜索到的网页中提取有用信息，发展一个自动的过滤器已成为当务之急。本文提出的基于自然语言处理的网页过滤方法，从语法、语义和语境三个方面上分析网页的自然语言。实验表明，该方法在一定程度上提高了搜索引擎的精确度。相似文献

19.

基于超链接和DOM结构树的网页标题实时抽取方法

张兵 汤进  罗斌 《计算机与现代化》2015,(8):84

网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。  相似文献

20.

应用聚类技术分类提取Web页面

崔慧超刘莉《数字社区&智能家居》2010,(1)

针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。相似文献