排序方式: 共有9条查询结果,搜索用时 15 毫秒
1
1.
2.
网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。 相似文献
3.
专业课程小型题库管理系统的研究 总被引:1,自引:0,他引:1
通常的题库管理系统都要根据教育测量理论.选择样本组进行测量,然后根据测量统计分析的结果,修改或选择合适的测试题以完成题库建设。大学计算机课程的自身特点。使其在选用通用题库系统时存在局限性。该题库一方面充分发挥教师的主动性.另一方面借鉴经典测量理论增强其规范性。 相似文献
4.
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。 相似文献
5.
特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。 相似文献
6.
学校中生源的稳定性使得经典测量理论在专业题库建设中有其可行性,然而经典测量理论的操作规则要求选取大量样本,进行反复测试,大学教育与计算机课程的自身特点又限制了上述测试的实现.在对经典测量理论改进的基础上,设计了小型计算机专业题库.试卷分析表明,此方法能有效地完成大学专业考试,并能客观评价学生水平. 相似文献
7.
通常的题库管理系统都要根据经典测量理论,选择样本组进行测量,然后根据测量统计分析的结果,修改或选择合适的试题以完成题库建设。这种方法对测试组的能力有一定的依赖性,所得到的修正参数也存在偏差。针对经典测量理论存在的问题,提出以项目反应理论为基础,通过多次迭代,利用最大似然估计法估计被测试组的能力参数,在此基础上产生题目参数。用此题目参数对试题相应初始值进行修正,并根据这些参数指标组合成卷。实验结果表明,此方法估计出的题目参数相对稳定,不因测试组的不同而有明显变化,实践证明能显著提高试题的有效性。 相似文献
8.
突发事件新闻网页的去重方法研究 总被引:1,自引:0,他引:1
随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领域文本特征,提出在提取主题内容的基础上,根据突发事件特有的重复规律实现网页去重.实验结果表明,该方法能有效地提高网页去重准确率. 相似文献
9.
基于发布时间的新闻网页去重方法研究 总被引:1,自引:0,他引:1
网页检索结果中,用户经常会得到内容相同的冗余页面。它们不但浪费了存储资源,而且给信息检索或其它文本处理带来诸多不便。论文在抽取出新闻标题、主题内容和发布日期的前提下,依据新闻的时间性(易碎性),按发布日期分“群”,对冗余网页去重方法进行了探索性研究,从而很大程度地缩小了计算时间,提高了去重准确性。 相似文献
1