论文天下|会计论文|管理论文|计算机论文|医药学论文|经济学论文|法学论文|社会学论文|文学论文|教育论文|理科论文|工科论文|艺术论文|哲学论文|文化论文|外语论文|格式论文
论文天下
计算机应用论文  计算机理论论文  计算机网络论文  电子商务论文  软件工程论文  操作系统论文  通信技术论文   
基于网页结构与链接关系的中文文本分类方法

摘 要:提出一种通过综合考虑网页的htl结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同htl标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作用,因此对不同标记下的内容赋以不同的权值,可以提高分类效果。考虑到页面正文中链接指向的页面内容与原网页相关度较高,通过综合考虑这些页面的内容,可以有效加强类别关键词的权值,减少噪声,提高分类效果。经过实验证明这一方法提高了分类结果的f1值。关键词:中文文本分类;htl结构; 链接关系; 向量空间模型
  中图分类号:tn911-34; tp391 文献标识码:a
  文章编号:1004-373x(2010)22-0054-03
  
  a nvel hinese text alssifiatin ethd using ebpage tags and hyperlinks
  gu xia, jiang zng-li
  (llege f puter siene, beijing university f tehnlgy, beijing 100124, hina)
  abstrat: a ebpage lassifiatin ethd using the htl tags and hyperlinks t iprve the vetr spae del representatin is intrdued. beause the ntent in different htl tags has different seanti eaning and plays different rle in ebpage lassifiatin, assigning eights t the ntent by the iprtane an iprve the lassifiatin auray. in additin, t better del the ebpage fr lassifiatin, bining the infratin prvided by the ebpage that are referred in the bdy f the riginal ebpage, nsidering they are relevant and an enhane the eights f relevant rds and redue the eighs f irrelevant rds. the experiental results denstrate that the prpsed ethd effetively iprves f1 easure.
  keyrds: hinese text alssifiatin; htl tags; hyperlinks; vetr spae del
  收稿日期:2010-06-19
  
  随着计算机技术、通信技术等信息技术的高速发展,以及互联网基础设施建设与网络信息工具的大量推广应用,网络上的信息正在以几何级数进行着增长。如何使用户能够方便地从网络上海量的信息资源中获得其期望的部分,成为了当前信息领域重要的研究课题。
  网络搜索引擎,是用来进行网络文本索引的一种重要手段,是针对网络中大量网页文本信息进行信息挖掘的有效手段。在网络搜索引擎的构建中,网页文本分类问题是一个关键性的核心问题。高质量高效率的网页文本自动分类,对构建高效、实用的搜索引擎起着重要的作用。同时在解决主题搜索、个性化信息检索、搜索引擎的目录导航等相关问题时,网页文本分类技术也是十分重要的。因此研究如何提升网页文本分类性能,对研究新一代搜索引擎有着重要意义。
  1 网页文本分类技术简析
  网页文本分类是指按照预先定义的主题类别,根据海量网页文档的内容,确定相应网页的类别。
  目前,网页文本分类采用的技术基础是基于内容的纯文本分类。基本方法是,在抓取到的网页集合中,对每篇网页文本进行纯文本的内容抽取,得到相应的纯文本文档。再将抽取出的纯文本组成新的文档集合,在新的文档集合上应用纯文本分类算法,进行分类。再根据纯文本和网页文本的对应关系,对网页文本进行分类。即应用网页的纯文本内容信息,对网页进行分类。
  上述方法的本质,是将网页文本的分类问题映射成为纯文本分类的问题。但是,由于网页文本是超文本标记语言(htl),并非纯文本的自然语言。因此,这样的映射,不能很好地反映网页分类问题的本质。所以仅应用基于网页内容的纯文本分类方法,会对网页文本分类的准确率造成一定的不良影响[1]。
  针对这个问题,目前已经有一些改进的技术。一类改进方法,是在对网页进行文本内容提取时,基于网页htl结构信息,对提取出的纯文本的向量表示进行某些修改[2-4]。还有一类改进,是针对网页文本中的超级链接,利用不同页面间的链接关系进行分类。

未完...点击下方链接下载完整文档

基于网页结构与链接关系的中文文本分类方法

摘 要:提出一种通过综合考虑网页的htl结构信息以及网页间的链接关系,修改网页文本在向量空间模型表示中的权值,对网页进行分类的方法。考虑到页面里处在不同htl标记下的内容具有不同的语义含义,某些特殊标记下的内容具有较重要的意义,对网页的分类起较大的作
  • 上一篇:智能软化击穿仪温控系统的设计与实现
  • 下一篇:智能路灯控制系统设计与应用研究
  • 基于PDM技术的AGC电路设计
    基于条码技术的库存管理系统设计
    运用PowerShell计算行×列表χ2
    计算机在儿童保健系统管理中的作
    煤矿无人工作面中视频监控系统的
    电子报刊版面设计浅谈
    关于任务驱动式教学方式在计算机
    基于多智能体的用户偏好系统研究
    基于Delphi开发平台的分布
    加强基层国库业务系统应急机制建
    关于电子技术应用专业课改的设想
    计算机病毒及防范措施
    基于LabVIEW可视化数据采集处理
    高速公路机电设备管理系统的研究
    基于SOA的实验教学管理原型系统
    浅谈基于ARM7处理器LPC2119的U
    基于数学形态学的心电信号R波
    浅谈基于GIS的通信指挥网上训
    浅析基于IWT和FCM的曲线矢量数
    略论一种基于负载均衡异构分布
    浅谈基于Simulink的自动控制系
    浅析一种基于前缀节点的频繁子
    略一种基于混沌搜索的文化算法
    浅析基于隐马尔可夫模型的热路
    浅谈基于NCC的图像匹配快速算
    | 设为首页 | 加入收藏 | 联系我们 | 论文发表

    Copyright 2006-2020 © 论文天下 All rights reserved 本站所有内容均由SPider自动索引,如有侵权请联系QQ:2486851删除