论文天下|会计论文|管理论文|计算机论文|医药学论文|经济学论文|法学论文|社会学论文|文学论文|教育论文|理科论文|工科论文|艺术论文|哲学论文|文化论文|外语论文|格式论文
论文天下
计算机应用论文  计算机理论论文  计算机网络论文  电子商务论文  软件工程论文  操作系统论文  通信技术论文   
基于关键词组合向量模型的文本自动分类研究

 [摘 要] 本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这种模型的自动文本分类系统,包括分类系统的结构、特征提取、文本相似度计算公式,并给出了评估方法。
  [关键词] 关键词组合 向量空间 自动分类 分类算法
  
  近年来,以文本格式存储的海量信息出现在internet、数字化图书馆及公司的intranet上,如何从这些浩瀚的文本中发现有价值的信息是信息处理领域的重要目标,而文本自动分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织及挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。
  一、自动分类的种类和作用
  自动分类就是用计算机系统代替人工对文献等对象进行分类,一般包括自动聚类和自动归类。自动聚类和自动归类的主要区别就是自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系,并且要为每个类别提供一批预先分好的对象作为训练文集,分类系统先通过训练文集学习分类知识,在实际分类时,再根据学习到的分类知识为需要分类的文献确定一个或者多个类别。本文中所指的自动分类是指对网页的自动分类,包括网页的自动归类和自动聚类。
  目前搜索引擎提供两种信息查询方式:分类浏览和关键词检索。分类浏览一般是基于网站分类目录。关键词检索的对象不是网站,而是符合条件的网页。关键词检索信息量大、更新及时、不需要人工干预。
  二、问题描述
  1.系统任务
  简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
  
  文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
  2.评估方法
  我们使用评估文本分类系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:

      

;查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:

    

;准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。
  3.词语向量空间模型的文本表示
  目前,在信息处理方向上,文本的表示主要采用向量空间模型 (vs)。向量空间模型的基本思想是以向量来表示文本:(1,2,3……n),其中i为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用tf~idf公式,目前存在多种tf~idf公式,一种比较普遍的tf~idf公式为:

未完...点击下方链接下载完整文档

基于关键词组合向量模型的文本自动分类研究

[摘 要] 本文描述了一种新的基于关键词组合模式的文本向量空间表示模型,相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文讨论了使用这
  • 上一篇:计算机联锁控制系统在北京城铁中的应用
  • 下一篇:盾构姿态自动监测系统开发与应用
  • 基于条码技术的库存管理系统设计
    计算机病毒及防范措施
    基于LabVIEW可视化数据采集处理
    高速公路机电设备管理系统的研究
    煤矿无人工作面中视频监控系统的
    基于SOA的实验教学管理原型系统
    运用PowerShell计算行×列表χ2
    基于PDM技术的AGC电路设计
    电子报刊版面设计浅谈
    关于电子技术应用专业课改的设想
    计算机在儿童保健系统管理中的作
    基于多智能体的用户偏好系统研究
    基于Delphi开发平台的分布
    加强基层国库业务系统应急机制建
    关于任务驱动式教学方式在计算机
    浅谈基于ARM7处理器LPC2119的U
    基于数学形态学的心电信号R波
    浅谈基于GIS的通信指挥网上训
    浅析基于IWT和FCM的曲线矢量数
    略论一种基于负载均衡异构分布
    浅谈基于Simulink的自动控制系
    浅析一种基于前缀节点的频繁子
    略一种基于混沌搜索的文化算法
    浅析基于隐马尔可夫模型的热路
    浅谈基于NCC的图像匹配快速算
    | 设为首页 | 加入收藏 | 联系我们 | 论文发表

    Copyright 2006-2020 © 论文天下 All rights reserved 本站所有内容均由SPider自动索引,如有侵权请联系QQ:2486851删除