一种分层机制的网络新闻话题融合方法
1 引言
随着网络技术的不断发展,互联网已经成为一种新的新闻媒体传播媒介。相比其它新闻类别,网络新闻具有更新速度快,信息量大,交互性强等优点。因此以新闻网页为对象的数据挖掘技术成为近年来工业界和学术界共同的研究热点。网络上的新闻大多分布比较杂乱,寻找准确的新闻内容显得十分困难。因此,一种高效、准确的新闻话题自动聚类融合方法是很必要的。然而,传统的方法只是将话题表示为一个统一的单层模型,利用特征融合等方法进行聚类。传统方法比较简单便捷,只是对新闻整体进行了简单地聚类融合,没有考虑话题的层级结构,容易忽略子话题的细节特征,影响话题融合的准确性,造成话题融合结果的偏斜。因此,需要一种新的新闻话题聚类融合方法,对新闻正文实现基于分层机制的融合,提高新闻聚类的准确度。
目前对新闻话题的分层机制研究主要采用两种策略:基于关键词的方法和基于时间信息的方法。张阔等[1]采用基于关键词的策略,提出以词元单位为基础的话题内事件检测方法,以事件的形式体现子话题。仲兆满等[2]则考虑了文本中的时间信息特征,通过获取新闻报道的发布时间对新闻进行排序,进而对相同时间段内的新闻进行话题聚类,实现话题分层。文献[3]对搜索引擎返回的话题相关文档进行子话题本文由论文联盟收集整理划分,结合了两种子话题聚类方法。基于关键词的划分方法中,首先计算关键词的权重,然后根据关键词进行分类,但是并没有分析子话题的内容特征。在基于时间信息的划分方法中,简单地将同一时间点的子话题片段进行合并,并没有考虑同一时间点可能出现多个子话题的情况。基于话题层级的话题聚类对于话题演化研究具有重要意义,其中,akknen[4]提出在话题演化挖掘过程中通过分析名词实体来测量话题之间的相似度,文献[5][6]则讨论了对于不同话题层级结构的新闻文档进行话题演化追踪的相关工作。而洪宇等[7]将新闻报道划分为不同的层级结构,根据相关子话题的比例和分布建立新话题的检测模型,实现对新事件的识别。与已有工作相比,本文的主要贡献在于:
(1)提出了面向不同新闻结构类型的网络新闻话题层级关系构建方法,有效识别话题的层级关系,对普通网络新闻具有较强的普适性。
(2)提出了基于分层机制的网络新闻话题聚类算法,根据话题层级关系结合时间信息,实现子话题的同级聚类,有效提高话题融合算法的准确性。
2 新闻话题层级关系构建
总的来说,网络新闻根据报道格式可以分为两类:含有子标题的显式层级新闻和不含有子标题的隐式层级新闻。针对显式层级新闻,新闻正文中的标题与子标题体现了新闻话题的层级关系,如图1所示,方框中的加粗文字作为新闻的子标题表达了整篇新闻局部篇章的内容,因此,我们可以直接利用这些子标题作为话题层级结构的子话题进行子话题的融合。
对于隐式层级新闻,我们通过提取段落的关键词构建TextTiling模型[8]来建立层次结构。TextTiling方法主要应用于新闻报道中文章段落划分。Hearst[8]的研究表明,在一篇新闻报道中,通常是相邻的若干句子表达同一个子主题,这些表达同一子主题的句子中相邻两句的相似度都比较高,而子话题有转折的两个相邻句子的相似度相对会有大幅度下降,TextTiling方法将表达同一个子话题的句子划分为同一段落。这种方法具有普遍的适用性,其关键在于爬取新闻网页的时候新闻的段落层次能够区分出来进行数据处理。
此外,针对每一篇新闻文档,我们还将其标题抽取出来作为一个单独的话题层次,因为新闻的标题是整篇新闻的核心总结,通常我们可以通过新闻标题了解到新闻将要讲述些什么。因此,新闻的标题作为一个单独的话题层次是可行的,对于后期的实验结果评测也是一个可参考的参照指标。
3 基于层级关系的话题融合
未完...点击下方链接下载完整文档