免费论文
收费论文
发表论文
我要投稿
设为首页 招标网
联系我们
经济学|管理学|法学|计算机|医学|教育|文学|政治|艺术|哲学|更多 经济学|管理学|法律|计算机|医学|教育|文学|政治|艺术|哲学|更多
 论文搜索
  推荐服务: 论文发表 收费论文
期刊论文格式
毕业论文格式
期刊论文范文
毕业论文范文
论文致谢
毕业论文答辩
开题报告
论文选题
英文摘要书写
基于多特征的Web社区发现关键技术研究
中文名称: 基于多特征的Web社区发现关键技术研究
全文提供: 购买充值卡,就可下载本篇论文全文  
论文编号: 3101648收藏本论文】【我的收藏】【我要投稿
英文名称: Research on the Key Problems of Web Community Discovery Based on Multiple Features
学位类型: 博士毕业论文
作者: 涉及隐私,隐去***  作者本人请参看权力声明>>
导师: 涉及隐私,隐去***
毕业学校: 涉及隐私,隐去***
专业: 计算机应用技术
毕业年份: 涉及隐私,隐去***
关键字: 社区发现 内容提取 聚类集成 多视图学习 信息检索 Web技术 多特征
简介目录: 点击此处 免费索取本论文简介和目录>>
全文提供: 购买充值卡,就可下载本篇论文全文  

       论文发表:快速、低价、包过!发表论文就找论文天下

论文简介:随着Internet的广泛应用,WWW已经成为了一个巨大的、分布广泛的全球信息服务中心,提供了新闻、财经、广告、商务、文化、教育等各种信息服务。如何利用Web快速、准确地获得信息及隐藏在信息中的知识是人们的迫切需要。但互联网上存在的信息是海量的,无组织的,这使得在Web上提取知识存在着很大的困难。 互联网上高度相关的页面聚集在一起形成的一个个具有共同主题的页面集合是Web社区。根据Web社区从互联网中提取知识是一种快速、有效的知识提取途径。社区发现是指在分散和无序的互联网环境中发现潜在的和已定义的主题社区,并从互联网中抽取这些社区的过程。本文主要围绕社区发现的三个部分:页面预处理、主题社区发现和基于社区的信息检索模型进行了深入的研究。 在社区发现中,Web页面非线性结构和存在噪音的特点使得我们容易对页面的主题产生歧义,降低社区发现的准确性。针对该问题,本文在页面预处理部分提出了基于页面结构与内容特征相结合的页面内容提取算法。该算法改进了VIPS算法,根据页面块间的耦合度与页面块内内聚度的关系定义页面块分割的目标函数。并且采用两层过滤机制过滤噪音块对分割得到的各块进行了后处理,保留主题区域与主题相关区域。并对主题区域与主题相关区域的块进行内容的合并。 由于Web页面是一个多特征集表示的对象,使用单特征集进行社区发现通常会导致在不同类型特征上得到不同的社区分布。因此本文在主题社区发现中针对基于多特征的Web社区发现问题进行了研究,提出了:1)基于互信息的“软”聚类集成算法;2)基于差异度的互信息“软”聚类集成算法;3)基于多视图聚类的Web社区发现算法。 “软划分"的聚类集成是多特征Web社区发现的重要组成部分。针对“软划分”的聚类集成,本文提出了一种基于互信息的“软”聚类集成算法。该算法是将Strehl 提出的基于互信息的聚类集成目标函数扩展到“软”划分集成中,并且提出了求解该目标函数的新聚类集成算法。该算法不需要建立不同聚类间的对应关系。 由于聚类集成的质量不仅依赖于集成算法,同时也依赖于参加集成的聚类成员本身的分布。通常聚类成员间较大的差异度能有效地提高集成的质量。本文主要通过差异度衡量聚类成员对集成的重要性,对聚类成员赋予不同的权值,提出了一种基于差异度的加权互信息集成算法。在聚类成员的差异度值分布不均匀或聚类成员的差异度均值不大时,基于差异度的加权互信息集成算法能有效地提高对“软”划分集成的准确性。对于Web社区发现而言,在进行聚类集成前需要采用基本聚类算法在各个特征集上获得多个聚类结果。信息瓶颈算法是一种有效的文档聚类算法,但它是单视图(即:单个特征集)算法,没有考虑视图间的关系。本文将多视图学习的思想引入信息瓶颈聚类算法中,并且将其与Web页面的多视图表示,用于“软”划分集成的互信息聚类集成算法结合在一起,提出了一种基于多视图聚类的Web社区发现算法。该算法充分地利用了多视图学习中的两个重要条件:条件独立性与兼容性,将最大化不同视图间的同意程度作为对多视图表示对象聚类的兼容性约束。通过增加兼容性约束,在每个视图上获得能透露更多正确假设信息的聚类结果,并且最终运用基于互信息的软聚类集成算法对所有单视图上聚类结果进行集成,提高了Web社区发现的准确性。该算法是基于多特征的Web社区发现的核心。 为了克服“一词多义”和“一义多词”带来的信息检索查全率和查准率的降低,本文提出了一个基于社区的信息检索模型。该模型是在用户与通用搜索引擎间定义了一个中间层。用户通过中间层访问一个已发现的主题社区模型,明确所需的主题并且进一步精化检索需求。同时该中间层根据精化的检索需求,产生一个“中间查询"指导用户通过通用搜索引擎在互联网上搜索。
本类相关论文:
·学习资源管理与服务关键技术研究
·基于语义的Web服务发现和组合技术研究
·Web服务组合方法的研究
·基于Web信息抽取的专业知识获取方法研究
·基于J2EE的网上选书系统的实现
·即时消息交换体系结构及其关键技术研究
·实时协同图案设计优化数据传输若干问题研究
·移动Agent系统安全性若干问题研究
·面向Internet的发布/订阅系统的关键技术
·面向服务的移动Agent组通信研究
社区发现论文 内容提取论文
·复杂网络特征结构的挖掘方法研究
·复杂网络中的社区发现及进化研究
·复杂网络中的重叠社区发现算法研究
·面向复杂网络的社区发现算法研究
·复杂网络重叠社区发现算法研究
·PDF文件处理系统
·Web信息内容及其特征提取方法研究
·网页多主题内容块的识别和提取
·基于新型坐标树的页面分析和内容提取框架
聚类集成论文 信息检索论文
·面向企业关系价值分析的数据挖掘方法研究
·基于SEAM算法的集成聚类及在文本应用中的研究
·数据挖掘中模糊聚类与聚类集成研究
·基于多分类器集成的聚类算法研究
·社会标签推荐技术与方法研究
·服装面料信息管理技术研究
·融合FAQ、本体和推理技术的问答系统研究
·基于用户行为分析的搜索引擎评价研究
·P2P系统中的信息检索理论及应用研究
Web技术论文 多特征论文
·基于ArcGIS Server的大连旅游信息系
·基于Web的施工总承包企业材料设备管理系统研究
·面向知识管理的智能工艺设计研究与应用
·基于Web的城乡交错带森林资源资产评估管理信息
·法律诉讼业务实训教学系统研究与设计
·面向图像标记的随机场模型研究
·基于多特征的前方车辆检测与跟踪方法研究
·基于多特征的光学遥感图像机场掩体目标检测方法研
·基于多特征的人脸检测识别研究
·基于红外差频和多特征的疲劳驾驶监测系统研究
  推荐期刊投稿
·太原大学学报
·森林公安
·西藏发展论坛
·中外健康文摘(临床医师)
·阳光能源
·现代医药卫生
·内蒙古财经学院学报(综合版)
·山东工商学院学报
·拳击与格斗
·西北大学学报(哲学社会科学版)
 
·施工技术
·无锡南洋学院学报
·西北国防医学杂志
·消防科学与技术
·Journal of Iron and
·广告大观(综合版)
·医学信息
·实验科学与技术
·内蒙古林业科技
·黑龙江民族丛刊
 
·今日山西
·矿山测量
·改革
·包装与食品机械
·交通运输工程与信息学报
·国际儿科学杂志
·中国家禽
·福建论坛(人文社会科学版)
·佳木斯大学社会科学学报
·山西水利
   免费论文
公共管理 | 法学 | 理学 | 医药学
政治 | 社会学 | 文学 | 艺术 | 哲学
工学 | 计算机 | 文化 | 英语论文
经济学 | 财政 税收 | 证券金融
管理学 | 会计审计 | 工商管理 | 教育
财务管理 | 论文写作指导 | 应用文
   收费论文
马列毛邓 | 哲学宗教 | 社会科学
政治法律 | 军 事 | 经 济
文化科学教育体育 | 语言文字
文学 | 艺术 | 历史地理 | 自然科学
数理化 | 天文 | 生物科学 | 医药卫生
农业科学 | 工业技术 | 交通运输
航空航天 | 环境安全
   浏览历史

联系论文网 | 收费论文 | 发表论文 | 论文翻译 | 友情链接 | 全部分类 | 网站地图 | 期刊导航
版权所有 2008-2018 论文天下 www.lunwentianxia.com 京ICP备08104503号