论文天下|会计论文|管理论文|计算机论文|医药学论文|经济学论文|法学论文|社会学论文|文学论文|教育论文|理科论文|工科论文|艺术论文|哲学论文|文化论文|外语论文|格式论文
论文天下
计算机应用论文  计算机理论论文  计算机网络论文  电子商务论文  软件工程论文  操作系统论文  通信技术论文   
中文智能搜索引擎技术研究

中文智能搜索引擎技术研究

引言
  随着互联网的快速发展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要提高信息检索准确性和全面性,还要满足用户个性等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索引擎技术能够比较好的实现这一目标。
  1 搜索引擎
  1.1 搜索引擎基本原理
  搜索引擎由信息搜集系统、文件处理系统、索引系统和检索系统组成。
  信息搜集系统通过网页抓取程序(spider)在网络中顺着网页的超链接抓取网页,搜集文档的基本信息并下载至搜索引擎本地,然后将文档和其基本信息分开,并保存到原始文档数据库和文档信息数据库中。
  文件处理系统负责将需要索引的文件转换成具有统一编码格式的文本文件。信息搜集系统从网络上下载文件,保存到本地供索引器索引。文件文本格式种类繁多,如纯文本文件、htl格式文件、rd文件、pdf文档等,文本格式相同的文件,字符编码方式也不尽相同。文件的异构性要求文件处理系统将各种不同格式的类文本文件转换成纯文本文件。
  索引系统将程序收集到的文件进行处理,建立索引库和索引。相关处理还包括去除重复网页、分词(中文)、判断网页类型、分析超链接,计算网页的重要度、丰富度等。
  检索系统通过用户输入的关键词从索引数据库中找到与关键词匹配的网页,并按照文档得分的高低依次显示在用户浏览器中。
  1.2 传统搜索引擎的局限性
  面对浩如烟海的网络信息,用户想要通过一般搜索引擎获取准确和全面的信息较困难。其局限性表现在:
  (1)信息检索方式单一。搜索引擎一般提供网站分类查询和关键词全文检索两种方式,这两种方法均容易造成信息丢失,不能全面检索用户需要的信息;不能对用户输入的关键词进行词意分析和词意扩展。如今信息的多样化要求搜索引擎不仅要检索出文档,还要检索需要的图片、视频、音频等。
  (2)不能个性化制定。传统搜索引擎提供相同的界面和检索策略,不能提供用户信息定制,不同用户输入相同的查询条件返回的结果相同。不同领域的用户对同一个关键词的搜索返回的检索结果应该不一样,智能搜索引擎能根据用户专业背景和网页浏览历史检索出用户需求的信息。
  (3)对信息的标引深度不够。搜索引擎检索的结果往往只提供线形的网址和包括关键词的网页信息,或者返回过多的无用信息,特别是对特定文献数据库的检索更显得无能为力[1]。
  (4)信息更新能力低。搜索引擎信息收集和查询是两个分离的过程,缺少有机结合。网络信息资源呈分布式、动态、快速增长,搜索引擎的集中化架构不能跟上文档的扩张速度,也就不能有规律地及时更新数据库,用户检索到的结果可能不是最新信息。
  2 智能搜索引擎
  智能搜索引擎应摆脱传统搜索引擎的局限性,更加智能化,更具主动性,提供多元化的检索方式,为用户提供个性化制定,检索出满足用户个性需求。
  2.1 智能搜索引擎主本文由论文联盟收集整理要特征
  (1)智能性。智能化搜索引擎网络蜘蛛通过自主启发式学习选择最有效的搜索策略和最佳时机,在特定站点或者整个因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的搜索结果进行整合,作为一个整体存放到数据库中。
  (2)个性化。智能化搜索引擎提供个性化制定服务,用户注册基本信息,如年龄、专业背景、工作方向等,通过分析用户基本信息及平时浏览网页的记录制定出用户兴趣模块,检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一个关键词返回的结果可能不同。
  (3)多元化。智能化搜索引擎有多元化的检索方式,提供基于大众的搜索分析,基于自然语言、关键词、概念和上下文,通过相关反馈技术检索可选择查询路径。对关键词进行词意扩展和词意派生,实现准确的分词,从而更加准确地把握用户的搜索需求。

未完...点击下方链接下载完整文档

中文智能搜索引擎技术研究

中文智能搜索引擎技术研究 引言 随着互联网的快速发展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要提高信息检索准确性和全面性,还要满足用户个性等搜索
  • 上一篇:“人肉搜索”法律问题研究
  • 下一篇:网络搜索数据与GDP相关性分析
  • 基于人工智能的银行信贷风险决策
    基于GP算法的知识发现系统
    浅谈Intranet在现代企业中的应用
    光纤光缆和通信电缆技术发展与思
    大芯数OPGW在浙江电网的应用
    企业电子商务系统的规划与设计研
    面向对象数据库理论设想
    电子政务人员培训的问题与建议(1
    有关计算机软件数据接口的应用研
    浅谈行为引导教学方法在《计算机
    青年教师在医学微生物学留学生教
    渐开线圆柱齿轮几何参数计算的计
    浅谈对程序开发中异常的理解和认
    研究生阶段计算机网络理论课程教
    刍议防火墙的合理使用(1)
    人工智能导论课程的兴趣教学法
    房租VS人工智能
    研究生人工智能课程教学探索
    人工智能和人机大战简史
    基于人工智能的计算机辅助教学
    “人工智能”比人做得更好:人
    开启新人机交互时代小i机器人
    浅析人工智能在中小学信息技术
    人工智能宇宙飞船可取代人类执
    基于人工智能的计算机辅助教学
    | 设为首页 | 加入收藏 | 联系我们 | 论文发表

    Copyright 2006-2020 © 论文天下 All rights reserved 本站所有内容均由SPider自动索引,如有侵权请联系QQ:2486851删除