搜索引擎技术分析与研究
摘 要
搜索引擎是在互联网产生后伴随着网络用户快速查询信息的需要而产生的提供信息检索服务的计算机系统。搜索引擎是检索因特息资源的重要工具。面对海量的网络信息资源,利用搜索引擎是准确、迅速、全面地进行信息检索的有效途径。如果没有搜索引擎,互联网上的信息资源就不能被有效利用。搜索引擎的研究背景,搜索引擎按照检索方式可分为全文搜索引擎、目录搜索引擎和元搜索引擎三大类。搜索引擎存在的影响,搜索引擎给网吧行业带来的影响。走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。搜索引擎的技术发展趋势将更将专注、具体
关键词:搜索引擎,搜索引擎的分类,智能化
目录
搜索引擎技术分析与研究 ........................................................................................................ 1 目录 ............................................................................................................................................. 2 第一章 引言............................................................................................................................... 2 第二章 搜索引擎简介 .............................................................................................................. 3 第三章 搜索引擎的工作原理 .................................................................................................. 4 第四章 搜索引擎的分类 .......................................................................................................... 5
一、 全文搜索引擎.................................................................................... 5 二、 目录式搜索引擎................................................................................ 5 三、 元搜索引擎........................................................................................ 6 四、 垂直搜索引擎.................................................................................... 6 五、 其他非主流搜索引擎........................................................................ 6
第五章 搜索引擎发展趋势 ...................................................................................................... 8 第六章 结束语......................................................................................................................... 10 参考文献 ................................................................................................................................... 11
第一章 引言
互联网发展之初,互联网网站相对较少,信息检索比较容易。但伴随着计算机和互联网技术的飞速发展,网络上的信息量急剧增长,已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。用户要在信息海洋里查找信息,就像大海探针一样。如何准确有效地从互联网上获取信息就成了一项艰巨的任务,利用搜索引擎是最有效的解决方法。
搜索引擎是在互联网产生后伴随着网络用户快速查询信息的需要而产生的提供信息检索服务的计算机系统。搜索引擎是检索因特息资源的重要工具。面对海量的网络信息资源,利用搜索引擎是准确、迅速、全面地进行信息检索的有效途径。如果没有搜索引擎,互联网上的信息资源就不能被有效利用。这里对搜索引擎的工作流程和关键技术进行简单介绍。
第二章 搜索引擎简介
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。
第三章 搜索引擎的工作原理
索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页。每个的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
第四章 搜索引擎的分类
人们对于搜索引擎的理解经历一个非常漫长的过程,从早前的目录式搜索,到现在的全文搜索,搜索引擎神秘的面纱逐步展现在人们面前。至今主流搜索引擎基本上有以下四种:
一、 全文搜索引擎
全文搜索引擎是真正意义上的搜索引擎,它通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。现在比较有名的搜索引擎包括:Google、AllTheWeb、AltaVista、WiseNut等,国内的有百度、中文搜索、北大天网等。
全文搜索引擎具有全文搜索、检索功能强、更新及时,且无须人工干扰等优点,但是却由于提供过多的返回信息而降低了命中率,用户需要从中筛选获得自己想要的信息。
二、 目录式搜索引擎
目录式搜索引擎是最早出现的搜索引擎,它仅仅是按目录分类的的网站链接而已,用户无须进行关键词查询,仅靠分类列表就能找到需要的信息。这种搜索引擎最有名的是早期的雅虎,以及国内的搜狐。其他还包括Open Directory Project(DMOZ) 、LookSmart、新浪、网易等。
目录式搜索引擎最大的特点是由人工建立,目标结果是网站,通过仍的方式将各个站点进行了分类,只记录一些摘要信息,及该网站的简要介绍。它的主要优点有:层次、结构清晰,易于查找,其缺点是搜索范围小,数据量有限,更新速度慢,维护成本较高。
三、 元搜索引擎
元搜索引擎并没有自己的数据,在接受用户查询请求时,同时在其他多个搜索引擎上进行搜索,然后将结果返回给用户。 著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是北斗搜索。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
元搜索引擎的主要优点是返回结果的信息量大;缺点则是不能充分利用原搜索引擎的功能,用户需要做更多的筛选。
四、 垂直搜索引擎
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
五、 其他非主流搜索引擎
1集合式搜索引擎 该搜索引擎类似于远搜索引擎,但区别在与不是同时调用多个搜索引擎进行搜索,而是根据用户提供的4个搜索引擎之中选择。
2门户搜索引擎 虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,结果
完全来自其他搜索引擎。
3免费链接列表 这类网站一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
第五章 搜索引擎发展趋势
随着互联网技术的不断发展,搜索引擎以其强大的搜索功能对上亿网页进行信息的检索,而且搜索时间通常不过几秒,深受人们的喜欢。人们对搜索引擎功能的要求也越来越高.不同人群有不同的搜索需求,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。未来的搜索引擎呈现三大发展趋势:即多元化、智能化、专业化。
搜索引擎的发展趋势之一是多元化,即元搜索引擎。现有不少单搜索引擎只能在本身所建立的数据库查询所需要的信息资料。不能利用其他的搜索引擎查询信息资料。为此有些发达国家已开发出了10多种元搜索引擎,服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawle、InfoMarket、Digisearch、Metacrawler、 Savvyearch、Cyber411、Ymfusion、IQ99等。这些元搜索引擎的功能优于单搜索引擎。它能有选择地调川多个单搜索引擎搜集信息,并能集中处理查检结果.按其相似性进行匹配排序,返回用户,能将查到的信息按单搜索引擎归类,以说明所搜索的信息是哪个单搜索引擎查到的。
搜索引擎的发展趋向之二是智能化,即机器人搜索引擎。搜索引擎的智能化体现在两方面:一是对搜索请求的理解.二是对网页内容的分析。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测并为用户提供有效的答案是这种系统的支柱技术。自然语言搜索能力也是智能化的一个体现,是目前相对易于开发的技术。智能化的搜索引擎的智能功能反映在两方面:首先是能进行自动词汇拆分。GOYOYO等搜索引擎能对用户描人的中文或英文词组进行自动规范化处理,能进行自动词汇拆分,使用户对中、英文信息都能查找;其次是能进行自动搜索与标引。一种被称为机器人的搜索引擎,利用自动代理软件Robot(机器人), Spider (蜘蛛),Worm(爬虫), WebAnts(网蚁)等,在网上24小时不停地漫游、遍历,
通过访问网络中每一个公开区域的站点,自动地搜集网上的信息资源,记录下新的网址。如通过Altavista的“蜘蛛”( Spider)可以访问一亿个网站。而后利用索引软件对所搜索的信息进行自动标引,以建立按关键词查询的Web页索引数据库,供用户查询。该类搜索引擎的优点是信息量大、更新及时、不需人工干预。缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:Alta-Vista、Light、 Excite、 Infoseek、Inktomi、FAST/Fast-Search。国内代表为:“天网”、悠游、OoenFind等。
搜索引擎的发展趋势之三是专业化,即专业搜索引攀。搜索引擎的专业化是为了专门收录某一行业、某一主题和某一地区的信息而建立,非常实用。如有商务查询、企业查询、人名查询、电子邮件地址查询和招聘信息查询等等。这种专业化的搜索引擎是将来的方向。目前多数搜索引擎是综合性的,如YAHOO、搜孤、天网等。这类搜索引擎虽然在搜集信息的全面。
第六章 结束语
从整个搜索引擎来看,未来的大型搜索引擎是个更复杂的系统,还有很多事情要做。高质量搜索是当今搜索引擎用户所面临的最大问题是搜索结果的质量。除了搜索质量,可升级的体系结构是建立一个能跟上Web发展步伐的和当今web规模相适应的搜索引擎途经之一。
参考文献
[1] 刘志军.搜索引擎介绍.www.seo007.com.2007,3
[2] 张聪慧.搜索引擎的使用技巧.www.baiddu-seo.com.2008,6
[3] 李晓明.搜索引擎技术及趋势[J].武汉理工大学硕士论文.2004,6
[4] 刘建国.Google搜索引擎原理.www.stlchina.org.2007,8
[5] 贾红英.网络搜索引擎探析[J].山东省广播电视大学论文.2002,5