Network&Communication・网络与通信 智能搜索引擎发展现状及关键技术 文/艾丽娟 一直致力于改进Pagerank算法(在盂涛的文 得至关重要 目前机器学习逐渐成为人工智能 章中有较全面的综述),由此来提高搜索结果 研究的核心之一,它的应用已经遍及人工智能 的质量。 的各个领域。数据挖掘又可称为数据库中的知 从第一代搜索引擎到第二代搜索引擎是 识发现,指的是从存放数据库、数据仓库货其 质变过程,而到第三代搜索引擎则是量变与质 他信息库中的大量数据中获取有效的、新颖的、 变的结合,不仅提升了检索技术,还向着智能 潜在有用的、最终可理解的模式的过程[5】。 【关键词】智能搜索引擎技术 化的方向发展。自从进入第三代搜索引擎,全 4结束语 球都在不断探索和完善搜索引擎技术,经过多 1引言 年的探索和市场历练,现今已露端倪。这一端 lnternet的信息量爆炸性递增,搜索引擎 倪包括两个趋势:一是以Goog le为主要代表 在用户和信息源之间架起了沟通的桥梁,为 随着信息技术的迅速发展和Internet的广 技术驱动型理念,还包括雅虎、搜狐等;二是 人们迅速、方便地获取有效信息提供检索服务, 泛普及,信息搜索成为广大网络用户获取互联 以J wm guagua(精武门呱呱)为主要代表的 起到信息导航的目的。当前的智能化搜索引擎 息的主要手段。在网络上信息量成几何级 服务驱动型理念。以上两种类型的理念体现了 能够实现信息服务的智能化、人性化、高效化, 数的增长,人们将怎样在网络上搜索自己需要 第三代搜索引擎的智能化、人性化特征,不再 为用户检索互联息提供了方便,其发展是 的信息。传统的搜索引擎技术在日益庞大的信 局限于机械的关键词检索,可以直接对用户输 一个长期的过程。目前的搜索引擎主要提供基 息量面前逐渐显得力不从心。在这样的状况下, 入的检索词进行语义分析整合,满足了用户更 于文字内容的信息检索服务,而对于进一步提 智能搜索引擎技术应运而生,也成为当前搜索 快、更准、更方便的查询需求。 高检索结果的相关、个性化检索服务、支持多 引擎技术发展的主要方向。 3智能搜索引擎的关键技术 媒体检索、支持自然语言检索、增强检索界 面的友好程度等还有非常多的工作需要去做, 2搜索引擎发展历史及现状 智能化搜索引擎具有信息服务的智能化、 搜索引擎要真正地实现智能化并不仅仅局限于 目前公认的第一代搜索引擎是以Yahoo 人性化特征,可以为用户提供更快、更准确的 概念上那么简单。但是我们要坚信,在科学技 为代表的人工目录分类导航检索的网站搜索 搜索服务,一般包括人工智能、模式识别、语 术的不断发展和推动下,一些高性能的满足不 ,它开始了互联网搜索的时代。这是最为传统 义分析、神经网络等智能搜索。目前面对这用 同需求的搜索引擎将会不断被开发出来。 的搜索引擎,主要缺陷在于检索结果的相关性 户对搜索引擎的要求不断提高,要求智能搜索 差,检索结果杂乱无章且数量庞大,与用户所 的技术在不断更新,相关的算法不断的优化。 参考文献 想检索的结果差异太大,无法做到较为精确的 现在的搜索引擎主要还是以文字内容为基础, [1] 浅析第三代搜索引擎的发展….包 检索。 其主要方法有两种:一是基于词典匹配,该方 瑞.晋图学刊,201 0年第4期(总第 第二代搜索引擎是以Google为代表的, 法是将待分析的汉字与事先造好的词典中的词 11 9期). 基于关键词和特殊算法的搜索,是依靠机器 条进行匹配,在待分析汉字串与词典中已有的 [2] 第三代搜索引擎的研究现状及其发展趋 抓取的、建立在超链分析基础上的大规模网页 词条匹配则成功,或切分出一个单词。词典匹 向探析….张立彬1,杨军花1,杨琴茹 搜索,相较于第一代搜索引擎提高了查准率、 配方法计算较为简单,其准确度较大程度上取 2.情报理论与实践,2008(5):78 5—789. 查全率和检索速度。但是仍然不能满足网民的 决于词典的完整性和更新情况;二是基于统计 [3]搜索引擎的未来发展【J].韩进军,安 检索需求,用户在信息检索过程中有仍存在查 方法,该方法需要分析大量的文字样本,计 园园.医学信息学杂志,2007(5):431— 全率、查准率低,检索多媒体信息的能力差等。 算统计出字与字相邻出现的概率,几个字相邻 434. 由此可见,第一、第二代搜索引擎使用的 出现越多形成一个词的可能性就越大。基于统 [4]数据挖掘[EB/OL】.http:l/haike.aidu. 技术难以满足用户快速准确查找信息的需求。 计的方法优势是对新出现的词反应更快速,也 com/view/7893.htm 2 01 0-01一O8. 造成这种情况的本质在于搜索引擎对要检索的 有利于消除歧义。以上两种方法各有优劣,实 信息仅采用机械的关键词匹配来实现,无法对 际应用中则是混合使用两种方法来达到快速高 作者单位 所检索的内容进行处理和理解达到智能检索的 效,又能识别生词、新词,消除歧义。 广西大学计算机与电子信息学院 广西南宁市 目的。将信息检索从基于关键词层面提高到基 而为了更好的应用以上两种方法,并要 5 30004 于知识(或概念)理解层面,是解决问题的根 求智能引擎能够进行自然语言理解和处理关键 本和关键。正是基于此需求,近年来研究人员 词的含义,机器学习和数据挖掘技术的发展显 Electronic Technology&Software Engineering电子技术与软件工程・19