搜索引擎的发展
注:Excite后来因为概念搜索而出名。2002年5月,被Infospace收购的Excite停止了自己的搜索引擎,转而使用元搜索引擎Dogpile。
2.1994年4月,斯坦福大学的两位博士生,美籍华人杨致远和大卫·费罗***共同创立了雅虎!随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。雅虎!由于网站收录的网站都附有简要信息,搜索效率明显提高。
注意:雅虎!未来,Altavista、Inktomi和Google将提供搜索引擎服务。
雅虎!——几乎成了90年代互联网的代名词。
3.1995,一种新的搜索引擎形式出现了——元搜索引擎。用户只需提交一次搜索请求,元搜索引擎负责转换处理后提交给多个预选的独立搜索引擎,独立搜索引擎返回的所有查询结果都经过收集处理后返回给用户。
第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。元搜索引擎在概念上很好看,但是搜索效果总是不尽如人意,所以从来没有元搜索引擎有过强势地位。
4.智能检索的生成:利用分词词典、同义词词典、同音词词典提高检索效果,并能进一步辅助知识层面或概念层面的查询,通过主题词典、上下词典、同级相关词典的检索处理,形成知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳检索效果。
示例:
(1)查询“计算机”,也可以检索到与“计算机”相关的信息;
⑵查询范围可进一步缩小到“微型计算机”、“服务器”或扩大到“信息技术”或相关的“电子技术”、“软件”、“计算机应用”。
⑶还包括歧义信息和检索处理,如“苹果”是指水果还是电脑品牌,“中国人”和“中国人* * *和中国”的区分将结合歧义知识描述库、全文索引、用户检索上下文分析、用户相关反馈等技术进行处理,从而高效准确地反馈给用户最需要的信息。
5.个性化趋势是搜索引擎未来发展的重要特征和必然趋势之一。一种方式是通过搜索引擎的社区产品(即向注册用户提供服务)组织个人信息,然后将个人因素引入到搜索引擎的基础信息库检索中进行分析,从而获得针对个人的不同搜索结果。从2004年6月5438+10月雅虎推出myweb测试版,到2005年6月5438+065438+10月a9推出个性化功能,Googlesearchhistory基本遵循了同样的路径,分析特定用户搜索需求的有限范围,然后扩展到互联网上的其他类似网站,根据用户需求的范围给出最相关的结果。另一个是针对流行的,谷歌个性化搜索引擎,或yahooMindSet,或vivisimo,我们都知道这是前景聚类。但无论是哪种实现方式,即Google主动选择搜索范围还是yahoo,vivisimo在结果中对他们需要的信息进行重组,都是一种实验或者一种想法,短时间内不会成为主流的搜索引擎应用产品。
6.大全球网格:由于没有统一的信息组织标准对网络信息资源进行处理,无序的网络信息资源难以搜索、移交、享用甚至深度开发,形成信息孤岛。网格技术是为了消除信息孤岛,实现互联网上所有资源的全面连接。
全球信息网格(全球信息网格)
机器人这个词对程序员来说有着特殊的含义。电脑机器人是指能以人类达不到的速度重复执行一项任务的自动化程序。因为专门用来检索信息的机器人程序像蜘蛛一样在网络上爬行,所以搜索引擎的机器人程序被称为蜘蛛程序。
马修·格雷在1993年开发了万维网漫游者,这是第一个利用HTML页面之间的链接关系来探测万维网规模的“机器人”程序。起初,它只是用来统计互联网上的服务器数量,后来它也能够捕捉网址(URL)。
1994年4月,两位斯坦福大学的博士生杨致远(杨致远)和大卫·费罗***共同创立了雅虎。随着访问量和链接数的增加,雅虎目录开始支持简单的数据库搜索。因为雅虎!的数据是人工输入的,所以不能真正归类为搜索引擎。事实上,它只是一个可搜索的目录。雅虎于2002年2月23日收购inktomi,2003年7月24日收购包括Fast和Altavista在内的Overture,2003年6月30日雅虎全资收购3721公司。
1994年初,华盛顿大学的学生布莱恩·平克顿(Brian Pinkerton)开始了他的小项目网络爬虫(WebCrawler)。1994年4月20日,WebCrawler仅包含来自6000台服务器的内容。WebCrawler是互联网上第一个支持搜索文档所有单词的全文搜索引擎。在它之前,用户只能通过URL和摘要进行搜索,这些通常来自人工注释或自动提取文本前100个单词的程序。
1994年7月,卡内基梅隆大学的Michael Mauldin将John Leavitt的spider程序连接到其索引程序,并创建了Lycos。除了相关性排名,Lycos还提供前缀匹配和字符相似性限制。Lycos率先在搜索结果中使用网页自动摘要,其最大的优势是远远超过其他搜索引擎的数据量。
1994结尾,Infoseek正式出现。其友好的界面和大量的附加功能使其成为Lycos等搜索引擎的重要代表。
1995年,出现了一种新形式的搜索引擎——元搜索引擎综述。用户只需要提交一次搜索请求,由元搜索引擎负责转换处理,提交给预先选择的多个独立搜索引擎,各个独立搜索引擎返回的查询结果全部收集处理后再返回给用户。第一个元搜索引擎是华盛顿大学的硕士生埃里克·塞尔伯格和柳文欢·埃齐奥尼的Metacrawler。
1995年9月26日,加州大学伯克利分校助理教授埃里克·布鲁尔(Eric Brewer)和博士生保罗·高蒂尔(Paul Gauthier)创办了Inktomi。1996年5月20日,Inktomi公司成立,一个强大的HotBot出现在世人面前。它声称每天可以抓取超过65438+1亿页的索引,因此有远超其他搜索引擎的新内容。HotBot还使用cookie来存储用户的个人搜索偏好。
1995 65438+2月,DEC正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法(如AND、OR、NOT等)的搜索引擎。).用户可以使用AltaVista搜索新闻组并从互联网上获取文章,他们还可以在图片名称、标题、Java小程序和ActiveX对象中搜索单词。AltaVista还声称是第一个支持用户向web索引数据库提交或删除URL的搜索引擎,并且它可以在24小时内启动。AltaVista最有趣的新功能之一是搜索所有带有URL链接的网站。在面向用户的界面上,AltaVista也做了很多创新。它将“提示”放在搜索框区域,帮助用户更好地表达他们的搜索风格。这些提示经常更新,以至于用户搜索几次后,会看到很多自己可能永远不知道的有趣功能。这一系列功能逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到自己想要的东西。
1997年8月,北极光搜索引擎正式出现。它曾经是数据库最大的搜索引擎之一。它没有停止字。它有极好的时事新闻,一个由超过7100个出版物组成的特殊收藏,以及一个很好的高级搜索语法。它是第一个支持简单的搜索结果自动分类。
1998 10之前,Google只是斯坦福大学的一个小项目,BackRub。1995年,博士生拉里·佩奇开始研究搜索引擎设计,并于9月15日注册了域名,1997。1997年底,在谢尔盖·布林、斯科特·哈桑、艾伦·斯特伦伯格的参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的转型。谷歌把1998年9月27日当做自己的生日。Google在Pagerank的基础上判断网页的重要性,大大增强了搜索结果的相关性。谷歌的极客文化和不作恶为谷歌赢得了很高的声誉和品牌口碑。2006年4月,谷歌公布了自己的中文名字“Google”,这是谷歌在非英语国家给出的第一个名字。
Fast(Alltheweb)公司成立于1997,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast的目标是做全球最大最快的搜索引擎,这几年已经接近了。Fast(Alltheweb)可以按ODP自动分类网页,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图片搜索、视频、MP3和FTP搜索,具有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,搜狐公司成立,做中文网站分类目录,一度有“出门找地图,上网找搜狐”的美誉。随着互联网网站的迅速增加,这种人工编辑的分类目录已经不再适用。2004年8月,搜狐创立了独立域名搜索网站搜狗,自称“第三代搜索引擎”。Openfind成立于1998 65438+10月,其技术来自台湾中正大学吴生教授领导的GAIS实验室。起初,Openfind只是一个中文搜索引擎。在巅峰时期,它为三个著名的门户网站提供中文搜索引擎:新浪、奇摩和雅虎。然而,2000年后,市场逐渐被百度和谷歌瓜分。2002年6月,Openfind基于GAIS30项目重新发布了Openfind搜索引擎的测试版,推出了PolyRankTM,并宣布已经积累了35亿网页,开始进军英文搜索领域。
5438年6月+2000年10月,两位北大校友,超链接分析的专利发明人、Infoseek前高级工程师李彦宏和他的朋友徐勇(加州伯克利博士后)在北京中关村创立了百度公司。百度搜索引擎测试版于2001年8月发布(百度只为搜狐、新浪、Tom等其他门户网站提供搜索引擎),百度搜索引擎于2001年10月22日正式发布,专注中文搜索。
百度搜索引擎的其他功能还包括:百度快照、网页预览/所有网页预览、相关搜索词、错别字纠正提示、mp3搜索和Flash搜索。2002年3月Blitzen项目启动后,技术升级明显加快。后来又推出了贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网友好评。2005年8月5日,在纳斯达克上市,发行价27.00美元,代码BIDU。开盘价66.00美元,收于122.54美元,涨幅353.85%,创下近5年来美股上市新股的最高涨幅纪录。
2003年2月23日,65438,原慧聪搜索正式独立运营,中国搜索成立。2004年2月,中国发布了桌面搜索引擎互联网猪1.0。2006年3月,中搜更名为互联网猪ig(互联网网关)。
2005年6月,新浪正式推出自主研发的搜索引擎“爱文”。从2007年开始,新浪爱用谷歌搜索引擎。
2007年7月1;全面采用网易自主研发的有道搜索技术,将原有的综合搜索和网页搜索合并。有网页搜索、图片搜索、博客搜索为网易搜索提供服务。其中,网页搜索利用其自主研发的自然语言处理、分布式存储和计算技术;图片搜索是首个基于相机品牌、型号甚至季节的高级搜索功能;相比同类产品,博客搜索具有抓取全面、更新及时的优势,并提供“文章预览”、“博客文件”等创新功能。