网络搜索引擎按机理分有多少种?它有什么特点?

可以分为三种。

搜索引擎分类

搜索引擎按照工作方式可以分为三种,即全文搜索引擎、目录索引搜索引擎和元搜索引擎。

全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等。作为国外的代表,百度作为国内的知名企业。它们都是基于从互联网上提取的各种网站(主要是网页)的信息,搜索与用户的查询条件相匹配的相关记录,然后按照一定的顺序将结果返回给用户,所以是真正的搜索引擎。

从搜索结果的来源来看,全文搜索引擎可以细分为两种类型。一种是有自己的索引器,俗称“蜘蛛”程序或“机器人”程序,建立自己的web数据库,搜索结果直接从自己的数据库中调用,比如上面提到的七大引擎;另一种是租用其他引擎的数据库,以自定义格式排列搜索结果,比如Lycos engine。

搜索索引/目录

目录索引虽然有搜索功能,但严格意义上并不是真正的搜索引擎,只是一个按目录分类的网站链接列表。用户不需要搜索关键词,只需通过分类目录就可以找到自己需要的信息。在目录索引中最具代表性的是著名的雅虎Yahoo。其他著名的还有开放目录项目(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也属于这一类。

元搜索引擎(元搜索引擎)

当元搜索引擎接受用户的查询请求时,它同时在其他引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。(元搜索引擎列表),而有代表性的中文元搜索引擎就是搜索引擎。在搜索结果排名方面,有的直接按照来源引擎对搜索结果进行排名,比如Dogpile,有的按照自己的规则对结果进行重新排列组合,比如Vivisimo。

除了以上三类发动机,还有以下几种非主流形式:

聚合搜索引擎:如HotBot在2002年底推出的引擎。这个引擎类似于元搜索引擎,但不同的是,它不是同时调用多个引擎进行搜索,而是用户从提供的四个引擎中进行选择,所以称之为“聚合”搜索引擎更准确。

门户搜索引擎:AOL搜索和MSN搜索虽然提供搜索服务,但既没有分类目录,也没有web数据库,搜索结果完全来自其他引擎。

全链接免费(FFA):一般这类网站只是简单的滚动链接项,少数有简单的分类目录,但规模远小于雅虎等目录索引。

因为以上网站都是为用户提供搜索和查询服务的,所以为了方便起见,我们通常称之为搜索引擎。

搜索引擎的基本工作原理

了解搜索引擎的工作原理,对我们日常的搜索应用和网站提交推广会有很大的帮助。

全文搜索引擎

在搜索引擎分类部分,我们提到了全文搜索引擎从网站中提取信息建立web数据库的概念。搜索引擎有两种自动信息收集功能。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动发出“蜘蛛”程序,搜索一定IP地址范围内的互联网站。一旦发现新网站,它会自动提取网站信息和网址,并将其添加到自己的数据库中。

另一种是提交网站搜索,即网站所有者自愿向搜索引擎提交网站地址,搜索引擎在一定时间内(2天到几个月不等)向你的网站发送“蜘蛛”程序,扫描你的网站,并将相关信息存储在数据库中供用户查询。因为搜索引擎的索引规则这几年变化很大,主动提交网址并不能保证你的网站能进入搜索引擎数据库,所以目前最好的办法就是获取更多的外部链接,让搜索引擎有更多的机会找到你,自动收录你的网站。

当用户通过关键字搜索信息时,搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站,就会采用特殊的算法——通常是根据网页中关键词的匹配度、出现的位置/频率、链接的质量等。-计算每个网页的相关度和排名等级,然后根据相关度将这些网页链接按顺序返回给用户。

搜索索引/目录

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引完全靠人工操作。用户提交网站后,目录编辑会亲自浏览你的网站,然后根据一套自定义的评价标准甚至编辑的主观印象来决定是否接受你的网站。

其次,搜索引擎收录一个网站时,只要网站本身不违反相关规则,一般都能登录成功。但是目录索引对网站的要求要高很多,有时候即使你登录很多次也不一定能成功。尤其像雅虎!这样的超级索引就更难登录了。(由于登录雅虎!是最难的,是网络营销的必争之地,所以我们后面会在专门的空间介绍登录雅虎的技巧。

另外,在登录搜索引擎的时候,我们一般不用考虑网站的分类,但是在登录目录索引的时候,一定要把网站放在最合适的目录里。

最后,搜索引擎中各个网站的相关信息都是从用户的网页中自动提取出来的,所以站在用户的角度,我们有了更多的自主权;但是目录索引需要你手动填写网站信息,有各种限制。更何况,如果工作人员认为你提交的目录和网站信息不合适,他可以随时调整,当然不需要事先咨询你。

目录索引顾名思义就是将网站存放在相应的目录中,用户在查询信息时可以选择关键词搜索或者根据分类目录逐层搜索。如果按关键词搜索,返回的结果和搜索引擎是一样的,网站也是按信息相关程度排列的,但人为因素更多。如果按层次目录搜索,网站在一个目录中的排名是由标题字母的顺序决定的(也有例外)。

目前,搜索引擎和目录索引有相互融合、相互渗透的趋势。原来一些纯全文搜索引擎现在也提供目录搜索。例如,Google借用了Open Directory目录来提供分类查询。就像雅虎!这些旧目录索引通过与谷歌等搜索引擎合作,扩大了搜索范围。在默认搜索模式下,有些目录搜索引擎会先返回自己目录中匹配的网站,比如国内的搜狐、新浪、网易等。而其他的则默认为网络搜索,比如雅虎。

搜索引擎第三定律

今天,是搜索引擎结束过去,开辟未来的时候了。为了阐明我所说的第三定律,我们先来回顾一下第一和第二定律。

相对论第一定律

听起来像是学术论文。的确,就连第一定律和第二定律以前都没提过,但第一定律和第二定律的内容在业界和学术界早就被认可了。其实这个第一定律早在互联网出现之前就被学术界广泛研究过,也就是所谓的关联定律。当时这个领域叫信息检索,或者叫信息检索,有的叫全文检索。

当时的相关度是基于词频统计的,即用户输入搜索词,搜索引擎去寻找那些在文章(网页)中出现频率高、位置重要的搜索词,再加上搜索词本身的常用度的一些权重,最后排出一个结果(搜索结果页面)。早期的搜索引擎结果排名是基于本文第一定律,如Infoseek、Excite、Lycos等。他们基本沿用了互联网时代之前的学术研究成果,行业专注于处理大流量、大数据,但相关性排名没有突破。

其实词频统计根本不使用任何网络相关的特征,是前网络时代的技术。而网络时代的主要文档都是以网页的形式存在的,几乎每个人都可以在网上随意发布各种内容。词频相同的两个网页质量可以相差很远,但是根据搜索引擎第一定律,这两个网页的排名应该是一样的。为了在一些搜索结果中排名靠前,很多网页内容制作者绞尽脑汁,在自己的页面上堆砌关键词,搜索引擎防不胜防,深受其害。这种情况在1996开始改变。

第二定律,流行和质量定律

1996年4月,去拉斯维加斯开信息检索学术会议。会议的内容就像拉斯维加斯的天气一样无聊。但我远离公司,却难得有机会静下心来认真思考问题。在听一个无关紧要的论文讲座时,我突然把科学引文索引的机制和网页上的超链接联系起来——感谢北大,她在我大三的时候教我科学引文索引的机制,恐怕美国没有哪所大学会在你本科的时候教。

科学引文索引的机制,说白了就是谁被引用的次数多,谁就被视为权威,论文就是好论文。这个思想移植到互联网上,就是谁的网页链接次数多,那个网页就被认为是高质量的,受欢迎的。再加上相应的链接文本分析,可以用在搜索结果的排名上。这就引出了搜索引擎的第二定律:人气质量定律。根据这一规律,搜索结果的相关性排名并不完全取决于词频统计,更多的是取决于超链接分析。

我意识到这是一个突破口,回去后很快总结了自己的思路。1996年6月,我申请了这一领域的美国专利。1999年7月6日,美国专利商标局批准了以我为唯一发明人的第5920859号专利。大约在1996年底,斯坦福大学计算机系的两个研究生想到了同样的解决方案。后来,他们创建了一个名为谷歌的搜索引擎。谷歌网站仍然说他们的技术正在申请专利。我想知道美国专利局是否会再次授予这样的专利。不管怎样,超链接分析的方法从1998年开始逐渐被各大搜索引擎所接受。因为链接是网络内容的一个根本特征,此时的搜索引擎开始真正使用网络时代的检索技术。

世事难料。从2000年开始,互联网泡沫迅速破裂,各大搜索引擎要么被收购,要么迟迟未能上市,所有使用人气质量法的搜索引擎公司也未能幸免。那么,搜索引擎的出路在哪里?

第三定律,自信定律

大众质量法还解决了一个技术问题。然而,搜索引擎从诞生之日起,就从来不是一个纯粹的技术现象,它融合了技术、文化、市场等多种因素。解决搜索引擎公司的生存发展问题,需要搜索引擎第三定律——自信定律。

1998年,没有多少人把一家距离硅谷500英里的新成立的名为GoTo.com(现改名Overture)的公司当回事。它只是购买一个搜索引擎的技术服务,然后把他们网站在GoTo搜索结果中的排名拍卖给那些网站的所有者。谁的付费多排名第一,付费是根据网民点击网站的情况来计算的,只出现在搜索结果中是不需要付费的。这是自信法则最早的实践者!根据这个规律,搜索结果的相关性排名除了词频统计和超链接分析之外,更注重竞价拍卖。谁对自己的网站有信心,谁就排第一。自信的标志是愿意为这个排名付费。需要声明的是,自信定律也是我自己给这个模型起的名字,之前的文献中没有人总结过。

在互联网行业不景气,纳斯达克如日中天的今天,GoTo如日中天,市值高达6543.8+03亿美元,营收高达雅虎总营收的35%。另一方面,哪家门户网站可以从他们的搜索引擎服务中获得总收入的三分之一?原因是后藤首先践行了搜索引擎自信法则。以前搜索引擎是靠CPM来收费的,而CPM是借鉴传统广告行业,没有考虑网络媒体即时性、互动性、易竞价的特点。但是竞价排名和点击收费直接为网站主提供销售线索,而不是传统意义上的广告。自信法则改变了过去搜索引擎靠CPM收钱的尴尬局面,开创了真正属于互联网的收费模式。