百度搜索上的网站是从哪里搜集的?

2024-12-22 11:51:36
推荐回答(4个)
回答1:

像百度,google这种搜索引擎,是用一种类似于网络蜘蛛的软件把互联网上的网页全部搜索到它的数据库去。

给你一点资料你看看:
在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网。网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题。

一、搜索引擎的分类

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。

全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”,比如新浪搜索和雅虎中国搜索(http://cn.search.yahoo.com/dirsrch/)。

在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类:

⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎”

(http://www.hsfz.net/fish/),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如“网际瑞士军刀”(http://free.okey.net/%7Efree/search1.htm)。

二、搜索引擎的工作原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

回答2:

百度“知道”,从面世到现在,仅仅4个月,便受到网友的钟爱。自今年6月份“知道”上线的第一天,登记的独立ip用户为50个,但现在,这一数字已发展到几百万户,到目前为止,有效问题数已经超过47万。

搜索的下一步:“为什么会xxx”

据百度首席产品设计师俞军介绍,“知道”的构想,源于百度对搜索引擎用户需求和用户体验的研究结果。经过几个月的调研,设计,百度于今年6月推出“知道”测试版。

据调查分析,即便是在熟练操作使用搜索引擎的人群,搜索结果的满足实用率也不到一半,而更多的大众是不熟悉搜索引擎的使用技巧的——甚至很多人搜索想要的信息时,会出现这样的搜索词“什么是xxx”“为什么会xxx”。

作为搜索引擎的提供者,没有权利去要求用户熟悉你所制定的搜索规则和技巧,而有义务为用户提供最简单便捷的、伸手可触的方便快捷的信息——这恰恰也是百度的宗旨。而当用户提出“什么是xxx”“为什么会xxx”时,最好的回答方式便是“知道”。这也是说,“知道”是搜索发展到一定阶段的必然需求与产物。

“总有人知道你的问题答案”

在这个大千世界中,每个人总有无数的问题求索不到答案,但也总有人知道你的问题答案,这是一个奇妙的现象。为什么不将你的问题向大众提出,然后由知道的人来回答你?

我为什么要回答你?有人会有这样的担心。其实这样的担心是不必的。因为,百度所倡导的精神就是人与人之间的互相帮助与支持,在网络世界中,知识共享是大家一致目标,也惟有此,这个世界才是最为快乐的。而同时,每一个人也都有自我满足的欲望,这不仅表现为热心帮助,也表现为通过自己的知识之长,达到自我的实现。

“做比四库全书还伟大的东西”

俞军还介绍说,“百度虽然能搜10亿的中文网页,然而和网友脑海中的智慧相比,这简直就是沧海一粟”。目前,搜索引擎的技术水平远没有达到可以自动地了解到用户想要什么信息,然后整理出对“什么是xx“”为什么会xx”之类问题的回答。

问题出智慧,搜索引擎作为一门高深的技术,恰恰在这一点上不能仅仅依靠技术,它更需要的是人性化的完善。搜索引擎不能仅仅是冷冰冰的链接、关键词加入搜索的范围,那样永远无法达到的智慧的高境界。要达到搜索引擎的高境界只有一个办法:让人类智慧的本身加入被搜索的行列。

百度知道就是把网友们脑海中的隐性知识变成显性知识的,通过对回答的沉淀组织形成新的信息库,其中信息可以被用户进一步检索利用——这意味着,人的智慧,加入了被搜索的行列,用户既是搜索引擎的使用者,同时也是搜索引擎的创造者。这还意味着,用户通过百度知道,可以分享千万网友的智慧,来获取自己所需要的结果。

这也说明了一个事实:问答平台——只有和搜索引擎相结合才能发挥它最大的作用。因此,百度推出知道,不仅是势在必得,更是当仁不让。

俞军对百度知道总是那么自信。因为他认为,百度用户数量巨大,这是任何搜索引擎所不能比拟的优势,“问答平台是一个需要聚众效应的平台,如果没有足够的用户基础,那么大量的问题就会得不到解答迅速沉底,这样会大大的影响用户体验。”

其实,百度“知道”也并非仅是“C2C”(用户对用户)间的“Q&A”。百度在其中是有许多工作要进行的,这就是百度知道的维护。

俞军介绍说,“知道”和搜索引擎的结合更为紧密,这是知道的最大特点。用户既是搜索引擎的使用者,同时也是搜索引擎的创造者——网友回答的问题的结果,会作为搜索的结果,出现在搜索引擎结果的首页。

在百度知道,百度需要建立一套健全的规章制度,以保证更为公平的竞争。同时,以各种方式丰富激励机制,甚至可能包括一定的物质奖励,让大家在问题答题中增长智慧,宣传一种“活到老,学到老”的文化。“知道宝贝”的推出,就是除了积分奖励等等基础上,推出的一种奖励新品种,它使得“知道”更为活色生香。其中,“知道”彩蛋活动方法是,用户在使用"知道"时只要幸运地触发了彩蛋,就会获得百度送出的一份精美的奖品。

而百度下一步的工作,就是打造专门的专家团,这有可能是分为网友专家团与专业专家团,以给网友提供更为有价值的回答,让真正需要通过搜索引擎获得帮助的网友能够受惠。这一做法,将使知道的“Q&A”更有针对性,用户提出的问题,更容易获得专业的回答。

而百度知道的远景目标是,通过网友问答,将10亿互联网网页和1亿中国网民头脑中的庞大信息做了一次有效的分门别类的整理,整理出了一个类似于百科全书的东西。“我们甚至可以做得比四库全书还要伟大。”俞军说。

而百度总裁李彦宏更进一步地说:“我们不仅仅是指百度,更是指所有使用百度的人——借由知识的分享与共生,每个人都能由此进步。”
参考资料:http://tech.163.com/05/1108/19/222ERTSH000915BF.html

回答3:

百度 GOOGLE YAHOO等
都有自己的技术不断的在搜索网页

你可以手动的去加进去,可以用工具+到这些网站上

也可以等他们自己搜到:)

回答4:

baidu 帮助!