1、每个网站在WEB服务器上运行都产生LOG日志文件;
2、通过查看LOG日志即可看到百度蜘蛛什么时候去过网站,看了哪些页面,读取过什么文件,包括CSS、网页、图片、JS等文件格式;
3、LOG文件获取方式,如果有服务器可以直接登录查看,打开IIS-网站-属性-日志文件存放的路径-日志文件名(xxxxx.log);
4、虚拟主机获取LOG日志文件,通过FTP连接后一般会有LOG文件夹,打开后便能获取;
5、找到LOG文件后,30兆以下的以记事本方式打开即可查看每行代码。大于30兆的文件以其他辅助软件进行打开,比如editplus等。
6、看到日志记录中有【120.122.38.118 - - [11/Nov/2015:04:28:29 +0800] "GET / HTTP/1.1" 200 61083 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)】这种记录的,这就说明百度蜘蛛来过网站被LOG文件记录下来了
判断蜘蛛有没有来过自己的网站可以查看IIS日志代码。
或者联系空间商开通了蜘蛛访问记录也可以。
具体查看过程和判断蜘蛛的方法你可以百度一下。资料很多
相信你很容易就可以学会的。
作为站长都很关心自己的网站被各大收录引擎收录多少,那么百度和谷歌蜘蛛究竟有没有来过呢?
如果你是本地服务器,请查看日志文件,如access.log
如果你是虚拟主机,登录空间管理页面,看控制面板是否有相关日志.如果没有找到,你可以联系你的服务商.
日志格式一般是:
220.181.38.198 - - [11/Nov/2007:04:28:29 +0800] "GET / HTTP/1.1" 200 61083 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"这就说明百度蜘蛛来过你的站了,如果你还想知道有没有其它搜索引擎的蜘蛛来过你的站,你可以在日志文件中搜索“spider”这个词,或者搜索蜘蛛的IP,我的就查到sogou也来过我的站,IIS日志与Apache的日志是一样的,都可以查到。
补充一点,百度蜘蛛并不完全遵守这个规则,有的时候是匿名抓取.
site:你的网站
在网站的iis日志中可以查询