Nginx 日志分析搜索引擎 Spider 爬取网站记录

运维社区前一段时间更换了域名,这段时间明显感觉到了访问量下降。百度的收录也在减少,Google 的收录到时没有减少但是没啥用。国内没多少用户能用到 Google。在群里有人截图他的网站 Baiduspider 爬取记录,我也想看看我网站 Baiduspider 到底有没有来。不过他用的 BT 自带了一些功能,我使用的 lnmp。不过没关系可以通过cat Nginx的日志来分析下 Baiduspider Googlebot 爬取网站记录。如果你的日志文过大慎用,太耗资源。

0x01 日志文件

首先需要确认日志文件存在,即在网站创建时是否开启了日志。lnmp 默认的日志文件存放在  /home/wwwlogs 目录默认是文件名是域名.log,可以查看 Nginx 的配置文件中是否开启了日志,如果之前有开启可以去分析了,如果没有开启,那么久开启日志等几天在看。

0x02 开始分析

1、查看百度蜘蛛爬取网站的次数;

左边的数据为日志记录开始到现在一共爬取的次数。如果日志文件大记录的天数比较多可以使用指定查看以日志开始记录结尾后面几次或者以日志开始记录的前面几次的爬取记录。

cat opsit.cn.log | grep Baiduspider | wc    # 查看爬取次数;
cat opsit.cn.log | grep Baiduspider | tail -n 10    # 以结尾10条数据;
cat opsit.cn.log | grep Baiduspider | head -n 10    # 以开头10条数据;

2、查看百度蜘蛛的详细记录;

cat opsit.cn.log | grep Baiduspider | more    # 百度蜘蛛爬取详细记录;

3、查看百度蜘蛛爬取网站首页的记录;

cat opsit.cn.log | grep Baiduspider | grep "GET / HTTP"    # 百度蜘蛛爬取首页记录;

4、查看百度蜘蛛派性记录时间点分布;

cat opsit.cn.log | grep "Baiduspider" | awk '{print $4}' | more    # 查看百度蜘蛛爬取时间;

5、查看百度蜘蛛爬行页面按次数降序列表;

cat opsit.cn.log | grep "Baiduspider" | awk '{print $7}' | sort | uniq -c | sort -r | more    # 百度蜘蛛爬取页面排序;

0x03 其他信息

以上文中的Baiduspider是百度蜘蛛改成Googlebot就可以查看谷歌机器人的爬取数据,Google会让不同的Googlebot来对你的网页内容进行处理,其中包括:

  1. Googlebot:抓取文字内容,获取内容来保存于Google网页搜索和新闻搜索的数据库;
  2. Googlebot-mobile:它的功能是抓取网页中的文字内容来让手机用户搜索;
  3. Googlebot-Image:抓取网页内的图片内容,保存入Google 图片搜索数据库;
  4. Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense 分析关键词。只有投放了Google Adsense 的网页才会;
  5. Mediapartners-Google:探测器爬取;
  6. Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords 提供参考。只有Google AdWords 的目标网页才会被 Adsbot-Google 探测器爬取;
相关推荐
python ERROR: Command errored out with exit status 1:
Windows Server 2016 搭建 SMB 共享文件
Windows Server 2019 域环境搭建 SMB 共享文件服务
Parallels Desktop 15.1.3