Archive for 一月, 2013

和360spider的搏斗

星期一, 一月 28th, 2013

一个小站,没什么人访问,但是这两天突然每天都有上G的访问,但是cnzz统计显示每天pv都没有过百。

从common log里看出有大量的php访问,却没有静态资源png、css之类的访问。在打开combined的log,终于找到苗头,因为所有的访问的user-agent都是360Spider

于是写robots.txt,如下文

User-agent: 360Spider

Disallow: /

 

一个小时过去了,360Spider仍然孜孜不倦的在爬页面,看来robots的刷新不知等到啥时候了。于是继续百度,最后用apache的金牌娱乐官方网站文件干掉了360Spider, 金牌娱乐官方网站文件关键文本在下面:

<Directory />

SetEnvIfNoCase User-Agent “360Spider” ban_bot

Options FollowSymLinks

AllowOverride all

Order allow,deny

Deny from env=ban_bot

Allow from all

</Directory>

完成后,看着log,觉得好爽啊。。。

192.168.4.1 – – [28/Jan/2013:11:01:57 +0800] “GET /?id=7463274393 HTTP/1.0” 403 202 “Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider”

 

192.168.4.1 – – [28/Jan/2013:11:01:57 +0800] “GET /?id=7460387367 HTTP/1.0” 403 202 “Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.0.11) Gecko/20070312 Firefox/1.5.0.11; 360Spider”

 

另外其实还有办法的,可以在access_log里找到bot的ip,用iptables就可以干掉了。但是我租用的这个是没有独立ip的主机,是通过代理的,所以得不到源ip,有条件的人可以通过iptables干掉的。

 

ADD:   过去一天了,360Spider仍然在孜孜不倦的爬我的网站,虽然他只能得到403反馈,另找他法,在dnspod上发现有针对各种spider设置的,刚刚将我的www域名指向了百度的ip,等一个小时候,看效果。