我的网站搭建(第25天) 反爬虫设置

发布时间：2016年8月12日 11:10
作者：杨仕航

分类标签：我的网站搭建
阅读(11001)
评论(0)

* 该文是基于Python2.7开发的，最新Python3.x和Django2.x视频教程可以前往 >> Django2.0视频教程

昨天加了阅读明细记录之后，发现访问记录有点奇怪。一个晚上的时间有很多“人”，同样的IP地址在短时间访问了多篇博文。查了一下IP，要么是美国的要么是德国的。种种迹象表明我的网站被爬虫了！

爬虫有利也有弊，爬虫可以让我们的网站容易被其他人搜到。

问题是有些爬虫不遵循爬虫规范，或者是恶意爬取网页、采集数据。也有可能新手为了完成作业写的乱七八糟的代码……

不好的爬虫会耗费大量的服务器资源，影响正常的用户使用。（有些服务器是按流量计费，被爬虫耗费很多流量要交这些额外产生的费用）

头次碰到这种问题，查了不少资料。结合我的网站服务器设置，采用如下方案。

我网站的web服务器软件是apache2.4，在网站的入口进行控制。打开httpd.conf文件。加入如下代码：

<Location />
    SetEnvIfNoCase User-Agent ".*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)" bad_bot
    #空User-Agaent头
    BrowserMatch "^$" bad_bot

    <RequireAll>
        Require all granted
        Require not env bad_bot
    </RequireAll>
</Location>

然后重启apache即可。其他Apache2.2和Nginx设置可以参考张戈的博文：服务器反爬虫攻略。

这里设置是排除指定的User-Agent头和空User-Agaent头。这些爬虫都是比较典型的，收集了一些相关资料整理如下：