Apache/Nginx/PHP服务器反爬虫代码大全

无忧服务，就在全球云服务器数据

提供比同行更多的售后服务，让您在使用过程中更加省心

Apache/Nginx/PHP服务器反爬虫代码大全
今天小编为大家汇总了Apache/Nginx/PHP服务器反爬虫代码大全，希望对你做网站优化有所帮助，如果想对爬虫技术深入了解的，请看《帮你深入了解爬虫与反爬虫技术》。

一、Apache

①、通过修改 .htaccess 文件

修改网站目录下的.htaccess，添加如下代码即可(2 种代码任选)：

可用代码 (1)：
1. RewriteEngine On
2. RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|In Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDad|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python–urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
3. RewriteRule ^(.*)$ – [F]
可用代码 (2)：
1. SetEnvIfNoCase ^User–Agent$ .*(FeedDemon|In Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDad|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python–urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
2. Order Allow,Deny
3. Allow from all
4. Deny from env=BADBOT
②、通过修改 httpd.conf 配置文件

找到如下类似位置，根据以下代码新增 / 修改，然后重启 Apache 即可：

Shell
1. DocumentRoot /home/wwwroot/xxx
2. <Directory “/home/wwwroot/xxx”>
3. SetEnvIfNoCase User–Agent “.*(FeedDemon|In Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDad|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOT
4. Order allow,deny
5. Allow from all
6. deny from env=BADBOT
7. </Directory>
二、Nginx 代码

进入到 nginx 安装目录下的 conf 目录，将如下代码保存为 agent_deny.conf
1. cd /usr/local/nginx/conf
2. vim agent_deny.conf
1. #禁止Scrapy等工具的抓取
2. if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
3. return 403;
4. }
5. #禁止指定UA及UA为空的访问
6. if ($http_user_agent ~* “FeedDemon|In Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDad|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) {
7. return 403;
8. }
9. #禁止非GET|HEAD|POST方式的抓取
10. if ($request_method !~ ^(GET|HEAD|POST)$) {
11. return 403;
12. }
然后，在网站相关配置中的 location / { 之后插入如下代码：

Shell
1. include agent_deny.conf;
如下的配置：

Shell
1. [marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf
2. location / {
3. try_files $uri $uri/ /index.php?$args;
4. #这个位置新增1行：
5. include agent_deny.conf;
6. rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last;
7. rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last;
8. rewrite ^/sitemap_m.xml$ /sitemap_m.php last;
保存后，执行如下命令，平滑重启 nginx 即可：

Shell
1. /usr/local/nginx/sbin/nginx –s reload
三、PHP 代码

将如下方法放到贴到网站入口文件 index.php 中的第一个

PHP
1. //获取UA信息
2. $ua = $_SERVER[‘HTTP_USER_AGENT’];
3. //将恶意USER_AGENT存入数组
4. $now_ua = array(‘FeedDemon ‘,‘BOT/0.1 (BOT for JCE)’,‘CrawlDad ‘,‘Java’,‘Feedly’,‘UniversalFeedParser’,‘ApacheBench’,‘Swiftbot’,‘ZmEu’,‘In Library’,‘oBot’,‘jaunty’,‘YandexBot’,‘AhrefsBot’,‘MJ12bot’,‘WinHttp’,‘EasouSpider’,‘HttpClient’,‘Microsoft URL Control’,‘YYSpider’,‘jaunty’,‘Python-urllib’,‘lightDeckReports Bot’);
5. //禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT
6. if(!$ua) {
7. header(“Content-type: text/html; charset=utf-8”);
8. die(‘请勿采集本站，因为采集的站长木有小JJ！’);
9. }else{
10. foreach($now_ua as $value )
11. //判断是否是数组中存在的UA
12. if(eregi($value,$ua)) {
13. header(“Content-type: text/html; charset=utf-8”);
14. die(‘请勿采集本站，因为采集的站长木有小JJ！’);
15. }
16. }
四、测试效果

如果是vps，那非常简单，使用 curl -A 模拟抓取即可，比如：

模拟宜搜蜘蛛抓取：

Shell
1. curl –I –A ‘YisouSpider’ bizhi.bcoderss.com
模拟 UA 为空的抓取：

Shell
1. curl –I –A ” bizhi.bcoderss.com
模拟百度蜘蛛的抓取：

Shell
1. curl –I –A ‘Baiduspider’ bizhi.bcoderss.com
上一篇帮你快速了解base64加密解码下一篇渗透测试的八个错误姿势
论坛资讯同步说明，本文同步自论坛：bbs.quanqiuyunfu.com如您在论坛注册成为会员用户并且发帖，则默认论坛文章同步协议，协议内容请移步论坛查看！

全球云服务器无忧服务
客服在线速解答
专业技术上线
1对1在线服务
1分钟急速响应

服务支持: 免费备案; 代理分销; 商务合作

全球云服拼音: 投诉建议; 无忧服务; 宝塔面板

友情链接: 小型云服; APP制作
电商平台制作

业务邮箱：qqyf@88.zhongguo.email

工单联系：联系工单客服

电话联系：15900904656

鲁ICP备17014494号

Copyright©2018- 全球云服务器 | 提供专业的全球服务器免备案快速访问