Archive for November, 2016

# Slow Query log-slow-queries=/var/log/mysqld-slow.log long_query_time=1 # 02-05 end # add by xLight max_connections = 400 innodb_buffer_pool_size = 2G query_cache_size = 128M expire_logs_days = 7

对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐, 很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。 即使像JavaEye这样一向严厉封杀爬虫的网站,只要稍微松懈一段时间,爬虫流量就能轻易超过真实访问流量的2倍以上。 对于大型互联网网站来说,有足够的硬件资源来应付爬虫带来的庞大访问压力,也有足够的资源和能力去解决这个问题。 但是对于中小型互联网网站来说,爬虫带来的就是毁灭性打击了。 原文我就不贴了,自己去看吧: 如何对付网络爬虫 – JavaEye和网络爬虫斗争之路(一) 如何对付网络爬虫 – JavaEye和网络爬虫斗争之路(二)