Problema
Motoarele de cautare folosesc tehnology cunoscute ca si spiders pentru a cauta pe web. Un Spider este un agent (deasemenea numit bot - prescurtat de la robot) care se va conecta la site-ul tau si va descarca o copie a tuturor paginilor, in scopul de a popula respectivul motor de cautare. Cu toate acestea, roboti ar trebui sa se supuna anumitor reguli si cu siguranta nu ar trebui sa iti afecteze site-ul pana in punctul in care cauzeaza o eroare a serviciului, sau utilizeaza toata latimea de banda (bandwidth).Adaugand instructiuni speciale fisierului .htaccess, iti poti instrui serverul web sa refuze solicitarile de la anumiti bots.
Solutia 1 - ban prin adresa de IP
In cazul in care fisierul .htaccess nu exista in public_html, atunci il poti crea.Adauga in partea de sus a fisierului,urmatoarele linii de text, inlocuind x.x.x.x cu adresa de IP a bot-ului nedorit.
order allow, deny
allow from all
deny from x.x.x.x
Foarte des roboti folosesc o serie de adrese IP. Pentru a le bloca complet, poti adauga:
order allow, deny
allow from all
deny from x.x.x.x
deny from x.x.x.x
Daca vrei ca aceste reguli sa se aplice unui director anume din cadrul site-ului, adauga:
<Directory /documents/notforbots>
order allow, deny
allow from all
deny from 1.2.3.4
</Directory>
Aceasta comanda va bloca IP-ul 1.2.3.4 de a accesa http://siteulmeu.ro/documents/notforbots
Solutia 2 - ban prin User-Agent
Daca sti cum se identifica un bot, atunci poti bloca cererile pe baza antetului solicitarii HTTP User-Agent.Cauta in jurnalele Raw Access din sectiunea Matrics in cPanel.
Aici poti descarca jurnalele care au fost colectate pana in prezent. Dupa ce descarci si dezarhivezi fisierul .gz, va trebui sa il incarci intr-un editor de text si sa il verifici amanuntit.
180.76.5.14 - - [22/Jul/2013:20:07:48 +0100] "GET /special-events/action:month/cat_ids:9/tag_ids:37,26/ HTTP/1.0" 500 7309 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
Fiecare linie de intrare este asemanatoare cu cea de sus, ultimul citat fiind antetul User-Agent.
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
Ce ne intereseza este Baiduspider/2.0. Nu ne intereseaza atat de mult versiunea, drept urmare vom bloca tot ceea ce se potriveste cu Baiduspider in antetul User-Agent.
Pentru a putea face acest lucru va trebui sa adaugam urmatoarea comanda in fisierul .htaccess
BrowserMatchNoCase baiduspider banned
Deny from env=banned
Aceasta comanda ar bloca toate cererile de la bot-ul Baiduspider.