Problema

Motoarele de cautare folosesc tehnology cunoscute ca si spiders pentru a cauta pe web. Un Spider este un agent (deasemenea numit bot - prescurtat de la robot) care se va conecta la site-ul tau si va descarca o copie a tuturor paginilor, in scopul de a popula respectivul motor de cautare. Cu toate acestea, roboti ar trebui sa se supuna anumitor reguli si cu siguranta nu ar trebui sa iti afecteze site-ul pana in punctul in care cauzeaza o eroare a serviciului, sau utilizeaza toata latimea de banda (bandwidth).

Adaugand instructiuni speciale fisierului .htaccess, iti poti instrui serverul web sa refuze solicitarile de la anumiti bots.

Solutia 1 - ban prin adresa de IP

In cazul in care fisierul .htaccess nu exista in public_html, atunci il poti crea.

Adauga in partea de sus a fisierului,urmatoarele linii de text, inlocuind x.x.x.x cu adresa de IP a bot-ului nedorit.

order allow, deny
allow from all
deny from x.x.x.x

Foarte des roboti folosesc o serie de adrese IP. Pentru a le bloca complet, poti adauga:

order allow, deny
allow from all
deny from x.x.x.x
deny from x.x.x.x

Daca vrei ca aceste reguli sa se aplice unui director anume din cadrul site-ului, adauga:

<Directory /documents/notforbots>
order allow, deny
allow from all
deny from 1.2.3.4
</Directory>

Aceasta comanda va bloca IP-ul 1.2.3.4 de a accesa http://siteulmeu.ro/documents/notforbots

Solutia 2 - ban prin User-Agent

Daca sti cum se identifica un bot, atunci poti bloca cererile pe baza antetului solicitarii HTTP User-Agent.
Cauta in jurnalele Raw Access din sectiunea Matrics in cPanel.

raw-access

Aici poti descarca jurnalele care au fost colectate pana in prezent. Dupa ce descarci si dezarhivezi fisierul .gz, va trebui sa il incarci intr-un editor de text si sa il verifici amanuntit.

180.76.5.14 - - [22/Jul/2013:20:07:48 +0100] "GET /special-events/action:month/cat_ids:9/tag_ids:37,26/ HTTP/1.0" 500 7309 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Fiecare linie de intrare este asemanatoare cu cea de sus, ultimul citat fiind antetul User-Agent.

"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Ce ne intereseza este Baiduspider/2.0. Nu ne intereseaza atat de mult versiunea, drept urmare vom bloca tot ceea ce se potriveste cu Baiduspider in antetul User-Agent.
Pentru a putea face acest lucru va trebui sa adaugam urmatoarea comanda in fisierul .htaccess

BrowserMatchNoCase baiduspider banned
Deny from env=banned

Aceasta comanda ar bloca toate cererile de la bot-ul Baiduspider.

Was this answer helpful? 16 Users Found This Useful (213 Votes)