Un crawler (detto anche web crawler, bot o spider) è un software che raccogliere dati da Internet: quando visita un sito web rileva tutto il contenuto che può analizzare, tutti i collegamenti interni ed esterni e li memorizza in un database.
L’obiettivo dei bot è quello di conoscere di cosa tratta ogni pagina in modo che le informazioni possano essere recuperate quando è necessario.
Sono chiamati web crawler perché “crawling” è il termine tecnico per accedere a un sito web e ottenere dati tramite una scansione automatica. I bot più diffusi utilizzati dai motori di ricerca più importanti sono:
- Google: Googlebot (attualmente utilizza un crawler per le ricerche Desktop e uno per quelle Mobile)
- Bing: Bingbot
- Yandex (principale motore di ricerca russo): Yandex Bot
- Baidu (principale motore di ricerca cinese): Baidu Spider
- Yahoo: Slurp Bot
I crawler sono quasi sempre gestiti dai motori di ricerca che applicano un algoritmo ai dati raccolti fornendo poi collegamenti pertinenti in risposta alle query di ricerca dell’utente che a loro volta generano gli elenchi di pagine su Google o Bing (o un altri motori di ricerca).
La maggior parte dei crawler web non esegue la scansione di tutte le risorse disponibili online ma decide quali scansionare in base al numero di altre pagine collegate, alla quantità di visitatori e ad altri fattori che indicano la probabilità che la pagina contenga informazioni importanti e pertinenti.