Il web crawler è un programma che attraversa automaticamente il Web scaricando le pagine e seguendo i collegamenti da una pagina all'altra. Uno scopo generale del web crawler è quello di scaricare qualsiasi pagina web a cui è possibile accedere tramite i link. Questo processo è chiamato web crawling o spidering. Molti siti, in particolare i motori di ricerca, utilizzano lo spidering come mezzo per fornire dati aggiornati. I web crawler vengono utilizzati principalmente per creare una copia di tutte le pagine visitate per un'elaborazione successiva da parte di un motore di ricerca che indicizza le pagine scaricate per fornire ricerche veloci. I crawler possono anche essere utilizzati per automatizzare le attività di manutenzione su un sito Web, ad esempio il controllo dei collegamenti o la convalida del codice HTML. Inoltre, i crawler possono essere utilizzati per raccogliere tipi specifici di informazioni dalle pagine Web, ad esempio la raccolta di indirizzi di posta elettronica (in genere per la posta indesiderata). Un web crawler è un tipo di bot o agente software. In generale, inizia con un elenco di URL da visitare, chiamati semi. Quando il crawler visita questi URL, identifica tutti i collegamenti ipertestuali nella pagina e li aggiunge all'elenco di URL da visitare, denominato frontiera di ricerca per indicizzazione. Gli URL dalla frontiera vengono visitati ricorsivamente secondo una serie di politiche.
cronologia delle versioni
- Versione 3.19 pubblicato il 2012-01-15
prima versione pubblica
Dettagli del programma
- Categoria: Utilità di sistema > Strumenti di automazione
- Editore: VietSpider
- Licenza: Gratuito
- Prezzo: N/A
- Versione: 3.19
- Piattaforma: windows