Semalt condivide un modo semplice per estrarre informazioni dai siti Web

Il Web Scraping è un metodo popolare per ottenere contenuti dai siti Web. Un algoritmo appositamente programmato arriva alla pagina principale del sito e inizia a seguire tutti i collegamenti interni, assemblando gli interni dei div che hai specificato. Di conseguenza - file CSV pronto contenente tutte le informazioni necessarie che giacciono in un ordine rigoroso. Il CSV risultante può essere utilizzato per il futuro creando contenuti quasi unici. E in generale, come tabella, tali dati sono di grande valore. Immagina che l'intero elenco di prodotti di un negozio di costruzioni sia presentato in una tabella. Inoltre, per ogni prodotto, per ogni tipo e marca del prodotto, vengono riempiti tutti i campi e le caratteristiche. Qualsiasi copywriter che lavora per un negozio online sarebbe felice di avere un tale file CSV.

Ci sono molti strumenti per estrarre dati da siti Web o web scraping e non preoccuparti se non hai familiarità con alcun linguaggio di programmazione, in questo articolo mostrerò uno dei modi più semplici: usare Scrapinghub.

Prima di tutto, vai su scrapinghub.com, registrati e accedi.

Il passaggio successivo sulla tua organizzazione può essere semplicemente ignorato.

Quindi accedi al tuo profilo. Devi creare un progetto.

Qui devi scegliere un algoritmo (useremo l'algoritmo "Portia") e dare un nome al progetto. Chiamiamolo in qualche modo insolito. Ad esempio, "111".

Ora entriamo nello spazio di lavoro dell'algoritmo in cui è necessario digitare l'URL del sito Web da cui si desidera estrarre i dati. Quindi fare clic su "Nuovo ragno".

Andremo alla pagina che servirà da esempio. L'indirizzo è aggiornato nell'intestazione. Fai clic su "Annota questa pagina".

Spostare il cursore del mouse verso destra per far apparire il menu. Qui siamo interessati alla scheda "Elemento estratto", dove è necessario fare clic su "Modifica elementi".

Tuttavia viene visualizzato l'elenco vuoto dei nostri campi. Fai clic su "+ Campo".

Qui tutto è semplice: devi creare un elenco di campi. Per ogni elemento, è necessario inserire un nome (in questo caso, un titolo e contenuto), specificare se questo campo è obbligatorio ("Richiesto") e se può variare ("Variabile"). Se specifichi che un elemento è "obbligatorio", l'algoritmo salterà semplicemente le pagine in cui non sarà in grado di riempire questo campo. Se non segnalato, il processo può durare per sempre.

Ora fai semplicemente clic sul campo di cui abbiamo bisogno e indica di cosa si tratta:

Fatto? Quindi, nell'intestazione del sito Web, fai clic su "Salva campione". Successivamente, puoi tornare allo spazio di lavoro. Ora l'algoritmo sa come ottenere qualcosa, dobbiamo impostare un'attività per questo. Per fare ciò, fai clic su "Pubblica modifiche".

Vai alla bacheca delle attività, fai clic su "Esegui Spider". Scegli il sito Web, la priorità e fai clic su "Esegui".

Bene, ora è in corso la raschiatura. La sua velocità viene mostrata puntando il cursore sul numero di richieste inviate:

La velocità di preparazione delle stringhe in CSV - indicando un altro numero.

Per visualizzare un elenco di articoli già realizzati, fai clic su questo numero. Vedrai qualcosa di simile:

Al termine, il risultato può essere salvato facendo clic su questo pulsante:

Questo è tutto! Ora puoi estrarre informazioni dai siti Web senza alcuna esperienza nella programmazione.

mass gmail