seo

Fare scraping dei meta dati in Fogli Google

Fogli di Google è uno strumento semplice quanto versatile, capace di automatizzare la risoluzione di noiose operazioni di routine in maniera rapida ed efficace.

Esistono soluzioni interessantissime che si integrano in Fogli come risorse aggiuntive (penso a cose come Supermetrics, o Analytics Canvas per citare due esempi notissimi). Eppure, Fogli consente di fare mille cose già con le funzioni base.

Veniamo dunque all’esempio.
Parto dall’esigenza di ricavare, data una lista di URL, il contenuto dei tags Titolo, Meta Description e Meta Keywords.
Fare cioè un po’ di scraping di base, come si dice nel gergo seo…

In Fogli la soluzione è di una semplicità disarmante.

Per prima cosa apro un nuovo foglio e lo chiamo come voglio.

Nelle celle A1, B1, C1, D1 metto i titoli:
“URL”,”Titolo”,”Descrizione”,”Meta Keywords”.

Ora mi posiziono in A2 e incollo la lista delle URL da analizzare.

In B2 ecco la formula magica :). E’ proprio semplice come sembra, e funziona.

=IMPORTXML (A2;"//title/text ()")

Analogamente in C2:

=IMPORTXML(A2; "//meta[@name='description']/@content")

E in D2:

=IMPORTXML(A2;"//meta[@name='keywords']/@content")

Ora evidenzio le celle B1,C1,D1 e vado nell’angolo in basso a destra.
Mi compare il simbolo del +

Trascino verso il basso fino ad arrivare all’ultima riga dove è presente una URL.

Fatto! I campi si popoleranno in pochi secondi con i dati richiesti.

paolo

View Comments

  • Buongiorno,
    ho trovato l'articolo molto interessante soprattutto per la "finezza" di mettere in A1 i link: così facendo le espressioni nelle caselle successive sono molto più semplificate.

    Io sono alle prime armi ma ho provato a fare delle prove: estrapolo dati di alcuni ristoranti per vedere se hanno cucina celiaca.
    Quindi nelle prime righe avrei:
    link;nome ristorante; indirizzo; telefono;web;mail;tipo di cucina;

    Ora...partendo dal link https://www.tripadvisor.it/Restaurant_Review-g1006068-d1011772-Reviews-Ristorante_Due_Spade-Cernusco_sul_Naviglio_Province_of_Milan_Lombardy.html

    vado a mettere in:
    A2 link da cui estrarre dati
    B2: =IMPORTXML (A2;"//title/text ()")
    C2: =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[1]/span/a")
    D2: =IMPORTXML(A2;"//span[@class=""_15QfMZ2L""]")

    e fin qui tutto bene.

    Il problema lo ho quando devo estrarre il link al sito. Dopo molteplici prove e test ho inserito l'espressione
    =IMPORTXML(A2;"//*[@id=""component_35""]/div/div[3]/span[3]/span/a")

    Ma nemmeno questa volta mi da il risultato. Dove sbaglio?

Recent Posts

Guida ai Test Statistici per analisi A/B

I test statistici sono strumenti fondamentali per l’analisi dei dati e la presa di decisioni informate. Scegliere…

8 mesi ago

Come usare gli Alberi Decisionali per classificare i dati

Gli Alberi Decisionali sono un tipo di algoritmo di apprendimento automatico che utilizza una struttura…

10 mesi ago

L’algoritmo di Discesa del Gradiente spiegato semplice

Immaginiamo di voler trovare il percorso più veloce per raggiungere una destinazione in auto. Si…

1 anno ago

La Discesa del Gradiente: un nuovo studio mette in discussione un assunto base sull’ottimizzazione

Nel 1847, il matematico francese Augustin-Louis Cauchy stava lavorando su calcoli astronomici, quando ideò un…

1 anno ago

Il Metodo Montecarlo spiegato in modo semplice e applicato a casi reali

La simulazione Monte Carlo è un metodo utilizzato per quantificare il rischio associato a un…

2 anni ago

La distribuzione ipergeometrica

Abbiamo visto che la distribuzione binomiale si basa sull’ipotesi di una popolazione infinita N, condizione che si…

2 anni ago