Ngram

now browsing by tag

Posted by: Mario Rotta | on May 25, 2011

Leggere tra le righe

Google Labs, come suggerisce il nome, è un’area sperimentale in cui si raccolgono progetti avanzati di software, applicazioni, gadget tecnologici o strumenti innovativi per la rete. I progetti sono spesso legati a esperimenti mirati e ricerche specifiche, e non è detto che sopravvivano o che siano sostenuti nel tempo (esemplare in tal senso il caso di Lively, un ambiente di RV interessantissimo e innovativo che tuttavia è stato abbandonato dopo pochi mesi di testing), anche se a volte diventano prodotti commerciali e cominciano a essere distribuiti diversamente. Ma finché sono in laboratorio si possono provare liberamente e di solito nel pieno rispetto della filosofia Open Source, che Google interpreta in modo indiretto ma sostanzialmente corretto. Bisogna approfittare dell’occasione insomma. Così, esplorando il laboratorio, ho trovato questo Books Ngram Viewer, che può sembrare un’idea semplice e forse anche un po’ scontata ma che ha anche delle notevoli potenzialità, soprattutto per chi si occupa di educazione. Di che cosa si tratta? La presentazione è molto semplice e diretta: “when you enter phrases into the Google Books Ngram Viewer, it displays a graph showing how those phrases have occurred in a corpus of books (e.g., ‘British English’, ‘English Fiction’, ‘French’) over the selected years”. In pratica, è un motore di ricerca full text che permette di verificare l’andamento dell’occorrenza di parole o frasi in insiemi consistenti di libri pubblicati negli ultimi due secoli (e digitalizzati da Google) in ambito anglofono ma anche in francese, tedesco, spagnolo, russo, ebraico e cinese (in italiano no, evidentemente il corpus di testi digitali disponibili non è sufficiente). Lo strumento si presenta semplicemente come un form di input per la o le parole chiave che si vogliono cercare e i relativi parametri: cliccando su “search lots of books”si ottiene il grafico che evidenzia l’andamento delle occorrenze secondo i parametri impostati. Più in basso, appare inoltre un set di link che rimanda direttamente ai libri digitali raccolti in Google Books in cui le occorrenze sono state individuate. Volendo, si possono anche scaricare i dataset completi, per ulteriori verifiche. In effetti, sia pure con tutti i se e tutti i ma del caso (per la verità correttamente ricordati nella presentazione e negli help, dove si evidenzia come evitare le ambiguità linguistiche, come impostare correttamente le keywords e molto altro), sembra un gran bel “giocattolo”, che può permettere di evidenziare tendenze o valutare ipotesi: osservare sotto forma di grafico la presenza percentuale di una frase o di un nome in un insieme statisticamente consistente di libri pubblicati in un arco esteso di tempo non costituirà di per sé la prova di un fenomeno culturale, o della fortuna di un autore, o di una consuetudine linguistica, ma può aiutare a ragionare. Ho provato ad esempio a verificare quanto ricorrono nelle pubblicazioni in lingua inglese i nomi di alcuni dei nostri autori più importanti (esempio A, esempio B, esempio C) e i risultati non sono banali, possono innescare una discussione. Ho provato anche a divertirmi impostando ricerche su gruppi di parole inglesi comuni (esempio), sull’occorrenza di nomi geografici, sui politici italiani più citati e sulla terminologia essenziale in ambito educativo (esempio 1, esempio 2). E ne ho ricavato sempre spunti interessanti. Proverò ancora.

Riferimento completo:
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden*. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (Published online ahead of print: 12/16/2010).

www.simplesharebuttons.comShare