Descrivere le parole
L’idea del motore di descrizione delle parole è nata quando stavo costruendo il motore per le parole correlate (è come un thesaurus, ma ti dà un un insieme molto più ampio di parole correlate, piuttosto che semplici sinonimi). Mentre giocavo con i vettori di parole e l’API “HasProperty” di conceptnet, mi sono divertito un po ‘a cercare gli aggettivi che descrivono comunemente una parola. Alla fine ho capito che lì “è un modo molto migliore per farlo: analizzare i libri!
Il progetto Gutenberg era il corpus iniziale, ma il parser è diventato sempre più avido e ho finito per alimentarlo da qualche parte circa 100 gigabyte di file di testo – per lo più narrativa, comprese molte opere contemporanee. Il parser esamina semplicemente ogni libro ed estrae le varie descrizioni dei nomi.
Si spera che sia più di una semplice novità e alcune persone lo troveranno effettivamente utile per la loro scrittura e il loro brainstorming, ma un po ‘pulito cosa da provare è confrontare due nomi che sono simili, ma diversi in modo significativo – per esempio, il genere è interessante: “donna” contro “uomo” e “ragazzo” contro “ragazza”. In una rapida analisi iniziale sembra che gli autori di narrativa hanno almeno 4 volte più probabilità di descrivere le donne (rispetto agli uomini) con termini legati alla bellezza (per quanto riguarda il loro peso, le caratteristiche e l’attrattiva generale). In effetti, “bella” è forse l’aggettivo più usato per le donne in tutta la letteratura mondiale, che è abbastanza in linea con la rappresentazione generale unidimensionale delle donne in molte altre forme di media. Se qualcuno vuole fare ulteriori ricerche in merito, fammelo sapere e posso darti molti più dati (ad esempio, ci sono circa 25000 voci diverse per “donna” – troppe per mostrarle qui).
L’azzurro dei risultati rappresenta la loro frequenza relativa. Puoi passare il mouse su un elemento per un secondo e il punteggio della frequenza dovrebbe apparire. L’ordinamento “unicità” è predefinito e, grazie al mio algoritmo complicato ™, li ordina in base agli aggettivi “unicità a quel particolare nome rispetto ad altri nomi (in realtà è piuttosto semplice). Come ti aspetteresti, puoi fare clic sul pulsante “Ordina per frequenza di utilizzo” per visualizzare gli aggettivi in base alla frequenza di utilizzo di quel nome.