Décrire des mots


Décrire des mots

L’idée du moteur de description des mots est venue lorsque je construisais le moteur pour les mots associés (c’est comme un thésaurus, mais vous donne un beaucoup plus large de mots apparentés, plutôt que de simples synonymes). En jouant avec les vecteurs de mots et l’API « HasProperty » de conceptnet, je me suis un peu amusé à essayer d’obtenir les adjectifs qui décrivent couramment un mot. Finalement, j’ai réalisé que là « Une bien meilleure façon de faire cela: analyser des livres!

Le projet Gutenberg était le corpus initial, mais l’analyseur est devenu plus gourmand et plus gourmand et j’ai fini par le nourrir quelque part autour de 100 gigaoctets de fichiers texte – principalement de la fiction, dont de nombreuses œuvres contemporaines. L’analyseur examine simplement chaque livre et extrait les différentes descriptions des noms.

Espérons que ce soit plus qu’une simple nouveauté et que certaines personnes le trouveront réellement utile pour leur écriture et leur brainstorming, mais un petit peu essayer de comparer deux noms qui sont similaires, mais différents de manière significative – par exemple, le sexe est intéressant: «femme» contre «homme» et «garçon» contre «fille». Sur une analyse initiale rapide, il semble que les auteurs de fiction sont au moins 4 fois plus susceptibles de décrire les femmes (par opposition aux hommes) avec des termes liés à la beauté (en ce qui concerne leur poids, leurs caractéristiques et leur attrait général). En fait, « belle » est probablement l’adjectif le plus utilisé pour les femmes en toute la littérature mondiale, ce qui correspond tout à fait à la représentation unidimensionnelle générale des femmes dans de nombreuses autres formes médiatiques. Si quelqu’un souhaite approfondir ses recherches à ce sujet, faites-le moi savoir et je pourrai vous donner beaucoup plus de données (par exemple, il y a environ 25 000 entrées différentes pour « femme » – trop pour les afficher ici).

Le bleu des résultats représente leur fréquence relative. Vous pouvez survoler un élément pendant une seconde et le score de fréquence devrait apparaître. Le tri « unicité » est par défaut, et grâce à mon Complicated Algorithm ™, il les classe par les adjectifs « unicité à ce nom particulier par rapport aux autres noms (c’est en fait assez simple). Comme vous vous en doutez, vous pouvez cliquer sur le bouton « Trier par fréquence d’utilisation » pour afficher les adjectifs en fonction de leur fréquence d’utilisation pour ce nom.

Write a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *