Describiendo palabras
La idea del motor Describing Words surgió cuando estaba construyendo el motor de Palabras relacionadas (es como un tesauro, pero te da una un conjunto mucho más amplio de palabras relacionadas, en lugar de sinónimos). Mientras jugaba con vectores de palabras y la API «HasProperty» de conceptnet, me divertí un poco tratando de obtener los adjetivos que comúnmente describen una palabra. Al final, me di cuenta de que «Una forma mucho mejor de hacer esto: ¡analizar libros!
El proyecto Gutenberg fue el corpus inicial, pero el analizador se volvió más y más codicioso y terminé alimentándolo en algún lugar alrededor de 100 gigabytes de archivos de texto, en su mayoría ficción, incluyendo muchas obras contemporáneas. El analizador simplemente revisa cada libro y extrae las distintas descripciones de los sustantivos.
Con suerte, es más que una simple novedad y algunas personas realmente lo encontrarán útil para su escritura y lluvia de ideas, pero un pequeño detalle Lo que hay que intentar es comparar dos sustantivos que son similares, pero diferentes de alguna manera significativa; por ejemplo, el género es interesante: «mujer» versus «hombre» y «niño» versus «niña». En un análisis rápido inicial, parece que Los autores de ficción tienen al menos 4 veces más probabilidades de describir a las mujeres (en comparación con los hombres) con términos relacionados con la belleza (en cuanto a su peso, características y atractivo general). De hecho, «bella» es posiblemente el adjetivo más utilizado para las mujeres en toda la literatura del mundo, que está bastante en línea con la representación unidimensional general de las mujeres en muchas otras formas de medios. Si alguien quiere investigar más sobre esto, hágamelo saber y puedo darle muchos más datos (por ejemplo, hay alrededor de 25000 entradas diferentes para «mujer», demasiadas para mostrarlas aquí).
El azul de los resultados representa su frecuencia relativa. Puede colocar el cursor sobre un elemento durante un segundo y debería aparecer la puntuación de frecuencia. La clasificación de «unicidad» es predeterminada, y gracias a mi Complicated Algorithm ™, los ordena por los adjetivos «unicidad de ese sustantivo en particular en relación con otros sustantivos (en realidad es bastante simple). Como era de esperar, puede hacer clic en el botón «Ordenar por frecuencia de uso» para adjetivos según su frecuencia de uso para ese sustantivo.