Beschreiben von Wörtern


Beschreiben von Wörtern

Die Idee für die Engine „Beschreiben von Wörtern“ kam, als ich die Engine für verwandte Wörter erstellte (sie ist wie ein Thesaurus, gibt Ihnen aber eine viel mehr verwandte Wörter als nur Synonyme). Während ich mit Wortvektoren und der „HasProperty“ -API von conceptnet herumspielte, hatte ich ein bisschen Spaß daran, die Adjektive zu finden, die üblicherweise ein Wort beschreiben. Irgendwann wurde mir klar, dass es dort ist „Ein viel besserer Weg, dies zu tun: Bücher analysieren!

Projekt Gutenberg war der ursprüngliche Korpus, aber der Parser wurde immer gieriger und ich fütterte ihn schließlich mit etwa 100 Gigabyte Textdateien – meistens Fiktion, darunter viele zeitgenössische Werke. Der Parser durchsucht einfach jedes Buch und zieht die verschiedenen Beschreibungen der Substantive heraus.

Hoffentlich ist es mehr als nur eine Neuheit, und einige Leute finden es tatsächlich nützlich für ihr Schreiben und Brainstorming, aber eine nette Kleinigkeit Zu versuchen ist, zwei Substantive zu vergleichen, die ähnlich, aber in bedeutender Weise unterschiedlich sind – zum Beispiel ist das Geschlecht interessant: „Frau“ gegen „Mann“ und „Junge“ gegen „Mädchen“. Bei einer ersten schnellen Analyse scheint das so zu sein Autoren von Belletristik beschreiben Frauen (im Gegensatz zu Männern) mindestens viermal häufiger mit Schönheitsbegriffen (in Bezug auf Gewicht, Merkmale und allgemeine Attraktivität). Tatsächlich ist „schön“ möglicherweise das am häufigsten verwendete Adjektiv für Frauen in die gesamte Literatur der Welt, die durchaus mit der allgemeinen eindimensionalen Darstellung von Frauen in vielen anderen Medienformen übereinstimmt. Wenn jemand dies weiter untersuchen möchte, lassen Sie es mich wissen und ich kann Ihnen viel mehr Daten geben (zum Beispiel gibt es ungefähr 25000 verschiedene Einträge für „Frau“ – zu viele, um sie hier anzuzeigen).

Die Blauheit der Ergebnisse repräsentiert ihre relative Häufigkeit. Sie können eine Sekunde lang mit der Maus über ein Element fahren, und die Frequenzbewertung sollte angezeigt werden. Die Sortierung nach „Eindeutigkeit“ ist Standard und ordnet sie dank meines komplizierten Algorithmus ™ nach den Adjektiven „Eindeutigkeit für dieses bestimmte Substantiv im Vergleich zu anderen Substantiven“ (es ist eigentlich ziemlich einfach). Wie zu erwarten, können Sie auf die Schaltfläche „Nach Verwendungshäufigkeit sortieren“ klicken, um Adjektive nach ihrer Verwendungshäufigkeit für dieses Substantiv anzuzeigen.

Write a Comment

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.