Woorden beschrijven


Woorden beschrijven

Het idee voor de engine voor beschrijvende woorden ontstond toen ik de engine voor verwante woorden aan het bouwen was (het is als een thesaurus, maar geeft je een veel bredere reeks verwante woorden, in plaats van alleen synoniemen). Tijdens het spelen met woordvectoren en de “HasProperty” API van conceptnet, vond ik het een beetje leuk om de bijvoeglijke naamwoorden te vinden die gewoonlijk een woord beschrijven. Uiteindelijk realiseerde ik me dat er “een veel betere manier om dit te doen: ontleden van boeken!

Project Gutenberg was het oorspronkelijke corpus, maar de parser werd hebzuchtiger en hebzuchtiger en ik heb het uiteindelijk ergens rond de 100 gigabyte aan tekstbestanden ingevoerd – meestal fictie, waaronder veel hedendaagse werken. De parser kijkt gewoon door elk boek en haalt de verschillende omschrijvingen van zelfstandige naamwoorden tevoorschijn.

Hopelijk is het meer dan alleen een nieuwigheid en zullen sommige mensen het nuttig vinden voor hun schrijven en brainstormen, maar een heel klein beetje ding om te proberen is om twee zelfstandige naamwoorden te vergelijken die vergelijkbaar zijn, maar op een of andere significante manier verschillen – geslacht is bijvoorbeeld interessant: “vrouw” versus “man” en “jongen” versus “meisje”. Bij een eerste snelle analyse lijkt het erop dat auteurs van fictie beschrijven ten minste vier keer meer vrouwen (dan mannen) met termen die verband houden met schoonheid (met betrekking tot hun gewicht, kenmerken en algemene aantrekkelijkheid). In feite is ‘mooi’ mogelijk het meest gebruikte bijvoeglijk naamwoord voor vrouwen in de hele wereldliteratuur, wat behoorlijk in lijn is met de algemene eendimensionale representatie van vrouwen in veel andere mediavormen. Als iemand hier verder onderzoek naar wil doen, laat het me weten en ik kan je veel meer gegevens geven (er zijn bijvoorbeeld ongeveer 25.000 verschillende vermeldingen voor “vrouw” – te veel om hier te laten zien).

De blauwheid van de resultaten geeft hun relatieve frequentie weer. U kunt een seconde over een item zweven en de frequentiescore zou moeten verschijnen. De sortering op “uniekheid” is standaard, en dankzij my Complicated Algorithm ™ worden ze geordend op basis van de bijvoeglijke naamwoorden “uniekheid van dat specifieke zelfstandig naamwoord ten opzichte van andere zelfstandige naamwoorden (het is eigenlijk vrij eenvoudig). Zoals je zou verwachten, kun je op de knop “Sorteren op gebruiksfrequentie” klikken om bijvoeglijke naamwoorden op hun gebruiksfrequentie voor dat zelfstandig naamwoord te zetten.

Write a Comment

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *