Beskrive ord


Beskrive ord

Ideen til Descripting Words-motoren kom, da jeg byggede motoren til relaterede ord (det er som en tesaurus, men giver dig en meget bredere sæt beslægtede ord, snarere end blot synonymer). Mens jeg leger med ordvektorer og “HasProperty” API fra conceptnet, havde jeg lidt sjov med at få de adjektiver, der ofte beskriver et ord. Til sidst indså jeg, at der “en meget bedre måde at gøre dette på: analyser bøger!

Projekt Gutenberg var det oprindelige korpus, men parseren blev grådigere og grådigere, og jeg endte med at give den et sted omkring 100 gigabyte tekstfiler – for det meste fiktion, inklusive mange moderne værker. Parseren kigger simpelthen gennem hver bog og trækker de forskellige beskrivelser af navneord ud.

Forhåbentlig er det mere end bare en nyhed, og nogle mennesker finder det faktisk nyttigt for deres skrivning og brainstorming, men en pæn lille ting at prøve er at sammenligne to navneord, der er ens, men forskellige på en eller anden markant måde – for eksempel er køn interessant: “kvinde” versus “mand” og “dreng” versus “pige”. På en hurtig hurtig analyse ser det ud til, at forfattere af fiktion er mindst 4 gange mere tilbøjelige til at beskrive kvinder (i modsætning til mænd) med skønhedsrelaterede udtryk (med hensyn til deres vægt, træk og generelle tiltrækningskraft). Faktisk er “smuk” muligvis det mest anvendte adjektiv for kvinder i hele verdens litteratur, hvilket er helt i tråd med den generelle ensidige repræsentation af kvinder i mange andre medieformer. Hvis nogen vil undersøge dette yderligere, så lad mig det vide, og jeg kan give dig meget flere data (for eksempel er der omkring 25.000 forskellige poster for “kvinde” – for mange til at vise her).

Resultaternes blåhed repræsenterer deres relative hyppighed. Du kan holde markøren over et element i et sekund, og frekvensscoren skal dukke op. “Unikhed” -sorteringen er standard, og takket være min komplicerede algoritme ™ ordner den dem ved hjælp af adjektiverne “entydighed til det bestemte substantiv i forhold til andre navneord (det er faktisk ret simpelt). Som du forventer, kan du klikke på knappen “Sorter efter brugsfrekvens” for at få adjektiver efter deres brugsfrekvens for det navneord.

Write a Comment

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *