Beskriv ord
Ideen til beskrivende ord-motoren kom da jeg bygde motoren for relaterte ord (det er som en synonymordbok, men gir deg en mye bredere sett med beslektede ord, i stedet for bare synonymer). Mens jeg lekte med ordvektorer og «HasProperty» API til conceptnet, hadde jeg litt moro med å prøve å få adjektivene som ofte beskriver et ord. Til slutt skjønte jeg at der «en mye bedre måte å gjøre dette på: analysere bøker!
Prosjekt Gutenberg var det første korpuset, men parseren ble grådigere og grådigere, og jeg endte med å mate den et sted rundt 100 gigabyte tekstfiler – for det meste fiksjon, inkludert mange samtidige verk. Parseren ser ganske enkelt gjennom hver bok og trekker frem de forskjellige beskrivelsene av substantiv.
Forhåpentligvis er det mer enn bare en nyhet, og noen mennesker vil faktisk finne det nyttig for skriving og brainstorming, men en pene liten ting å prøve er å sammenligne to substantiver som er like, men forskjellige på en eller annen betydelig måte – for eksempel er kjønn interessant: «kvinne» mot «mann» og «gutt» kontra «jente». På en hurtig analyse raskt, ser det ut til at Forfattere av skjønnlitteratur er minst 4 ganger mer sannsynlig å beskrive kvinner (i motsetning til menn) med skjønnhetsrelaterte termer (når det gjelder vekt, egenskaper og generell attraktivitet). Faktisk er «vakker» muligens det mest brukte adjektivet for kvinner i all verdens litteratur, som er ganske i tråd med den generelle ensidige representasjonen av kvinner i mange andre medieformer. Hvis noen ønsker å gjøre nærmere undersøkelser av dette, gi meg beskjed, så kan jeg gi deg mye mer data (for eksempel er det omtrent 25000 forskjellige oppføringer for «kvinne» – for mange til å vise her).
Resultatens blåhet representerer deres relative frekvens. Du kan holde markøren over et element i et sekund, og frekvenspoengene skal dukke opp. «Unikhet» -sorteringen er standard, og takket være min kompliserte algoritme ™ ordner den dem etter adjektivene «unikhet til det bestemte substantivet i forhold til andre substantiver (det er faktisk ganske enkelt). Som du forventer, kan du klikke på «Sorter etter bruksfrekvens» -knappen for å få adjektiver etter bruksfrekvens for det substantivet.