Beskriva ord
Idén till Descripting Words-motorn kom när jag byggde motorn för relaterade ord (det är som en tesaurus, men ger dig en mycket bredare uppsättning relaterade ord, snarare än bara synonymer). Medan jag lekte med ordvektorer och ”HasProperty” API för conceptnet, hade jag lite kul att försöka få adjektiven som ofta beskriver ett ord. Så småningom insåg jag att det ”ett mycket bättre sätt att göra detta: analysera böcker!
Projekt Gutenberg var det första korpuset, men analysatorn blev girigare och girigare och jag slutade mata den någonstans runt 100 gigabyte textfiler – mestadels fiktion, inklusive många samtida verk. Parsern tittar helt enkelt igenom varje bok och tar fram de olika beskrivningarna av substantiv.
Förhoppningsvis är det mer än bara en nyhet och vissa människor kommer faktiskt att tycka att det är användbart för deras skrivande och brainstorming, men en snygg liten sak att försöka är att jämföra två substantiv som är lika, men olika på något betydelsefullt sätt – till exempel är kön intressant: ”kvinna” kontra ”man” och ”pojke” kontra ”tjej”. På en snabb analys analyserar det att skönlitterära författare är minst 4 gånger mer benägna att beskriva kvinnor (i motsats till män) med skönhetsrelaterade termer (angående deras vikt, egenskaper och allmänna attraktionskraft). Faktum är att ”vackert” är det mest använda adjektivet för kvinnor i hela världens litteratur, vilket är helt i linje med den allmänna endimensionella representationen av kvinnor i många andra medieformer. Om någon vill göra ytterligare undersökningar om detta, låt mig veta så kan jag ge dig mycket mer data (till exempel finns det cirka 25000 olika poster för ”kvinna” – för många för att visa här).
Resultatens blåhet representerar deras relativa frekvens. Du kan hålla muspekaren över ett objekt en sekund och frekvenspoängen ska dyka upp. ”Unikhet” -sorteringen är standard, och tack vare min komplicerade algoritm ™ ordnar den dem med adjektiven ”unikhet för det specifika substantivet i förhållande till andra substantiv (det är faktiskt ganska enkelt). Som du förväntar dig kan du klicka på knappen ”Sortera efter användningsfrekvens” för att använda adjektiv efter deras användningsfrekvens för det substantivet.