A szavak leírása


A szavak leírása

A Leíró szavak motor ötlete akkor jött fel, amikor a kapcsolódó szavak motorját építettem (olyan, mint egy tezaurusz, de egy sokkal szélesebb körű kapcsolódó szavak, nem csupán szinonimák). Miközben szóvektorokkal és a conceptnet “HasProperty” API-val játszottam, egy kicsit szórakoztam, amikor megpróbáltam megtalálni azokat a mellékneveket, amelyek általában leírnak egy szót. Végül rájöttem, hogy ott “ennek sokkal jobb módja: a könyvek elemzése!

A Gutenberg projekt volt a kezdeti korpusz, de az elemző egyre mohóbb és kapzsisabb lett, és végül valahol 100 gigabájtnyi szöveges fájlba tápláltam – főleg szépirodalom, köztük számos kortárs mű. Az elemző egyszerűen átnézi az egyes könyveket, és előhúzza a főnevek különféle leírásait.

Remélhetőleg ez nem csupán újdonság, és egyesek valóban hasznosnak találják az íráshoz és az ötleteléshez, de egy csinos kis meg kell próbálni két hasonló, de valamilyen jelentős módon eltérő főnév összehasonlítását – például a nem érdekes: “nő” versus “férfi” és “fiú” versus “lány”. Egy kezdeti gyors elemzés alapján úgy tűnik, hogy a szépirodalom szerzői legalább négyszer nagyobb valószínűséggel írják le a nőket (szemben a férfiakkal) szépséggel kapcsolatos kifejezésekkel (súlyukat, jellemzőiket és általános vonzerejüket tekintve). Valójában a “gyönyörű” valószínűleg a nők körében leggyakrabban használt jelző a világ összes irodalma, ami teljesen összhangban van a nők általános egydimenziós reprezentációjával számos más médiaformában. Ha valaki további kutatásokat szeretne végezni ezzel kapcsolatban, tudassa velem, és sokkal több adatot tudok adni (például körülbelül 25 000 különféle bejegyzés található a “nő” kifejezésre – túl sok ahhoz, hogy itt megjelenjen).

Az eredmények kéksége képviseli relatív gyakoriságukat. Egy másodpercig lebeghet egy elem felett, és a frekvencia pontszámnak fel kell ugrania. Az “egyediség” rendezés alapértelmezett, és a bonyolult algoritmusomnak köszönhetően “az adott névhez való egyediség és más névszókhoz való egyediség” (valójában nagyon egyszerű) melléknevekkel rendezi őket. Ahogy elvárható, rákattinthat a “Rendezés használati gyakoriság szerint” gombra, hogy mellékneveket használjon az adott főnév használati gyakorisága szerint.

Write a Comment

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük