Descrierea cuvintelor


Descrierea cuvintelor

Ideea pentru motorul Descrierea cuvintelor a venit atunci când construiam motorul pentru cuvinte înrudite (este ca un tezaur, dar vă oferă un mult mai larg de cuvinte înrudite, mai degrabă decât doar sinonime). În timp ce mă jucam cu vectori de cuvinte și API-ul „HasProperty” al conceptnet, m-am distrat puțin încercând să obțin adjectivele care descriu de obicei un cuvânt. În cele din urmă mi-am dat seama că acolo „este un mod mult mai bun de a face acest lucru: analiza cărților!

Proiectul Gutenberg a fost corpusul inițial, dar analizorul a devenit tot mai lacom și am ajuns să-l hrănesc undeva la aproximativ 100 de gigaocteți de fișiere text – în mare parte ficțiune, inclusiv multe opere contemporane. Analizorul se uită pur și simplu prin fiecare carte și scoate diferitele descrieri ale substantivelor.

Sperăm că este mai mult decât o noutate și unii oameni îl vor găsi de fapt util pentru scrierea și brainstorming-ul lor, dar unul mic lucru de încercat este să comparați două substantive care sunt similare, dar diferite într-un mod semnificativ – de exemplu, genul este interesant: „femeie” versus „bărbat” și „băiat” versus „fată”. Pe o analiză rapidă inițială, se pare că autorii de ficțiune au cel puțin 4 ori mai multe șanse de a descrie femeile (spre deosebire de bărbați) cu termeni legați de frumusețe (în ceea ce privește greutatea, trăsăturile și atractivitatea lor generală). De fapt, „frumos” este probabil cel mai utilizat adjectiv pentru femei în toată literatura mondială, care este destul de în concordanță cu reprezentarea generală unidimensională a femeilor în multe alte forme media. Dacă cineva dorește să facă cercetări suplimentare în acest sens, anunțați-mă și vă pot oferi mai multe date (de exemplu, există aproximativ 25000 de intrări diferite pentru „femeie” – prea multe de afișat aici).

Albastrul rezultatelor reprezintă frecvența relativă a acestora. Puteți trece cu mouse-ul peste un element pentru o secundă, iar scorul de frecvență ar trebui să apară. Sortarea „unicitate” este implicită și, datorită algoritmului meu complicat ™, le ordonează prin adjectivele „unicitate față de acel substantiv particular față de alte substantive (de fapt este destul de simplu). Așa cum v-ați aștepta, puteți face clic pe butonul „Sortare după frecvența de utilizare” pentru a adjectiva în funcție de frecvența lor de utilizare pentru acel substantiv.

Write a Comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *