Describing Words


Describing Words

Pomysł na silnik Describing Words pojawił się, kiedy budowałem silnik dla słów pokrewnych (działa jak tezaurus, ale daje dużo szerszy zestaw powiązanych słów, a nie tylko synonimy). Podczas zabawy z wektorami słów i interfejsem API „HasProperty” w conceptnet, trochę się zabawiłem, próbując znaleźć przymiotniki, które powszechnie opisują słowo. W końcu zdałem sobie sprawę, że tam „To znacznie lepszy sposób na zrobienie tego: analizuj książki!

Projekt Gutenberg był początkowym korpusem, ale parser stawał się coraz bardziej zachłanny i skończyło się na tym, że wrzuciłem go gdzieś około 100 gigabajtów plików tekstowych – głównie fikcji, w tym wiele dzieł współczesnych. Parser po prostu przegląda każdą książkę i wyciąga różne opisy rzeczowników.

Mam nadzieję, że jest to coś więcej niż tylko nowość i niektórzy ludzie uznają to za przydatne do pisania i burzy mózgów, ale jeden zgrabny warto spróbować porównać dwa rzeczowniki, które są podobne, ale różnią się w znaczący sposób – na przykład płeć jest interesująca: „kobieta” kontra „mężczyzna” i „chłopiec” kontra „dziewczyna”. Po wstępnej szybkiej analizie wydaje się, że autorzy powieści co najmniej 4x częściej opisują kobiety (w przeciwieństwie do mężczyzn) terminami związanymi z urodą (ze względu na ich wagę, cechy i ogólną atrakcyjność). W rzeczywistości „piękna” jest prawdopodobnie najczęściej używanym przymiotnikiem określającym kobiety w całej literatury światowej, co jest zgodne z ogólną jednowymiarową reprezentacją kobiet w wielu innych formach mediów. Jeśli ktoś chciałby zbadać tę sprawę dalej, daj mi znać, a mogę podać znacznie więcej danych (na przykład istnieje około 25 000 różnych wpisów dla słowa „kobieta” – zbyt wiele, aby je tutaj pokazać).

Błękit wyników reprezentuje ich względną częstotliwość. Możesz na chwilę najechać kursorem na element, a wynik częstotliwości powinien się pojawić. Sortowanie według „unikalności” jest domyślne, a dzięki mojemu skomplikowanemu algorytmowi ™ porządkuje je według niepowtarzalności przymiotników w odniesieniu do tego konkretnego rzeczownika w stosunku do innych rzeczowników (jest to właściwie całkiem proste). Jak można się spodziewać, możesz kliknąć przycisk „Sortuj według częstotliwości użycia”, aby przymiotniki według częstotliwości używania danego rzeczownika.

Write a Comment

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *