Cyfrowe książki to „kulturowy genom”

Autor: www.naukawpolsce.pap.pl, 20 grudnia 2010

Zdigitalizowane miliony książek są tym dla nauk humanistycznych, czym badania genomu dla biologii i medycyny – twierdzą naukowcy. Przez cztery lata prowadzili oni ilościowe badania korpusu ponad pięciu milionów książek.

Od kilku lat na świecie coraz intensywniej digitalizuje się książki i artykuły. Przoduje w tym Google Books, która ma zamiar przenieść do internetu wielomilionowe zbiory światowych bibliotek.

Naukowcy prezentują wyniki badań oparte na analizie słów zawartych w części książek opublikowanych dotąd w internecie. Poprzez obliczenie częstotliwości występowania pewnych słów na przestrzeni wieków, zespół usiłuje pokazać, jak wyglądały pewne trendy kulturowe. Czteroletni projekt prowadzony był przez naukowców z Harvard University przy udziale technologicznym i finansowym Google.

Naukowcy wzięli pod uwagę korpus tekstów zgromadzony w zbiorach Uniwersytetu Harwardzkiego, Google Books, Encyclopaedia Britannica i American Heritage Dictionary. W sumie około 5,2 mln książek z 500 mld słów. Około 72 proc. tekstów korpusu jest w języku angielskim, reszta to francuski, hiszpański, niemiecki, chiński, rosyjski i hebrajski.

Na jego podstawie okazało się, że co roku język angielski wzbogaca się o 8,5 tys. słów. Oznacza to, że pomiędzy rokiem 1950 a 2000 zasób słownictwa zwiększył się o 70 proc. Co ciekawe, wielu z tych słów nie ma w słownikach. „Oceniamy, że 52 proc. angielskiego zasobu słów to rodzaj leksykalnej +ciemnej materii+” – napisali naukowcy.

Dalsze analizy dowodzą, że z każdym rokiem maleje w korpusie tekstów liczba odniesień do przeszłości. Na przykład współcześni celebryci są młodsi i sławniejsi niż ich XIX-wieczni poprzednicy, ich sława za to trwa krócej. Celebryci urodzeni w 1950 r. osiągnęli sławę średnio w wieku 29 lat, natomiast urodzeni w 1900 r. – dopiero w wieku 43 lat. Za to innowacje z roku na rok rozprzestrzeniają się szybciej.

Z badań wynika również, że najsłynniejsi aktorzy zyskują sławę przeciętnie w wieku 30 lat, pisarze – 40, a politycy – 50.

Okazuje się, że kluczowe dla zrozumienia danej epoki może być nie tylko występowanie pewnych słów, ale też ich przemilczenie, jak w czasach totalitarnej propagandy. Dla przykładu, żydowski malarz Marc Chagall wymieniany był w korpusie niemieckich tekstów z lat 1936-1944 tylko raz, mimo że w tym czasie dużo częściej pojawia się w publikacjach angielskojęzycznych. Podobnie było w tym czasie z nazwiskiem Lwa Trockiego w Rosji, a obecnie w Chinach z nazwą Tiananmen.

Z uczonych najpopularniejszy w naszej kulturze pod względem częstotliwości występowania w tekstach jest Freud. Przebija Galileusza, Darwina i Einsteina.

To tylko niektóre z uzyskanych wyników. Naukowcy postulują utworzenie nowej dziedziny badań – kulturonomiki, na wzór genomiki, gdzie „kodem genetycznym” będą teksty stworzone przez ludzkość.

„Zainteresowanie podejściem ilościowym do nauk humanistycznych i społecznych datuje się na lata 50. XX w. – wyjaśnia Jean-Baptiste Michel z Harvard University. – Niestety, próby zastosowania metody ilościowej do badań kultury były hamowane przez brak odpowiednich danych. Mamy teraz olbrzymie zbiory danych, dostępne w sposób przyjazny dla każdego użytkownika”.

Google ma zamiar wypuścić nową aplikację, która w sposób nieskomplikowany pomoże użytkownikowi zrobić to samo, co naukowcy: po wpisaniu słowa lub frazy będzie można śledzić, jak zmieniała się częstotliwość ich użycia przez ostatnie stulecia.

Słowa kluczowedigitalizacja Google książki kulturonomika słowa

← Poprzedni Artykuł Zidentyfikowano nowy wzmacniacz pamięci

Następny Artykuł → Rewolucja w sekwencjonowaniu DNA

Zaloguj się Logowanie

Komentuj

Musisz się zalogować, aby móc dodać komentarz.

O PORTALU

TwojeInnowacje.pl to portal nie tylko o innowacjach, ale także poruszający tematykę biznesowo-gospodarczo-finansowo-edukacyjną. To portal o charakterze informacyjnym skierowany do osób poszukujących inspiracji i niestandardowego podejścia w prowadzeniu działalności gospodarczej, wykorzystaniu rozwiązań nowych technologii w swojej pracy, poszukujących źródeł finansowania innowacji i inwestycji, które stawiają na własny rozwój zawodowy. Portal zawiera również lokalne wiadomości z 16 regionów Polski w kategorii Kraj. Użytkownicy portalu to m.in. przedsiębiorcy, trenerzy biznesu, innowatorzy, urzędnicy, pracownicy instytucji otoczenia biznesu, studenci.
CHMURA TAGÓW

najnowsze wiadomości innowacyjność innowacje ue innowacja praca internet rynek pracy Komisja Europejska inwestycje badania zatrudnienie środki unijne biznes firma oprogramowanie ważne informacje naukowcy firma nauka szkolenia rolnicy KE fundusze unijne wiadomości naukowe dofinansowanie unijne dofinansowanie konkurs firmy polecane nowe technologie edukacja rolnictwo IT nowinki naukowe facebook MSP studenci Waldemar Pawlak badania naukowe gospodarka
Ciasteczka

Ta strona używa cookie. Korzystanie ze strony oznacza wyrażenie zgody na używanie cookie, zgodnie z aktualnymi ustawieniami przeglądarki. Więcej szczegółów w naszej "Polityce prywatności".
NASZE SERWISY

ALEXANDRITE.PL - DOMINNOWACJI.PL - RESNOVA.PL

Cyfrowe książki to „kulturowy genom”

Komentuj

Najnowsze wiadomości

Najnowsze komentarze

O PORTALU

CHMURA TAGÓW

Ciasteczka

NASZE SERWISY

Cyfrowe książki to „kulturowy genom”

TO TAKŻE MOŻE CIĘ ZAINTERESOWAĆ

Komentuj

Najnowsze wiadomości

Najnowsze komentarze

O PORTALU

CHMURA TAGÓW

Ciasteczka

NASZE SERWISY