» » » Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Книгу Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читаем онлайн бесплатно и без регистрации! Читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Наслаждайтесь!

204 0 13:27, 25-05-2019
Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
25 май 2019
Автор: Эйден Эрец Жан-Батист Мишель Жанр: Книги / Домашняя Год публикации: 2016 Возрастные ограничения: (18+) Внимание! Аудиокнига может содержать контент только для совершеннолетних.
0 0

Книга Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читать онлайн бесплатно без регистрации

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.
1 ... 22 23 24 25 26 27 28 29 30 ... 65
Перейти на страницу:


1. Слова, состоящие не только из букв (например, 3.14 и l8r).

2. Составные слова (whalewatching – «наблюдение за китами»).

3. Нестандартная орфография (untill вместо until – «до тех пор, пока»).

4. Слова, которым сложно дать однозначное описание (AAAAAAARGH).


Поэтому с нашей стороны было бы несправедливым тыкать пальцем в людей, которые даже не пытались включать в словарь определенные типы слов. Чтобы убедиться в том, что составители словарей исключают из них именно то, что планировали, мы рассчитали, какая часть нашего списка слов пришла из указанных выше четырех категорий.

Это сократило наш список с 1,5 миллиона до немногим более миллиона слов. Но все равно наш ципфовский лексикон почти в два раза превышал по объему количество статей в Oxford English Dictionary. Иными словами, даже самый полный словарь английского языка упускает большинство слов. Эти задокументированные слова включали в себя множество ярких понятий, таких как aridification (процесс, в результате которого географический регион становится засушливым), slenthem (музыкальный инструмент) и, что показалось вполне уместным, слово deletable («допускающий удаление»).

Так в чем же состоит проблема словарей?

Ответ – частотность употребления. Судя по всему, составители словарей проводят отличную работу по отбору самых частых слов. В этом смысле словари совершенно идеальны: они действительно содержат буквально 100% всех слов – если только эти слова встречаются чаще, чем один раз на миллион, например слово dynamite («динамит»). Если слово появляется хотя бы один раз в случайной стопке из десяти книг, словарь зафиксирует его и даст ему определение.


Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Однако у лексикографов возникает немалая проблема с редкими словами. Как только частота слова оказывается меньше, чем одно на миллион, шансы на то, что оно не будет включено в словарь, резко возрастают. Если посмотреть на слова с частотой употребления немногим меньшей, чем одно на миллиард, в словари будет включена лишь четверть.

Стоит помнить о правиле, установленном Ципфом, – большинство слов встречается достаточно редко. Соответственно, если словари упускают из вида большинство редких слов, то можно сказать, что они упускают большинство слов как таковых.

В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].

Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа OED. Для ускорения работы они дополняют существующие методы новым подходом обработки данных в лексикографии (и даже вплотную приближаются к лексикограферологии!).

В целом все эти нововведения полезны и приятны для лексикографов. Несмотря на многовековые усилия, предстоит проделать еще огромную работу. Можно сказать, что английский язык и по сей день остается неизведанным континентом.

Четыре дня рождения и одни похороны

Новые слова всегда волнуют людей. Каждый год Американское диалектное общество проводит специальное собрание, посвященное словам. Члены общества отдают свои голоса в категориях «Слово года» [107], «Самое странное слово» и даже «Кандидат, у которого мало шансов стать словом» [108]. Стоит отметить, что наше изобретение – слово «культуромика» – в 2010 году было номинировано именно в этой последней категории. С 1991 года список слов года включал в себя cyber (1994), e- (1998), metrosexual (2003) и совсем недавно hashtag (mot-diиse на случай, если нас читают представители французского правительства). Списки, составляемые Американским диалектным обществом, наглядно подтверждают, что язык охотно приветствует новые слова и уделяет им должное внимание.

Однако в том, что касается конца лексического жизненного цикла, никакой бурной деятельности не происходит. Судя по всему, никому не хочется проводить похороны для умерших слов. Именно поэтому так сложно сказать, что оказывается выше, рождаемость или смертность (иными словами, что происходит с английским языком – расширяется ли он, сужается или остается неизменным).

Чтобы разобраться с этим вопросом, мы создали еще два ципфовских списка слов. Для первого мы использовали тексты, опубликованные между 1990 и 2000 годами, и сформировали современный словарь. А для второго мы использовали два исторических периода – десятилетие, предшествовавшее 1900 году, и десятилетие, предшествовавшее 1950-му[109].

Мы обнаружили, что к 1900 году словарный состав насчитывал свыше 550 000 слов. Это больше, чем в новом издании Oxford English Dictionary. В течение следующих 50 лет не происходило ничего интересного и язык оставался неизменным по объему. Рождаемость и смертность почти уравновешивали друг друга.

1 ... 22 23 24 25 26 27 28 29 30 ... 65
Перейти на страницу:
  1. Жалоба
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации. Просьба отказаться от оскорблений, угроз и запугиваний. Просьба отказаться от нецензурной лексики. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор My-Books.me.


Новые отзывы

  1. Александра Александра15 январь 09:37 Очень интересная книга! Особенно, если любишь психологию и хочешь понимать себя и других. Обязательно послушаю до конца. Спасибо.... Кригер Борис – Гнев
  2. Галина Галина25 май 13:02 Очень уважаю Артема Шейнина, книга замечательная, очень мне близкая по духу.Перечитываю уже второй раз, столько пережитого и не... Мне повезло вернуться - Артем Шейнин
  3. Екатерина Екатерина11 январь 08:05 Доброе утро. Подскажите пожалуйста как сохранять книги, ставить закладки?... Подонок - Анастасия Леманн
Все комметарии
Новинки бесплатной онлайн библиотеки