» » » Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Книгу Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читаем онлайн бесплатно и без регистрации! Читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Наслаждайтесь!

204 0 13:27, 25-05-2019
Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
25 май 2019
Автор: Эйден Эрец Жан-Батист Мишель Жанр: Книги / Домашняя Год публикации: 2016 Возрастные ограничения: (18+) Внимание! Аудиокнига может содержать контент только для совершеннолетних.
0 0

Книга Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читать онлайн бесплатно без регистрации

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.
1 ... 20 21 22 23 24 25 26 27 28 ... 65
Перейти на страницу:

Но даже в этом случае перед нами загадка. Как именно лексикографы, создающие словари, узнают, какие слова в них включать?

Существует две теории относительно того, как это работает.

Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт[97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «I have answered your grotesque telephone» должна была писаться как «I hav anserd yur grotesk telefone». Эта идея не понравилась Конгрессу, поэтому изначальная орфография осталась нетронутой. Предписывающая точка зрения на лексикографию до сих пор доминирует во Франции, где правительство периодически публикует официальный документ о правильном использовании и написании слов. В январе 2013 года Journal Officiel порекомендовал заменить английское слово hashtag («хэштег») французским mot-diиse (что можно условно перевести как «слово со значком»). Разумеется, Twitter ответил на это коллективным #ROFL[98]. Проблема предписывающего подхода состоит в том, что неочевидно, какой человек или какая организация должны отвечать за язык[99]. Язык больше любого конкретного правительства, этноса или нации.

Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не предписывает, что нам делать, а описывает, что мы делаем, будучи предоставленными сами себе[100]. Согласно этому подходу, лексикографы – это не монархи, а исследователи. Словарь представляет собой карту их открытий.

Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?

В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны[101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.


Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Возьмем, к примеру, American Heritage Dictionary. Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста[102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

1 ... 20 21 22 23 24 25 26 27 28 ... 65
Перейти на страницу:
  1. Жалоба
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации. Просьба отказаться от оскорблений, угроз и запугиваний. Просьба отказаться от нецензурной лексики. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор My-Books.me.


Новые отзывы

  1. Александра Александра15 январь 09:37 Очень интересная книга! Особенно, если любишь психологию и хочешь понимать себя и других. Обязательно послушаю до конца. Спасибо.... Кригер Борис – Гнев
  2. Галина Галина25 май 13:02 Очень уважаю Артема Шейнина, книга замечательная, очень мне близкая по духу.Перечитываю уже второй раз, столько пережитого и не... Мне повезло вернуться - Артем Шейнин
  3. Екатерина Екатерина11 январь 08:05 Доброе утро. Подскажите пожалуйста как сохранять книги, ставить закладки?... Подонок - Анастасия Леманн
Все комметарии
Новинки бесплатной онлайн библиотеки