» » » Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель

Книгу Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читаем онлайн бесплатно и без регистрации! Читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Наслаждайтесь!

204 0 13:27, 25-05-2019
Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель
25 май 2019
Автор: Эйден Эрец Жан-Батист Мишель Жанр: Книги / Домашняя Год публикации: 2016 Возрастные ограничения: (18+) Внимание! Аудиокнига может содержать контент только для совершеннолетних.
0 0

Книга Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Жан-Батист Мишель читать онлайн бесплатно без регистрации

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.
1 ... 19 20 21 22 23 24 25 26 27 ... 65
Перейти на страницу:

Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n-грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).

Разумеется, если мы ограничим себя данными n-грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n-грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.

Лидеры свободного слова

Язык состоит из слов. Но что такое «слово»?

Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis- («лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом[90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato, описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].

И она права. Пьесы Шекспира наполнены неологизмами. По сути, Шекспир, как и Буш, был социальным консерватором и либералом в отношении приставок и суффиксов. Он часто создавал новые слова, используя ту же стратегию, которая заставила Буша создать слово misunderestimate. Однако в отличие от Буша Шекспир смог оставить богатое лексическое наследие, поскольку его творения получили широкое признание. Например, он использовал приставку lack-, чтобы создавать слова типа lack-beard («безбородый»), lack-brain («безмозглый»), lack-love («лишенный любви») и lack-luster («скучный»). Что касается последнего слова, то его дальнейшую жизнь никак нельзя назвать скучной. Поэты вообще наслаждаются лексической свободой в значительно большей степени, чем политики. Стихотворение Льюиса Кэрролла «Бармаглот» состоит в основном из слов, придуманных автором, и, возможно, Кэрролл возликовал бы, узнав, как много из них вошло в современный английский язык.


Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?

Это слово или нет?

Лексикограф. Создатель словарей; безобидный работяга…

– Сэмюел Джонсон, «Словарь английского языка», 1755 —

Словари (по крайней мере, в принципе) позволяют решить проблему того, что является словом, а что – нет. В конце концов, словари представляют собой каталоги официально одобренных слов, каждому из которых соответствовал список одобренных значений. Многие словари (например, American Heritage Dictionary[93], в четвертом издании которого содержится 116 000 слов[94]) призваны исполнять роль удобного справочника. Другие словари призваны выполнять более амбициозные задачи. К примеру, таким словарем является подробный трехтомный справочник, известный под названием Oxford English Dictionary. Первое издание этого труда вышло в 1928 году, а самое свежее издание OED содержит 446 000 слов[95]. Если вы хотите знать, какие слова составляют официальную часть языка, то словари – это лучшее, к чему можно обратиться. Если слово есть в словаре – то это полноценное слово. Если нет, то нет[96].

1 ... 19 20 21 22 23 24 25 26 27 ... 65
Перейти на страницу:
  1. Жалоба
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации. Просьба отказаться от оскорблений, угроз и запугиваний. Просьба отказаться от нецензурной лексики. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор My-Books.me.


Новые отзывы

  1. Александра Александра15 январь 09:37 Очень интересная книга! Особенно, если любишь психологию и хочешь понимать себя и других. Обязательно послушаю до конца. Спасибо.... Кригер Борис – Гнев
  2. Галина Галина25 май 13:02 Очень уважаю Артема Шейнина, книга замечательная, очень мне близкая по духу.Перечитываю уже второй раз, столько пережитого и не... Мне повезло вернуться - Артем Шейнин
  3. Екатерина Екатерина11 январь 08:05 Доброе утро. Подскажите пожалуйста как сохранять книги, ставить закладки?... Подонок - Анастасия Леманн
Все комметарии
Новинки бесплатной онлайн библиотеки