» » » Код бестселлера - Мэтью Л. Джокерс

Код бестселлера - Мэтью Л. Джокерс

Книгу Код бестселлера - Мэтью Л. Джокерс читаем онлайн бесплатно и без регистрации! Читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Наслаждайтесь!

205 0 03:02, 22-05-2019
Код бестселлера - Мэтью Л. Джокерс
22 май 2019
Автор: Джоди Арчер Мэтью Л. Джокерс Жанр: Книги / Домашняя Год публикации: 2017 Возрастные ограничения: (18+) Внимание! Аудиокнига может содержать контент только для совершеннолетних.
0 0

Книга Код бестселлера - Мэтью Л. Джокерс читать онлайн бесплатно без регистрации

«Если верить расхожему мнению, любой бестселлер – аномалия. Удачная флуктуация на рынке. Интересный мутант. Черный лебедь. Но если это правда, то, единожды найдя писателя, способного выдавать бестселлеры, надо вкладывать все деньги в него? Зачем рисковать миллионами, ставя их на никому не известного двадцатилетнего юношу вместо Стивена Кинга?Используя компьютерную систему, которая читает книги, распознает в них определенные характеристики и просеивает тысячи таких характеристик в тысячах текстов, мы открыли, что существуют удивительные сочетания параметров, свойственные книгам, которые с наибольшей вероятностью будут пользоваться успехом на рынке. Наша система обрабатывала каждую книгу так, словно это новая, никому не известная рукопись, а затем не просто выносила один из двух вердиктов – “вероятно, бестселлер” или “скорее всего, нет”, – но и вычисляла индекс, указывающий, каковы шансы книги обрести популярность. Эти индексы сами по себе чрезвычайно интересны, и мы не только расскажем, как они устроены, но и объясним, что держит читателя как магнитом, заставляя переворачивать страницы одну за другой».Джоди Арчер, Мэттью Л. Джокерс
1 ... 47 48 49 50 51 52 53 54 55 56
Перейти на страницу:

В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:

Mae knew Renata was watching her, and she knew her face was betraying something like horror[254]. Пропустив это предложение через программу разбора зависимостей, получаем на выходе следующее:[255]

nsubj(knew-2, Mae-1)

root(ROOT-0, knew-2)

nsubj(watching-5, Renata-3)

aux(watching-5, was-4)

ccomp(knew-2, watching-5)

dobj(watching-5, her-6)

cc(knew-2, and-8)

nsubj(knew-10, she-9)

conj(knew-2, knew-10)

nmod: poss(face-12, her-11)

nsubj(betraying-14, face-12)

aux(betraying-14, was-13)

ccomp(knew-10, betraying-14)

dobj(betraying-14, something-15)

case(horror-17, like-16)

nmod(betraying-14, horror-17)

Первая строка вывода показывает связь подлежащего (Mae)[256] с основным глаголом (knew)[257]. Кстати сказать, цифры рядом со словами показывают их порядок в предложении: Mae – первое слово, knew – второе, затем идет Renata и т. д. Обратите внимание: программа заметила связь между Ренатой, другим персонажем романа и глаголом watching[258], а также между местоимением she и вторым вхождением глагола knew. Объединив результаты анализа зависимостей и данные об именах персонажей, полученные с помощью NER, мы смогли понять, какие глаголы характерны для того или иного персонажа. Например, в этом предложении Мэй знает, а Рената наблюдает.

Из всех задач, с которыми мы столкнулись в ходе исследований, разбор зависимостей требует наибольшего объема вычислительных мощностей. Обработка одного романа занимает до пятнадцати часов, а романов у нас были тысячи. К тому же после разбора нужно было пройти по всем текстам еще раз, чтобы извлечь интересующие нас сочетания подлежащего и сказуемого. Это настолько трудоемкий процесс, что нам понадобился кластер из тысячи компьютеров, чтобы обрабатывать тысячу книг одновременно.

С точки зрения сложности вычислительных задач самой простой, вероятно, была описанная в 3-й главе – построение сюжетных графиков на основе слов, означающих эмоциональное состояние героев. Ученые, работающие в этой области (она называется «анализ тональности текста»), разработали несколько подходов к исследованию слов, обозначающих эмоции. Самые совершенные из этих методов делают выводы на основе статистических данных – примерно так же, как и программы разбора по частям речи и разбора зависимостей. Сейчас эти методы используются для анализа отзывов потребителей о товарах и услугах, а также для определения общего эмоционального настроя различных текстов, в том числе электронных писем. Мы экспериментировали с разными методами анализа тональности, но оказалось, что для выделения эмоционально нагруженных слов из текста более простые методы работают лучше.

В методе, который мы сочли наиболее эффективным, использовалось несколько специальных словарей, содержащих эмоционально окрашенные слова. Эти «словари эмоций» представляют собой просто списки слов, для которых указана эмоциональная окраска (положительная или отрицательная) и «валентность». Например, слово «любить» имеет сильную положительную окраску, а «ненавидеть» – сильную отрицательную. Мы научили программу читать книгу слово за словом, регистрировать эмоциональную окраску каждого, а затем давать оценку всему предложению. Последовательности позитивно и негативно окрашенных предложений и создают кривые графиков, приведенные в 3-й главе. Возьмем фразу из речи Эймона в «Сфере»: «Я люблю вас, как трава росинку, как птица ветку». Такое предложение алгоритм определит как положительно окрашенное. Вот еще одна фраза из «Сферы» – ее произносит Энни, только что узнавшая, что ее предки были рабовладельцами: «Ты вообще представляешь, какой бардак сейчас у нас в семье?» Неудивительно, что эту фразу алгоритм пометит как окрашенную отрицательно. Количество положительно и отрицательно окрашенных предложений в отрывке текста, как правило, отражает состояние главного героя в текущий момент и показывает, в каком месте сюжета мы находимся.

Все процессы интеллектуального анализа текста, которые мы обсуждали до сих пор, имеют дело с выделением и распознаванием отдельных компонентов текста. После вычленения слов уже легко узнать, как часто каждое из них встречается. Определив границы предложений, можно подсчитать, например, среднюю длину предложения или соотношение объема диалогов с объемом остального текста. Выполнив разбор по частям речи, мы можем исследовать типы существительных, прилагательных и глаголов, используемых разными авторами. Можно даже начать искать закономерности, характерные для одних писателей и отсутствующие у других. Извлеченные существительные можно ввести в алгоритм моделирования тем (как было показано во 2-й главе), а результаты разбора зависимостей позволяют нам исследовать синтаксис предложений и увидеть, какие связки «подлежащее – сказуемое» используются в каждой книге.

Вся эта вычислительная работа – на самом деле лишь подготовка. Обычно ее называют «предобработкой», предшествующей выделению и извлечению параметров текста. Лишь исследовав различные методы извлечения интересующих нас параметров, можно переходить к более интересной работе – использованию этих методов для классификации книг. Эта вторая фаза построения бестселлерометра называется машинным обучением.

1 ... 47 48 49 50 51 52 53 54 55 56
Перейти на страницу:
  1. Жалоба
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации. Просьба отказаться от оскорблений, угроз и запугиваний. Просьба отказаться от нецензурной лексики. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор My-Books.me.


Новые отзывы

  1. Александра Александра15 январь 09:37 Очень интересная книга! Особенно, если любишь психологию и хочешь понимать себя и других. Обязательно послушаю до конца. Спасибо.... Кригер Борис – Гнев
  2. Галина Галина25 май 13:02 Очень уважаю Артема Шейнина, книга замечательная, очень мне близкая по духу.Перечитываю уже второй раз, столько пережитого и не... Мне повезло вернуться - Артем Шейнин
  3. Екатерина Екатерина11 январь 08:05 Доброе утро. Подскажите пожалуйста как сохранять книги, ставить закладки?... Подонок - Анастасия Леманн
Все комметарии
Новинки бесплатной онлайн библиотеки