Аналитическая культура. От сбора данных до бизнес-результатов - Карл Андерсон
Книгу Аналитическая культура. От сбора данных до бизнес-результатов - Карл Андерсон читаем онлайн бесплатно и без регистрации! Читать онлайн вы можете не только на компьютере, но и на андроид (Android), iPhone и iPad. Наслаждайтесь!
280 0 01:37, 22-05-2019Книга Аналитическая культура. От сбора данных до бизнес-результатов - Карл Андерсон читать онлайн бесплатно без регистрации
Few S. Now You See It (Oakland: Analytics Press, 2009).
Few S. Show Me the Numbers: Designing Tables and Graphs to Enlighten (Oakland: Analytics Press, 2012).
Tufte E. R. Envisioning Information (Cheshire, CT: Graphics Press, 1990).
Tufte E. R. Visual Explanations (Cheshire, CT: Graphics Press, 1997).
Tufte E. R. The Visual Display of Quantitative Information (Cheshire, CT: Graphics Press, 2001).
Wong D. M. The Wall Street Journal Guide To Information Graphics (New York: W. W. Norton & Company, 2010).
Siroker D. and Koomen P. A/B Testing (Hoboken: John Wiley & Sons, 2013).
Приложение А. О необоснованной эффективности данных: почему больше данных лучше?

Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге [275] . Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
Первый тип проблем можно условно назвать «ближайший сосед». Халеви и др. приводят пример:
Джеймс Хейс и Алексей Эфрос занялись задачей дополнения сцены: они решили удалить фрагмент изображения (портящий вид автомобиль или бывшего супруга) и заменить фон путем добавления пикселей, взятых из большого набора других фотографий[279].

Рисунок 1 Хейса и Эфроса
Норвиг изобразил следующую зависимость:
и описал ее как «порог данных», при котором результаты из очень плохих стали очень хорошими.
Я не уверен, что существует какая-то пороговая величина или что-то напоминающее фазовый переход. Скорее, мне кажется, суть проблемы заключается в поиске ближайшего соответствия. Чем больше данных, тем ближе может быть соответствие.
Хейс и Эфрос отмечают:
Результаты наших первых экспериментов с GIST-дескриптором по базе данных из 10 тыс. изображений крайне нас разочаровали. Тем не менее при увеличении размера набора данных до 2 млн единиц произошел качественный скачок… Независимо от нас Торралба и др. [2007] наблюдали похожий эффект с базой данных размером до 70 млн небольших (32×32) изображений… Для успеха нашего метода требуется большой объем данных. Мы наблюдали существенное улучшение, когда перешли от 10 тыс. к 2 млн изображений.
Размеры двух этих наборов данных различаются слишком сильно, а «качественный скачок» — это не то же самое, что порог (буквально фазовый переход).
Увеличение объема данных может значительно повлиять на показатели из-за простых эффектов. Например, рассмотрим выборку размера n в стандартном нормальном распределении. Как изменяется в зависимости от значения n минимальное значение этой выборки? Создадим выборки разных размеров и вычислим минимальное значение с помощью следующего кода R:
x<-seq(1,7,0.5)
y<-vector(mode="numeric",length=length(x))
for (i in 1:length(x)){ y[i] <- min(rnorm(10^(x[i]))) }
plot(x,y,xlab="Sample size, n (log10 scale)",
ylab="Minimum value of sample",type="b")
Минимум уменьшается лог-линейно. Это случай экстремума с позиции неограниченного хвоста. Возможно, более подходящей здесь для проблемы минимизации, такой как подбор соответствия, будет нижняя граница — идеальное соответствие для всех целей. Например, возможно, кто-то еще, стоя на том же самом месте, сделал фотографию того же самого вида, но без предмета, портящего фотографию.
Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Уважаемые читатели, слушатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.
Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации. Просьба отказаться от оскорблений, угроз и запугиваний. Просьба отказаться от нецензурной лексики. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.
Надеемся на Ваше понимание и благоразумие. С уважением, администратор My-Books.me.
Оставить комментарий
-
Александра15 январь 09:37
Очень интересная книга! Особенно, если любишь психологию и хочешь понимать себя и других. Обязательно послушаю до конца. Спасибо....
Кригер Борис – Гнев
-
Галина25 май 13:02
Очень уважаю Артема Шейнина, книга замечательная, очень мне близкая по духу.Перечитываю уже второй раз, столько пережитого и не...
Мне повезло вернуться - Артем Шейнин
-
Екатерина11 январь 08:05
Доброе утро. Подскажите пожалуйста как сохранять книги, ставить закладки?...
Подонок - Анастасия Леманн