Больше рецензий

sq

Эксперт

Abiit, excessit, evasit, erupit

7 января 2019 г. 02:30

1K

4.5

Классная книга! Вопреки ожиданиям автора, я прочитал её до конца, все 75,000 слов, кроме благодарностей, которые в самом конце. Благодарности только просмотрел: в абсолютном большинстве случаев они интересны лишь тем, кого благодарят -- и в нашем случае тоже.
Книга посвящена тому, что копание в больших данных может приводить к результатам, которые по-другому не найдёшь и которые порой прямо противоположным данным, которые нам поставляет интуиция. В этом смысле данные, которые собирает Google и в некоторых случаях Facebook и другие источники дают нам понятие о том, как на самом деле работает наш мир. Что может быть ценнее?
Ещё совсем недавно слова "большие данные" воспринимались как лженаука. Положение дел стремительно поменялось в последнее время. Большие данные могут наконец сделать социологию действительно наукой -- и, судя по всему, сделают, причём, довольно скоро. Уже начали делать.
При этом по некоторым объективным причинам запросы к поисковику Google позволяют делать самые правдивые на сегодняшний день выводы о некоторых сторонах нашей жизни.

Автор много внимания уделил "проклятию размерности" при поиске корреляций. Странно, что он совсем не написал о "законе малых чисел". Чем мельче мы дробим статистику, тем больше становится дисперсия. Например, следующий факт, скорее всего, объясняет, что:

Графства, в которых нет крупных городов с колледжами, демонстрируют гораздо худшие результаты, чем городские округа.

Неважно, о чём речь. Важно, что крупная сущность (графство) даёт меньшую среднюю величину какого-то параметра, чем сущность мелкая (округ). "Закон малых чисел" да и вообще теория вероятностей предсказывает, что некоторые городские округа наверняка дадут лучший результат. Та же причина приводит к тому, что какой-то мелкий округ даёт непропорционально большое по отношению к своему населению количеству классных хоккеистов. Соседний даст непропорционально малое, что и не удивительно.

Но в основном описанным в книге данным, выводам и объяснениям я верю, несмотря на то, что они часто диаметрально противоположны априорным ожиданиям.

Наконец-то даже посетители порносайтов сподобились дать науке полезную информацию. Я думал, что они, эти посетители, какой-то ерундой заняты. Но нет. Они тоже по мере сил работают на науку.

Отличная идея ежедневно подсчитывать уровень валового национального счастья по данным настроения пользователей Facebook-а. Надо нашим властям об этом рассказать. Пусть хоть так узнаю́т о том, как те или иные их действия влияют на народ.
В очередной раз порадовался за американцев. У них

в целом полученные данные свидетельствуют о том, что рынок определяет направленность газет в гораздо большей степени, чем воля хозяев.

У нас, похоже, не так. Надо бы исследовать этот вопрос и здесь. Не знаю про газеты, не читаю их, но основные телеканалы точно подчиняются воле хозяина, и он, к сожалению, на всех один.

Количество поисковых запросов со словами «погода», «молитва» и «новости» достигает максимума около 5:30 утра – это доказывает, что большинство людей просыпаются гораздо раньше меня. Число поисковых запросов со словом «самоубийство» достигает пика в 12:36 дня, а минимума – около 9 утра. Это доказывает, что большинство людей утром гораздо менее несчастны, чем я.
Статистика показывает, что время между 2 и 4 часами утра – не лучшее для решения главных вопросов бытия. В чем смысл сознания? Существует ли свобода воли? Есть ли жизнь на других планетах? Популярность этих вопросов поздно ночью может быть результатом, в частности, использования каннабиса. Пик поисков с текстом «Как забить косяк?» приходится на период между 1 и 2 часами ночи.

Интересно, когда возрастает частота запроса "куда спрятать труп?" Cтивенс-Давидовиц пишет следующую книгу. Надеюсь, в ней он ответит и на этот животрепещущий вопрос.

Не обходит автор вниманием и вопрос о границах применимости анализа больших данных. И касается вопросов этики их использования, что очень, на мой взгляд, важно.

Классная книга, это совершенно точно. На наших глазах рождается новая наука!
Жаль только, рождается она опять где-то в за океаном. Кто мешал кому-нибудь из наших социологов стать родоначальником? Вообще-то я знаю, кто мешает, но это не предмет обсуждения на этих страницах.

=========
Спасибо ELiashkovich за рекомендацию :)

Комментарии


С удовольствием прочел вашу рецензию.
И повеселился, и подумал.
Одна из мыслей: перед самым новым годом пошел гигантский высокопоставленный наезд на нашу статистику. Уж не прочли ли наши кормчие книгу эту? Это они еще вашу рецензию не читали - а то б и вовсе статистов в дисперсию втоптали б.


Спасибо :)
Наша статистика -- это отдельная наука. Даже, я бы сказал, искусство. Видимо, старые художники вышли из моды. Это нормально в мире искусства :)))


Пугающая метафора. Старые мастера со временем начинают цениться все больше и больше. :)


Мы ещё не знаем новых, так что очень может быть, что будем по ним скучать. Хотя, я и старого главного статистика не знаю. Мир искусства бывает замкнутым :)


Работаю в департаменте Университета Сиднея, который занимается данными (условно большими, накоплено пока не так много, хотя по сравнению с российскими университетами тут залежи). Узнали, что студенты-медики учатся всю ночь (по данным доступа к библиотечным материалам), а вот студенты, изучающие право, спокойно спят. Ну, это из забавного, а на самом деле это очень увлекательно, книгу почитаю :)


Говорят, в Кембридже во время сессии читальные залы работают круглосуточно, и туда приходят студенты, занимаются, потом засыпают прямо за столом, чтобы в своё время проснуться и продолжить занятия. Это в порядке вещей. Запрещается только зевать, поскольку зевание заразительно. Зевающего студенты удаляют из читального зала.
Эта байка старая, думаю, сегодня студенты готовятся к экзаменам совсем по-другому. Однако, зная о любви англичан к традициям, полагаю, что эти правила не поменялись и сегодня :)