ОглавлениеНазадВпередНастройки
Добавить цитату

Часть II. Могущество больших данных

Глава 2. Возможно, Фрейд был прав?

Недавно я слышал, как идущего по улице мужчину обозвали – «penistrian» (игра слов: pedestrian – пешеход, penis – пенис; получается «членоход»). Вы уловили? «Penistrian» («Членоход») вместо «pedestrian» («Пешеход»). Я видел подобное во многих поисковых запросах. Человек видит, как кто-то шагает, и пишет слово «Penis» («пенис»). Это ведь должно что-то означать, правда?

Недавно я узнал об одном мужчине, которому ужасно хотелось банан в тот момент, когда он шел к алтарю навстречу своей будущей жене. Я видел подобное в подборках больших данных о фантазиях, которыми люди делятся в сети. Мужчина думает о поедании фрукта фаллической формы в момент, когда собирается жениться на женщине. Это же что-то значит?

Возможно, Фрейд был прав? С того самого момента, когда его теории впервые были вынесены на суд широкой общественности, самым честным ответом на этот вопрос будет пожатие плечами. Ясность внес Карл Поппер – австрийско-британский философ. Он утверждал, что теорию Фрейда нельзя подделать. Не было никакого способа проверить, истинны они или ложны.

Фрейд мог бы сказать: человек, написавший «penistrian», возможно, проявил таким образом свое подавляемое сексуальное желание. А человек мог бы ответить, что он ничего не проявляет, что это вполне могла быть невинная опечатка – такая же, как, например, «pedaltrian» («педалеход»). Это просто ситуация из серии «он сказал, она сказала». Фрейд мог бы утверждать, что господин, мечтающий в день своей свадьбы о том, чтобы съесть банан, думает о пенисе – и это раскрывает его тайное желание выйти замуж за мужчину, а не жениться на женщине. На что сей джентльмен мог бы ответить, что он просто хотел банан. Идя к алтарю, он с тем же успехом мог бы думать о яблоке.

Не было никакого способа по-настоящему испытать теорию Фрейда.

До настоящего времени.

Наука о данных делает многие моменты теории Фрейда опровержимыми, и это позволяет проверить ее на прочность. Начнем с фаллических символов во сне. Используя огромный массив данных из записанных снов, мы можем легко заметить, как часто в них появляются предметы фаллической формы. Еда – хороший объект, на котором можно сосредоточить свое внимание. Она появляется во многих снах, и многие продукты имеют форму фаллоса – бананы, огурцы, сосиски и т. д. Мы можем измерить факторы, которые заставляют нас видеть во сне одни продукты чаще других: как часто их едят, насколько вкусными находит их большинство людей, и – да! – действительно ли у них фаллический вид.

Можно протестировать два одинаково популярных продукта, один из которых имеет форму фаллоса. Насколько чаще в снах появляется тот или другой продукт? Если еда, имеющая форму фаллоса, не появляется в наших снах чаще продуктов другой формы, значит, фаллические символы не являются значимым фактором наших сновидений. Благодаря большим данным эту часть теории Фрейда можно реально опровергнуть.

Я получил сведения от Shadow – приложения, предлагающего пользователям записывать свои сны, – и проанализировал продукты, включенные в десятки тысяч снов.

В целом, что заставляет нас видеть во сне еду? Основным прогностическим фактором является то, как часто мы едим именно эти продукты. Вещество, которое мы видим во сне чаще всего – вода. В первую двадцатку продуктов из сновидений входят курица, хлеб, бутерброды и рис. Заметьте, все не по Фрейду.

Второй прогностический фактор, показывающий, насколько часто тот или иной продукт будет появляться в наших снах, это то, насколько вкусным мы его считаем. Два продукта, которые мы наиболее часто видим во сне, также не согласуются с теорией Фрейда: это шоколад и пицца.

А что относительно фаллической формы продуктов? Возможно, еда такой формы проникает в наши сны неожиданно часто? Ни в коей мере.

Бананы являются вторым по частоте появления в снах плодом. Но они также являются вторым по частоте употребления фруктом. Поэтому для объяснения того, почему мы так часто видим во сне бананы, Фрейд нам не нужен. Огурцы – седьмой по частоте появления в снах овощ. Но они занимают седьмое место в списке наиболее потребляемых овощей. Так что не надо объяснять их присутствие в наших снах формой. Хот-доги снятся гораздо реже, чем гамбургеры. Это верно, учитывая тот факт, что люди едят больше бургеров, чем хот-догов.

В целом, используя регрессионный анализ (метод, позволяющий ученым при сборе и анализе данных разделить воздействия нескольких факторов), я обнаружил: еда в форме фаллоса не появляется в наших снах с большей вероятностью, чем можно было бы ожидать при популярности каждого продукта. И это верно для всех фруктов и овощей. Таким образом, эта теория Фрейда является опровергаемой и, по крайней мере согласно собранной мной информации, ложной.

Далее рассмотрим оговорки по Фрейду. Великий психолог предположил, что наши устные или письменные оговорки или описки раскрывают наши подсознательные желания, часто сексуальные. Можем ли мы использовать большие данные, чтобы проверить это? Вот один из способов: посмотреть, не сводятся ли наши оговорки к сексуальным мотивам. Если наши подавленные сексуальные желания способны проникнуть в письмо или речь, должно быть огромное количество ошибок с внедрением таких слов, как «член» и «секс».

Вот почему я изучил набор из более 40 000 опечаток, собранных исследователями корпорации Microsoft. Эти данные включали ошибки, которые люди делали, но потом сразу же исправляли. Среди этих десятков тысяч ошибок во многих имелся различного рода сексуальный подтекст. Был там и вышеупомянутый «penistrian». И еще нашелся запрос, в котором напечатали «sexurity» вместо «security» («безопасность») и «cocks» (просторечное обозначение пенисов) вместо «rocks» («камни, скалы»). Но также имелось и множество невинных опечаток. Люди печатали «pindows», «fegetables», «aftermoons» и «refriderators».

Может быть, количество сексуальных опечаток необычно велико?

Чтобы проверить это, я использовал вышеуказанный набор для того, чтобы смоделировать, как часто люди путают определенные буквы. Сперва подсчитал, как часто они заменяют t и c, g и h. Затем написал программу, которая делала ошибки так же, как это могли бы сделать люди. Мы могли бы назвать эту программу Error Bot. Этот бот заменял t на c с той же частотой, что и люди в исследовании Microsoft. И g на h. И так далее. Я запустил программу, набирая те же слова, которые хотели напечатать люди в исследовании Microsoft. Другими словами, бот пытался набрать слова «пешеход», «скалы», «окна» и «холодильник». Но он так же часто, как люди, путал r и t и писал, например, вместо «rocks» – «tocks» («ягодицы»). И так же часто, как люди, путал r и с и писал вместо «rocks» – «cocks».

Так что же мы узнаем из сравнения программы Error Bot с обычными небрежными людьми? Сделав несколько миллионов ошибок, просто путая буквы так же, как это делают люди, Error Bot сделал множество опечаток по Фрейду. Вместо «seashell» программа писала – «sexshell», вместо «lipstick» – «lipsdick», вместо «luckiest» – «fuckiest» и делала много других подобных опечаток. И вот ключевой момент. Error Bot, у которого, конечно же, нет подсознания, делал ошибки с той же вероятностью, что и реальные люди, опечатки которых воспринимаются как сексуальные. С оговоркой – как мы, социологи, любим говорить, – что необходимо провести дополнительные исследования. Это означает, что сексуально ориентированные ошибки встречаются не чаще, чем просто случайные.

Иными словами, когда люди делают опечатки и пишут «penistrian», «sexurity» и «cocks», совсем необязательно существование какой-то связи между ошибками и запретным. Не факт, что посредством этих описок разум людей раскрывает свои тайные желания. Эти опечатки могут быть объяснены обычными промахами пальцев. Люди делают много ошибок. И если у вас это случается достаточно регулярно, в конце концов обязательно получится что-то вроде «lipsdick», «fuckiest» и «penistrian». Если обезьяна достаточно долго будет бить по клавишам, она в конце концов напишет «быть или не быть». Если человек достаточно долго печатает, он в конце концов может написать «penistrian».

Теория Фрейда о том, что оговорки демонстрируют содержание нашего подсознания, является, согласно моему анализу данных, ложной.

Большие данные говорят нам, что банан – это всегда просто банан, а «penistrian» – просто «pedestrian», но напечатанный с ошибкой.

Но неужели Фрейд промахнулся со всеми своими теориями? Не совсем. Когда я впервые получил доступ к данным PornHub, меня посетило откровение: я наконец нашел то, что показалось мне хоть в чем-то фрейдистским. По сути, это один из самых удивительных моментов, обнаруженных в ходе моей работы с данными: шокирующее количество людей, посещающих наиболее крупные порносайты, ищут изображение инцеста.

16 из 100 наиболее частых поисковых запросов мужчин на одном из самых популярных порносайтов PornHub посвящены видео инцеста. Честно предупреждаю: это довольно живописная картина. Среди них «брат и сестра», «мачеха трахает пасынка», «мама и сын», «мать трахает сына» и «реальные брат и сестра». Больше всего поисковых запросов по кровосмесительным связям мужчины делают относительно сцены с участием матери и сына. А женщины? Девять из ста наиболее частых поисковых запросов женщин на PornHub по поводу видео инцеста включают похожие образы, хотя пол родителя и ребенка, как правило, прямо противоположные. То есть женщины ищут кровосмесительные сцены с участием отцов и дочерей.

Нетрудно предположить в этих фактах хотя бы слабое эхо эдипова комплекса, описанного Фрейдом. Он предположил, что в детстве почти у всех возникает желание половых отношений с родителем противоположного пола, которое позже подавляется. Если бы австрийский психолог прожил достаточно долго, он мог бы применить свои аналитические навыки к данным PornHub, где столь ярко и четко выражена совсем не подавленная заинтересованность взрослых людей к родителю противоположного пола.

Конечно, данные PornHub не могут точно показать, о ком фантазируют люди, когда смотрят подобное видео. Они и в самом деле представляют секс с собственным родителем? Поисковые запросы в Google могут подтвердить, что в мире есть много людей с подобными желаниями.

Рассмотрим все запросы, начинающиеся со слов «я хочу секса с…». На первом месте среди завершающих слов стоит «мама». В целом 82,7 % поисковых запросов в подобной форме являются кровосмесительными. И это не связано с конкретной формулировкой. Например, при поиске в форме «меня привлекает…» признаний кровосмесительных желаний еще больше. Теперь я, рискуя разочаровать господина Фрейда, не исключаю, что это не особо распространенные поисковые запросы: ежегодно в США во влечении к своей матери признаются несколько тысяч человек. Кому-то даже придется подготовить господина Фрейда к новости о том, что поисковые запросы в Google (о чем в этой книге будет говориться позже) лишь иногда перекашиваются в сторону запретного.

Но все же… У людей много неподходящих желаний, которые, как мне казалось, должны чаще проявляться в поисковых запросах. Босс? Служащий? Студент? Терапевт? Пациент? Лучшая подруга жены? Лучшая подруга дочери? Сестра жены? Жена лучшего друга? Ни одно из этих желаний, проявившихся в поисковых запросах, не может конкурировать с желанием обладать матерью. Возможно, в сочетании с данными PornHub это действительно что-то да значит.

Кстати, главное утверждение Фрейда о том, что сексуальность может быть сформирована в детстве, поддерживается данными Google и PornHub. Они дают понять, что мужчины по крайней мере сохраняют невероятное количество фантазий, связанных с детством. По данным поисковых запросов жен о своих мужьях, некоторые из самых популярных фетишей мужчин – желание носить памперсы и чтобы их кормили грудью. Особенно, как уже говорилось раньше, это распространено в Индии. Нельзя не упомянуть и о большой популярности порномультфильмов – анимированных откровенных сексуальных сцен с участием персонажей из шоу, любимых мальчиками-подростками. Или рассмотрим вопрос о профессии женщин, чаще всего востребованной мужчинами в порно. Мужчины в возрасте 18–24 года чаще всего вводят в поисковый запрос профессию няни. То же самое можно сказать и о мужчинах в возрасте 25–64 года, и о мужчинах от 65 лет и старше. Кроме того, для мужчин каждой возрастной группы в первую четверку наиболее привлекательных профессий входят учительница и черлидерша. Очевидно, что в формировании взрослых мужских фантазий первые годы жизни играют важную роль.

Я пока не в состоянии использовать все эти беспрецедентные данные о сексуальности взрослых для определения, как именно формируются сексуальные предпочтения. В течение следующих нескольких десятилетий социологи – и я в том числе – смогут создать новые опровергаемые теории о сексуальности взрослых людей и проверить их с помощью фактов.

Но уже сейчас могу предсказать некоторые основные темы, которые, несомненно, станут частью теории о взрослой сексуальности, возникшей на базе большого объема данных. Она явно не будет идентична теории Фрейда с его отдельными, четко определенными универсальными стадиями детства и подавления. Но, основываясь на моем первом обзоре данных PornHub, я абсолютно уверен: в окончательный вердикт о взрослой сексуальности некоторые ключевые обозначенные Фрейдом темы обязательно будут включены. Главную роль будет играть детство человека. И его мать.


Наверное, еще десять лет назад было бы невозможно анализировать теорию Фрейда подобным образом. И конечно, нечто подобное было неисполнимо 80 лет назад, когда Фрейд был еще жив. Итак, давайте подумаем, почему эти источники данных смогли нам помочь? Благодаря такому упражнению мы поймем, из-за чего большие данные настолько могущественны.

Помните, мы уже говорили, что даже наличие целой россыпи фактов само по себе не позволит нам автоматически генерировать полезные выводы. Ученые переоценили объем данных. Но почему же тогда большие данные настолько могущественны? Почему они оказались способными революционно преобразовать наше видение самих себя? Я утверждаю, что существуют четыре уникальные особенности больших данных, и анализ Фрейда способен отлично проиллюстрировать это.

Прежде всего, вы, наверное, заметили: обсуждая теории Фрейда, мы довольно серьезно отнеслись к порнографии. Более того, в этой книге мы намерены достаточно часто обращаться к анализу порносайтов. Это довольно странно, ведь данные, полученные из такого источника, редко используются большинством ученых. Последние обычно удобно опираются на результаты традиционных опросов – и именно на них выстраивают свои карьеры. Но если немного подумать, становится ясно, что широкое использование данных порносайтов (а также поиск по ним и обработка полученных таким образом сведений) позволяет лучше понять человеческую сексуальность. На самом деле это, наверное, самое важное на свете. Получив такие данные, Шопенгауэр, Ницше, Фрейд и Фуко визжали бы от восторга, однако в то время, когда они жили, подобных данных не существовало. Их не было еще пару десятилетий назад, но они есть сейчас. Существует множество уникальных источников информации по различным темам, открывающих нам глаза в областях, о которых ранее мы могли только догадываться. Способность предложить нам новые типы фактов – первая могущественная особенность больших данных.

Данные порносайтов и поисковых запросов Google не только новые, они самые правдивые. В доцифровое время люди прятали свои постыдные мысли от других. В эпоху цифровых технологий они продолжают их прятать – но не от интернета и, в частности, не от сайтов вроде Google и PornHub, где поддерживается анонимность. Подобные сайты играют роль своего рода цифровой сыворотки правды – именно это позволило нам открыть популярность темы инцеста. Большие данные позволяют нам наконец увидеть, чего люди хотят на самом деле, а не то, что они говорят или делают. Предоставление самых правдивых фактов является второй могущественной особенностью больших данных.

Поскольку сейчас существует огромное количество разнообразных сведений, можно найти содержательную информацию даже о самом небольшом популяционном срезе. Мы в состоянии сравнить, скажем, количество людей, видящих во сне огурцы, с теми, кто видит во сне помидоры. Возможность пристально вглядеться в самые мелкие подмножества людских сообществ – это третья могущественная особенность больших данных.

Большие данные обладают еще одной внушительной возможностью – той, которую я не использовал в своем кратком исследовании теории Фрейда, но которую я наверняка применю в будущем: она дает возможность проводить быстрые контролируемые эксперименты. Это позволяет определить причинно-следственную связь, а не просто корреляцию. Такие тесты в основном используются коммерческими предприятиями, но они станут мощным инструментом в руках социологов. Возможность проводить многочисленные причинно-следственные эксперименты – это четвертая могущественная особенность больших данных.

Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.

Я посчитал, что продукты имеют форму фаллоса, если их длина значительно больше их ширины и они, как правило, круглые в сечении. Я насчитал: огурцы, кукуруза, морковь, баклажаны, кабачки и бананы.
Набор данных может быть загружен на https://www.microsoft.com/en-us/download/details.aspx?id=52418. Ученые попросили пользователей Amazon Mechanical Turk описать изображения. Они проанализировали логи кликов и отметили любой момент, когда кто-то исправлял слово. Более подробную информацию можно найти в Yukino Baba and Hisami Suzuki, «How Are Spelling Errors Generated and Corrected? A Study of Corrected and Uncorrected Spelling Errors Using Keystroke Logs» («Как исправлять орфографические ошибки? Исследование корректируемых и некорректируемых ошибок с помощью журналов нажатия клавиш»), Proceedings of the Fiftieth Annual Meeting of the Association for Computational Linguistics, 2012.
Полные данные – предупреждение: в графическом виде – выглядят следующим образом: «Я хочу заниматься сексом с…» Ежемесячное число поисковых запросов Google с указанной фразой мамой – сыном – сестрой – кузиной – отцом – парнем – братом – дочерью – другом – подругой –
Например, порно – это одно из самых распространенных слов в поисковых запросах Google для различных чрезвычайно интересных анимационных программ, как показано ниже. Мультфильмы с порно (чаще всего запрашиваемые в Google) Гриффины порно эпизоды Гриффины Гриффины бесплатно Смотреть Симпсонов Симпсоны порно Симпсоны фильм Футурама порно Футурама Лила Футурама онлайн Скуби Ду игры Скуби Ду мультфильм Скуби Ду велма
По расчетам автора, это самые популярные женские профессии в поисковых порнозапросах мужчин, в зависимости от их возраста: Профессии в поисковых запросах порно у мужчин в зависимости от их возраста 18-Няня Учительница Инструктор по йоге Черлидерша Врач Проститутка Агент по недвижимости Медсестра Секретарша 25-Няня Инструктор по йоге Учительница Черлидерша Агент по недвижимости Врач Проститутка Секретарша Медсестра 65+ Няня Черлидерша Врач Учительница Агент по недвижимости Медсестра Инструктор по йоге Секретарша Проститутка