Сбор базы с помощью Facebook. Он пытается определить лицо пользователя

  • 16.01.2022

Хоть Facebook по распространенности среди русскоязычной аудитории и проигрывает таким социалкам, как «Вконтакте» и «Одноклассники», он по-прежнему является очень популярной площадкой для социальной активности в Интернете. Но далеко не все знают, как эта соцсеть на самом деле использует информацию о своих пользователях. Далее мы расскажем, как данный ресурс следит за нами, и что нужно сделать, чтобы защитить свои личные данные.

Как Facebook следит за нами

В 2014 году представители этой всемирной соцсети сообщали, что их сервера принимают примерно 600 терабайт данных каждый день - с этим количеством информации можно было сопоставить 193 млн экземпляров книги «Война и мир». Прошло уже несколько лет, и даже не возникает сомнений, что с тех пор ежедневный объем данных увеличился в разы. Представьте только, каким огромным количеством личной информации владеет эта компания!

«Ну и какие вещи обо мне может узнать социальная сеть? Я законопослушный гражданин, и скрывать мне нечего», - думает рядовой пользователь и автоматически ставит галочку под пунктом, где описывается Политика конфиденциальности ресурса. Но даже если бы все читали этот документ, некоторая информация об использовании личных данных все равно остается как бы «между строк».

Чему же именно научился Facebook, чтобы изучать личные данные пользователей? Гораздо большему, чем может показаться!

Он видит, что пользователи собирались написать

Пожалуй, самая интересная и даже компрометирующая информация содержится в тех сообщениях, которые мы набирали сгоряча, но по разным причинам так и не отправили, либо переписали иначе. И не думайте, будто ее не видел никто, кроме вас!

Соцсеть фактически рассказала об этом «умении» сама, опубликовав собственное исследование о самоцензуре («Self-censorship on Facebook», 2013), где объяснялось, почему и каким образом пользователи исправляют перед публикацией свои посты. Оказывается, что система способна регистрировать нажатия клавиш при наборе текста. Получается, однажды набранные личные данные могут уже оставаться в базе данных соцсети, даже если вы их сотрете.

Он передает личные данные третьим лицам

Неотправленные данные Facebook тайно изучает для составления портрета личности пользователя, но уже опубликованную информацию ресурс может использовать так, как обещал в лицензионном соглашении. И сюда входит не только изучение личности и какие-либо собственные исследования - система передает ваши личные данные маркетинговым компаниям и американскому правительству.

Знайте: даже если вы не указывали в своем профиле номер мобильного телефона или адрес электронной почты, но по этим данным вас пытался найти кто-либо из друзей, то и система уже знает эти сведения.

Более того, соцсеть сотрудничает и с другими сайтами, которые вы посещаете, чтобы собрать недостающую информацию, например, о ваших доходах, онлайн-поведении и т. д., а затем подстраивает под вас ленту новостей для продвижения таргетированной рекламы.

Он пытается определить лицо пользователя

Он следит за вами, даже когда вы не в сети

Здесь тоже дает о себе знать невнимательно прочитанная вами Политика конфиденциальности данного сайта, где четко указано, что:

Собирать личные данные таким образом системе позволяют технология единого входа и файлы cookie. Кроме того, соцсеть пытается, либо уже научилась отслеживать движение курсора по экрану.

В чем заключается главная опасность использования Facebook

Как мы упомянули выше, помимо настройки релевантных постов, рекламы и продаж, личные данные пользователей передаются правительству США, на территории которых зарегистрирована соцсеть. Но власть стран не сосредоточена в руках президентов, премьер-министров и других официальных лиц - помимо них существует тайная группа могущественных представителей богатейших кланов мира, которые контролируют все виды промышленности, банковскую систему, территориальные границы... Эту группу обозначают термином «мировое правительство».

Его целью является установление нового мирового порядка, подразумевающего тотальный контроль над населением планеты и всеми сферами его жизни. Конечным инструментом управления человеком должен стать наночип, или лазерная нанометка, наносимая на лоб либо правую руку, что согласно Откровению Святого апостола Иоанна Богослова (Откр. 13:15-18) обозначит собой приход антихриста. А промежуточным этапом является как раз присвоение населению цифровых идентификаторов (ИНН, СНИЛС), введение УЭК и биометрических паспортов, а также тот самый сбор и обработка персональных данных.

Защита личных данных на Facebook

Единственно верным вариантом в этой ситуации стал бы полный отказ от социальных сетей. Но если это пока невозможно, вы должны хотя бы постараться свести посягательство на ваши личные данные к минимуму, придерживаясь следующих правил:

К сожалению, следить за нами может не только социальная сеть, но и операционная система — смотрите сами, как наши личные данные использует ОС Windows 10:


Забирай себе, расскажи друзьям!

Читайте также на нашем сайте:

Показать еще

Facebook — это настоящий феномен. Самая большая социальная сеть в мире оценена в сто миллиардов долларов. У нее более миллиарда пользователей. Но хранение данных, фотографий и сообщений более чем седьмой части населения земли требует продвинутых технологий. Так как же это сделано?

Северная Калифорния. Долина компьютерных гигантов. Вот название, которое привлекает больше всего туристов – Facebook.

Это социальная сеть, изобретенная студентами Гарварда в 2004 году позволяет вашим друзьям одним кликом мышки узнать что вы делаете. Для многих нет ничего круче сетевого общения. Восемь лет спустя после рождения компании она вышла на биржу по невероятной цене – 104 миллиарда долларов США. Заметно, что Фейсбук был создан студентами. Они все делают по-своему. Граффити и сенсорный экран во всю стену. В автоматах, вместо банок с напитками, продаются коробки с гаджетами. Открытые бары и видеоигры для персонала, средний возраст которого 26 лет. Похоже, эта странная обстановка действует. На Фейсбук заходят люди со всего мира. Каждые полгода их число возрастает на 100 миллионов. Обработка личных данных такого количества людей задача нелегкая.


Говорит сотрудник компании: «На каждый миллион пользователей у нас один инженер. Мы работаем в беспрецедентных масштабах».

Они не могут воспользоваться чужим опытом. Потому, что прежде ни на одном сайте не было такого числа посетителей. И когда у тебя больше пользователей, чем машин в мире, одна из главных проблем – хранение. Жесткий диск вашего ноутбука помещается в руке. Здесь же нужно кое-что побольше.

В Праймвиле, штат Орегон, находится огромный дата-центр – 28.000 квадратных метров.

Это как карта памяти размером с три футбольных поля, стоимостью в сотни миллионов долларов. Здесь и хранится ваша информация. На новейших серверах, в обширных банках памяти, между которыми данные перемещаются со скоростью света по оптоволоконным кабелям длиной почти в 6,5 тысяч километров. Говорит Кэм Патчет, генеральный менеджер дата-центра: «Когда вы вводите адрес facebook.com ваш запрос попадает в интернет и потом вот сюда, а здесь запрашивается один из серверов Фейсбука. Ваш профиль, все данные, связанные с ним, обрабатываются и компилируются нашими дата-центрами, и обратно отсылается вам через интернет. Все это происходит за миллисекунды. Некоторые считают интернет чем-то вроде облака, плывущего в небе. Но нет, это материальная вещь. Интернет – это компьютеры, сервера и дата-центры, соединенные километрами кабеля по всему миру. Все эти единицы могут общаться между собой и делиться данными.»

Если вы хотите зримо представить себе интернет, эти бесконечные ряды серверов отличная иллюстрация. По сравнению с этим местом, суперкомпьютер выглядит карманным калькулятором. Сюда поставляется 30 мегаватт электроэнергии, поэтому электричество всегда есть.

Но, как и отсутствие резервной копии данных вашего компьютера, отключение энергии может стать тут катастрофой. Для миллионов подростков мир без социальных сетей просто непредставим. Поэтому наготове огромные дизельные генераторы. В случае отключения основной линии в здании, в строй войдут эти генераторы. Сотрудники постоянно следят за ними. Они вырабатывают по 3 мегаватта каждый, и там их 14.

Другая проблема: вся эта техника вырабатывает огромное количество тепла. Без охлаждения эти серверы выйдут из строя. Процессор домашнего компьютера охлаждается кулером размером чуть больше спичечной коробки.

Здесь же для этого есть обширный семикомнатный пентхаус – современная система природного кондиционирования. Холодный воздух с высокогорий Орегона втягивается, фильтруется и смешивается с теплым воздухом для регулирования температуры в дата-центре.

Водяная взвесь, которая распыляется форсунками, контролирует влажность.

Охлажденный воздух подается с обратной стороны серверов, предотвращая перегрев. И, наконец, излишки теплого воздуха вытягиваются огромными вентиляторами, в сотню раз больше того, что в домашнем компьютере.

Вскоре понадобится больше вентиляторов, потому что социальная сеть просто закипает. Ежедневно на сайт заходит почти 600 миллионов человек. Это почти вдвое больше населения США. И сайт продолжает расти. Сюда ежедневно привозят тысячу новых серверов. Том Ферлонг отвечает за дата-центры. Когда я 4,5 года назад начал работу, говорит он, у нас было 27 миллионов пользователей и несколько тысяч серверов. Сегодня мы получили тысячу серверов, а я едва это заметил.

Сюда приезжают огромные грузовики. Они доставляют не продукты. Они привозят все больше памяти для серверов. Большинство из нас знакомы с гигабайтами и терабайтами. Здесь счет идет на петабайты. На серверах Фейсбука хранится более 100 петабайт фотографий и видео, и с каждым днем их все больше. Это невероятное количество информации.

Ежедневно в дата-центр прибывает в 100.000 раз данных больше, чем вмещает жесткий диск продвинутого персонального компьютера. В каждой серверной стойке 500 терабайт, более чем 130 миллиардов раз больше, чем на первом ПК от Apple. И если какой-то сервер выходит из строя, задача найти иглу в цифровой стоге сена поручается техникам, таким как Дэвид Гейлард.

Вышел из строя жесткий диск и он идет на поиски нужной стойки в лабиринт гудящих серверов. Найдя стойку Дэвид заменяет всю плату за то время, которое вам требуется, чтобы обновить статус. Но Дэвид и другие техники не всемогущи. По всему миру почти у 2,5 миллиардов человек есть доступ в интернет. И каждый проводит 20% времени онлайн в социальных сетях, загружая сотни миллионов фотографий, сообщений и обновлений ежедневно. При такой активности даже в таком огромном дата-центре заканчивается место. Строители уже трудятся над увеличением вместимости. Но при таком масштабе сетевой активности им лучше поспешить.

Время чтения: 7 минут

Собирать базу с помощью фейсбука иногда выгоднее и удобнее, чем через сайт. А как дополнительный источник лидов - социальные сети идеальная платформа. У Facebook есть инструмент, который собирает контакты клиентов с помощью рекламы. Преимущество этого метода в том, что клиенту не нужно вводить миллион полей, система автоматически подтянет email, телефон, имя и любую другую информацию из базы Facebook. То есть клиент видит рекламу, кликает, появляется уже заполненная форма - остается только нажать кнопку отправить.

Собираем базу через социальные сети

Уже никто не выбирает между каналами общения с клиентом. Instagram, Вконтакте, Facebook, Telegram, YouTube чат-боты и другие – бренды общаются с клиентом на всех возможных платформах. Маркетологи используют любую возможность дополнительного « касания». Поэтому важно, чтобы и реклама, и рассылки, и социальные сети работали в связке и помогали, а не мешали друг другу.

Например, уже сложно найти письмо, в котором не будет кнопок социальных сетей с призывом подписаться.


Aviasales

И наоборот, социальные сети – отличная возможность переманить читателей в рассылку. Зачем? Посты в чатах или на страничках не могут быть длинными, их сложно наполнить инструкцией со скринами, ролик не всегда удобно посмотреть со звуком – ограничения есть в каждом канале.

Письмо можно отложить и прочитать в более удобный момент. В нем можно добавить любую информацию мерч тегами – это когда какая-то информация о клиенте подтягивается из вашей базы данных. Например, сколько дней прошло с последней покупки или сколько новых слов он выучил благодаря вашей платоформе.

Аудитория на Facebook

Настраивать рекламу по принципу « куда-нибудь, да попадет» – плохая история. Подумайте, знаете ли вы свою целевую аудиторию или хотите настроить широкий таргетинг. Если выберете последний – алгоритмы Facebook сами будут искать «ваших» клиентов.

Если хотите задать таргетинг сами, то придется поковыряться. Индивидуально настроенные аудитории на Facebook делятся на:

Или создайте похожие аудитории – алгоритм будет искать людей по характеристикам, совпадающим с вашими клиентами или лидами. Это может быть гео, возраст, интересы – любые параметры, которые вы зададите.

Возможности таргетирования многогранны и вы можете работать с каждой аудиторией отдельно. Создавайте персонализированную рекламу и делайте индивидуальные предложения каждому потенциальному клиенту.

Как настроить форму сбора лидов на Facebook?

При первом шаге настройки рекламы в Facebook жмем на «Генерация лидов». Вводим название кампании. На следующем шаге принимаем условия по использованию рекламы для генерации лидов (если не найдете вот ссылка ).

Далее настраиваете на какую аудиторию будет транслироваться реклама . Что касается плейсментов, то мы не рекомендуем рекламироваться в Инстаграм, так как там форма для сбора отображается «криво» и только раздражает пользователей.

Теперь создаем форму для сбора данных. Она создается и редактируется на 3 шаге создания рекламы. Жмем на «Форма генерации лидов».

Какие данные оттуда можно вытащить:

  • контактные данные (телефон, email, имя, город и т.д.)
  • демографические данные (дата рождения, пол, семейное положение и т.д.)
  • информация о работе (должность, компания)
  • а также свои вопросы (короткие и альтернативные ответы, дата посещения, к примеру, для сфер из HoReCa).

Но мы же сервис рассылок

Поэтому нужно, чтобы лиды падали в список для рассылки. Для интеграции с Facebook используем сервис Zapier. У Mailigen c этим инструментом есть полная интеграция.

Зачастую обычный пользователь на этом закончит читать. Так как слова интеграция, API, ключи, webhooks только отталкивают. Выход есть. Для этого и была написана эта статья:)

Как интегрировать Facebook и Mailigen

Для этого нам понадобится:

Поехали!

Для начала на главной странице нужно выбрать Facebook Lead Ads и Mailigen как сервисы, с которыми мы будем работать:

Ниже нам покажут единственный зап для их объединения:


Нажимаем на этот зап, и переходим сразу к его заполнению.

Так как мы выбрали сервисы, с которыми будем работать - первые два шага уже заполнены за нас, просто кликаем «Continue» и доходим до третьего шага: добавления аккаунта Facebook.


Нажимаем на кнопку «Connect an Account», и выдаем нужные разрешения от имени своего профиля к административным правам на страницу компании в Facebook и Facebook Lead Ads (Важно!)

Аккаунт добавлен в список. Выбираем его и нажимаем «Continue».

Четвертый шаг позволяет выбрать страницу компании и форму подписки «Facebook Lead Ads», которые будут переносить данные в Mailigen:


Если не видно нужной страницы или формы, то проверьте свои доступы к станице и «Facebook Lead Ads».

Следующая страница позволяет проверить создание лидов и все ли настроено верно. Создайте тестовый лид и проверьте как работают интеграции с «Facebook Lead Ads»:


Следующим пунктом идет настройка интеграции с Mailigen . Первые два шага уже заполнены за нас, как и для Facebook Lead Ads, поэтому перейдем сразу к добавлению аккаунта Mailigen. Будет предложено ввести ключ API, как его получить читайте

После ввода ключа, его проверки и выбора нужного аккаунта перейдите на следующий шаг, где можно настроить в какой список, с какими опциями (например, с двойным подтверждением или без него) и в какие поля загружать полученные данные:


Если был создан тестовый лид из Facebook Lead Ads, то поля можно будет выбирать прямо со значениями тестового лида, чтобы точно не ошибиться.

Как только закончите настройку со всеми полями, переходите на следующий шаг и тестируйте добавление тестового лида в Mailigen.

Если тест прошел успешно, то поздравляем, ваш первый зап готов к работе, запускайте!


Вот и все. У вас появилась рабочая связка вашей рекламы на Facebook и Mailigen. А вы боялись. Пользуйтесь на здоровье!


Не сеть, а решето

До начала скандала информация о том, каким образом сторонние приложения используют личные данные пользователей Facebook, содержалась в политике конфиденциальности компании в довольно сложной для восприятия форме. Даже сам Цукерберг заявил в конгрессе, что большинство аудитории не читает этот документ либо не вникает в то, что в нем написано. Сразу после начала расследования компания начала объяснять, что получают сторонние компании, и пообещала ужесточить для последних правила доступа к информации. Из одного из таких пояснений Facebook следует:

  • До сих пор любой пользователь мог найти нужного ему человека, внеся его номер телефона или электронную почту в строку поиска. Этой функцией могли пользоваться в том числе злоумышленники.
  • Facebook хранил историю звонков и переписки владельцев смартфонов на платформе Android, у которых были установлены приложения Facebook Messenger и Facebook Lite. Компания пообещала проанализировать эту функцию, чтобы удостовериться, что сами сообщения пользователей не хранились. Цукерберг опроверг один из популярных мифов о возможности подслушивать разговор пользователей и после этого показывать таргетированную рекламу (клиенты делали такой вывод, поскольку при установке приложения на смартфон соцсеть запрашивает доступ к микрофону): доступ к микрофону нужен исключительно для корректного проигрывания видео.
  • Администраторы и члены закрытых групп могли давать доступ сторонним приложениям к списку участников групп и их персональным данным (именам; фотографиям, прикрепленным к постам, комментариям к ним).
  • Сторонние приложения могли через API (программный интерфейс) страниц читать любые посты и комментарии к ним.
  • До 2014 года сторонние приложения могли запрашивать у Facebook информацию не только о самом пользователе, но и его друзьях. После внесения изменений приложения могут получать информацию только о тех друзьях, которые дали согласие на ее передачу. В марте 2018 года Facebook также заявил, что будет отзывать разрешения пользователей на сбор информации, если приложение не использовалось более трех месяцев.

Сейчас Facebook собирает данные двух типов. Первый — это информация, которую люди сами выкладывают в социальной сети: фотографии, посты и т.д. Второй — те, что необходимы для таргетированной рекламы. Для повышения ее эффективности Facebook также покупает услуги информационных брокеров (data-brokers). Последние собирают информацию из многих источников — платформ типа Google, Amazon и Facebook, а также компаний, работающих в индустриях, которые имеют отношение к использованию данных о людях (медиа, ретейл, телекоммуникации и финансы), — и оказывают другим компаниям услуги, связанные с таргетированной рекламой и скорингом — проверкой заемщиков банков и клиентов страховых компаний. Из отчета исследовательского института Cracked Labs следует, что в 2017 году у Facebook было шесть подобных партнеров: Acxiom, Epsilon, Experian, Oracle, CCC Marketing и Quantium. Они помогали платформе лучше сортировать и классифицировать своих пользователей.

Фото: David Paul Morris / Bloomberg

Facebook не продает и не передает рекламодателям данные пользователей. Как объяснял представитель соцсети, они анализируют их, а затем разделяют их на категории по предпочтениям. Если рекламодатель хочет, чтобы его объявление увидели «женщины-велосипедистки из Атланты», Facebook показывает рекламу этой категории пользователей, не передавая данные о них сторонним лицам. В отчетах для рекламодателей содержится только обобщенная информация о том, насколько успешной была реклама — сколько человек и какого пола кликнули на баннер и др. статистика.

Что делают сторонние сайты и приложения с открытой информацией пользователей Facebook, доподлинно неизвестно. Ясно лишь, что эту информацию собирает множество компаний.

Протестируй это

Не только Александр Коган использовал тесты для сбора информации в Facebook, это делают множество разработчиков. РБК проанализировал политику конфиденциальности некоторых из них.

  • Nametests.com

Сайт Nametests.com, принадлежащий компании Socialsweethearts (предлагает тесты «Что для тебя приготовил апрель?», «Как выглядит ваш идеальный партнер» и др.), получает доступ к данным пользователя на Facebook, если регистрация проходит через эту соцсеть. Пользователь соглашается передать информацию о своем публичном профиле, списке друзей, адресе электронной почты и лайках. В политике конфиденциальности компании говорится, что запрошенную информацию она хранит в анонимном виде и использует для составления статистики и совершенствования сайта. Использование данных без анонимизации допускается только в случаях, предусмотренных законом, а также в целях, необходимых для обеспечения функционирования сервиса, безопасности и оптимизации, заявлено в документах Socialsweethearts.

Как утверждает представитель Socialsweethearts, после удаления аккаунта данные пользователя также будут удалены. «Мы не анализируем и не проводим исследования данных в политических и других подобных целях, мы также не сотрудничаем с компаниями или организациями, занимающимися такими исследованиями», — заверил он.

По его словам, сейчас в Socialsweethearts готовятся соответствовать Общему регламенту по защите данных (GDPR), который вступит в силу в Евросоюзе с 25 мая 2018 года. «Мы понимаем, учитывая новости вокруг Facebook, что уверенность пользователей [в сохранности их персональных данных] очень важна и в то же время процессы, связанные с их личными данными, должны быть прозрачными», — утверждает представитель Socialsweethearts.

  • Playbuzz

К введению GDPR готовятся и в Playbuzz, которая тоже владеет сайтом с тестами, сообщил представитель этой компании. В текущей версии политики конфиденциальности Playbuzz говорится, что платформа может собирать персональную информацию, которая вводится при регистрации; информацию об устройстве, с которого пользователь заходит на сайт; а также ответы из пройденных тестов. Кроме того, Playbuzz собирает персональную информацию пользователей, полученную от третьих лиц, для маркетинговых целей, а также может передавать анонимизированную информацию о людях в обобщенном виде своим партнерам для рекламных целей.

Представитель Playbuzz отметил, что в связи с тем, что контент платформы монетизируется, некоторые из партнеров компании, а также сторонние поставщики (такие как службы обнаружения мошенничества) могут собирать данные некоторых конечных пользователей (например, IP-адреса). «Эти данные недоступны для Playbuzz и не хранятся на наших серверах», — добавил он.

Даже если пользователь удалит свою страницу на сайте, Playbuzz оставляет за собой право передавать его персональные данные третьим лицам, своим бизнес-партнерам, для немаркетинговых целей (например, для связи с пользователем).

  • Brainfall Media

В сервисном соглашении Brainfall Media (занимается онлайн-исследованиями и также собирает личные данные в Facebook) написано, что компания рассматривает информацию о пользователях в качестве бизнес-актива и вправе передавать ее третьим лицам с согласия пользователей. На запрос РБК компания не ответила.

Шпионы на смартфонах

Сайты в интернете, оснащенные трекерами посещения, и мобильные приложения — это настоящие «черные дыры»: никто не может по-настоящему оценить, с кем они делятся данными, отмечалось в исследовании Cracked Labs. В 2015 году исследование популярных приложений в Австралии, Бразилии, Германии и США исследовательского центра NICTA и Университета Нового Южного Уэльса выявило, что 85-95% бесплатных и до 60% платных приложений собирали информацию пользователей в интересах третьих лиц. Журналисты РБК проанализировали приложения, которые собирали информацию из их аккаунтов в Facebook. Среди них оказались программы нескольких известных разработчиков.

«Доступ к общей информации профиля и адресу электронной почты предоставляется всем аккредитованным приложениям автоматически. Разрешение на запрос этих данных входит в минимальный базовый набор Facebook для разработчиков приложений, и более узкого запроса у соцсети нет», — пояснил РБК основатель и CEO сервиса нетворкинга MeYou Степан Данилов. Базовые разрешения не требуют проверки разработчика, но все остальные, претендующие на получение большего количества информации, требуют, говорится в «справке по разрешениям» Facebook для разработчиков.

Приложения разработчика Rambler Group, например LiveJournal и Afisha-eda, запрашивали также информацию о городе проживания и родном городе пользователя, доступ к публикациям в хронике. Представитель пресс-службы Rambler Group пояснил, что клиенты их медиаресурсов могут авторизоваться в том числе через Facebook. Такой способ авторизации позволяет полноценно использовать возможности приложений, например участвовать в голосованиях, оставлять комментарии и т.д. «Мы со своей стороны получаем потенциальную возможность работы с BigData и в перспективе настраивать «умный таргетинг», повышая эффективность взаимодействия с рекламными носителями как пользователей, так и рекламодателей. В идеале люди готовы взаимодействовать исключительно с той рекламой, которая может быть им потенциально интересна. С другой стороны, рекламодатель получает контакт с потенциально высокомотивированным пользователем», — добавил он.

Приложение для просмотра сериалов Amediateka, помимо прочего, получает доступ к списку друзей клиента. «Список друзей на данный момент не используется, однако предусмотрен для обновления рекомендательной системы на основе интересов друзей пользователя», — отметила представитель Amedia TV Милана Богатырева.

Некоторые приложения запрашивали доступ к обновлениям статуса пользователей Facebook, их фото и видео. Например, TripAdvisor. Приложение Nokia среди прочего имело доступ к данным о семейном положении, местах работы, предпочтениях, образовании, религиозных и политических убеждениях и другой информации. Представители TripAdvisor и HMD Global (владеет правами на бренд Nokia) не ответили на вопросы РБК.

Коллекционеры пользовательских душ

Facebook — не основной источник данных о пользователях. В исследовании Cracked Labs основными источниками названы информационные брокеры. Крупнейшими подобными компаниями эксперты Cracked Labs назвали Acxiom и Oracle. Например, Acxiom десятилетиями собирала данные о потребителях из публичных источников: телефонных справочников, судебных записей, криминальных сводок, различных реестров, анкет, опросов и др. Позже к этому добавились цифровые источники, например, крупные ИТ-компании, чей софт позволяет анализировать телефонные разговоры, финансовые транзакции, активность в интернете и пр., чтобы выявить криминальную и террористическую активность.

Кроме того, Acxiom сотрудничает с Ibotta (собирает данные о покупках с помощью информации с карт лояльности или чеков), Samba TV (собирает данные о ТВ-смотрении через программы, установленные на ТВ-приставках, или платформы «видео по запросу»), Crossix (собирает медицинскую информацию, включая историю болезни, назначения врача, рецепты и т.д.), FreckleIOT (данные о местонахождении человека в реальном времени: в различных магазинах, аэропортах, барах и пр. могут быть установлены специальные сенсоры, с которыми может связываться смартфон пользователя и отправлять информацию) и другими компаниями, которые в основном работают в США. Эту информацию Acxiom хранит в виде уникального анонимного ID — некого кода, который связан с почтовым адресом, номером телефона, электронной почтой, IP-адресом, геолокацией, cookie, ID устройств. К каждому уникальному ID Acxiom приписаны несколько категорий, которым соответствует человек. Клиент может дать Acxiom электронную почту некого потребителя и запросить информацию, к каким категориям его относит информационный брокер.

Единой системы оценки объема рынка пользовательских данных нет. Согласно исследованию 451 Research, объем мирового рынка данных только телекоммуникационных компаний в 2015 году составил $24 млрд, а к 2020 году должен увеличиться до $79 млрд. Мобильные операторы как минимум в десяти странах (Россия в их число не входила) были замечены в том, что устанавливали специальный механизм для отслеживания поведения абонентов при интернет-серфинге. Причем серферы не могли заблокировать подобные «супер-cookie».

Сейчас пользовательские данные применяются для продажи таргетированной рекламы и скоринга, но в будущем им могут найти другие, менее безопасные применения. Например, данные могут использоваться для динамического изменения цен на товары на сайте интернет-магазина в зависимости от того, кто его посещает. Речь может идти как о снижении цен, если система посчитает этого пользователя ценным потребителем для компании в долгосрочной перспективе, так и о повышении в зависимости от того, сколько конкретный пользователь готов заплатить за вещь в данный момент. С помощью персонализации компании могут пытаться влиять на поведение потребителя, показывать ему рекламу в определенный момент, чтобы тот совершил покупку.

Фильм "Социальная сеть" хорошо иллюстрирует феномен развития Facebook’а,
сумевшего за рекордный срок собрать баснословную, немыслимую ранее аудиторию.
Однако за кадром осталась еще одна составляющая проекта - то, как он работает
изнутри. Его техническое устройство.

Что такое Facebook сейчас? Лучше всего это демонстрируют сухие цифры:

  • 500 000 000 активных пользователей (месячная аудитория);
  • 200 000 000 000 просмотров страниц в месяц;
  • 150 000 000 обращений к кэшу в секунду;
  • 2 000 000 000 000 объектов в кэше;
  • 20 000 000 000 фотографий в 4-х разрешениях. Их хватило бы, чтобы
    покрыть поверхность земли в 10 слоев - это больше, чем на всех других
    фоторесурсах вместе взятых;
  • более 1 000 000 000 сообщений в чате каждый день;
  • более 100 000 000 поисковых запросов ежедневно;
  • более 400 000 разработчиков сторонних приложений;
  • около 500 разработчиков и системных администраторов в штате;
  • более 1 000 000 активных пользователей на одного инженера;
  • десятки тысяч серверов, десятки гигабит трафика.

Как же все это работает?

Масштабируемость, простота, открытость

Можно по-разному относиться к социальным сетям вообще и к Facebook’у в
частности, но с точки зрения технологичности это один из самых интересных
проектов. Особенно приятно, что разработчики никогда не отказывались делиться
опытом создания ресурса, выдерживающего подобные нагрузки. В этом есть большая
практическая польза. Ведь в основе системы лежат общедоступные компоненты,
которые можешь использовать ты, могу использовать я - они доступны каждому.
Более того, многие из тех технологий, которые разрабатывались внутри Facebook’а,
сейчас опубликованы с открытыми исходниками. И использовать их, опять же, может
любой желающий. Разработчики социальной сети по возможности использовали лишь
открытые технологии и философию Unix: каждый компонент системы должен быть
максимально простым и производительным, при этом решение задач достигается путем
их комбинирования. Все усилия инженеров направлены на масштабируемость,
минимизацию количества точек отказа и, что самое важное, простоту. Чтобы не быть
голословным, укажу основные технологии, которые сейчас используются внутри
Facebook:

Полагаю, что наиболее интересно будет услышать, как в проекте удалось
использовать самые привычные технологии. И тут действительно есть немало
нюансов.

Что обычно происходит за 20 минут на Facebook?

  • Люди публикуют 1 000 000 ссылок;
  • Отмечают друзей на 1 323 000 фотографий;
  • Приглашают 1 484 000 знакомых на мероприятия;
  • Отправляют 1 587 000 сообщений на стену;
  • Пишут 1 851 000 новых статусов;
  • 2 000 000 пар людей становятся друзьями;
  • Загружается 2 700 000 фотографий;
  • Появляется 10 200 000 комментариев;
  • Отправляется 4 632 000 личных сообщений.

Проект на PHP

Напрашивается вопрос: почему именно PHP? Во многом – просто "исторически
сложилось". Он хорошо подходит для веб-разработки, легок в изучении и работе,
для программистов доступен огромный ассортимент библиотек. К тому же существует
огромное международное сообщество. Из негативных сторон можно назвать высокий
расход оперативной памяти и вычислительных ресурсов. Когда объем кода стал
слишком велик, к этому списку добавились слабая типизация, линейный рост
издержек при подключении дополнительных файлов, ограниченные возможности для
статичного анализа и оптимизации. Все это стало создавать большие трудности. По
этой причине в Facebook была реализована масса доработок к PHP, в том числе
оптимизация байт-кода, улучшения в APC (ленивая загрузка, оптимизация
блокировок, "подогрев" кэша) и ряд собственных расширений (клиент memcache,
формат сериализации, логи, статистика, мониторинг, механизм асинхронной
обработки событий).

Схема формирования новостной ленты

Особого внимания заслуживает проект HipHop – это трансформатор исходного кода
из PHP в оптимизированный C++. Принцип простой: разработчики пишут на PHP,
который конвертируется в оптимизированный C++. В надстройке реализованы
статический анализ кода, определение типов данных, генерация кода и многое
другое. Также HipHop облегчает разработку расширений, существенно сокращает
расходы оперативной памяти и вычислительных ресурсов. У команды из трех
программистов ушло полтора года на разработку этой технологии, в частности была
переписана большая часть интерпретатора и многие расширения языка PHP. Сейчас
коды HipHop опубликованы под opensource лицензией, пользуйся на здоровье.

Культура разработки Facebook

  • Двигаться быстро и не бояться ломать некоторые вещи;
  • большое влияние маленьких команд;
  • быть откровенным и инновационным;
  • возвращать инновации в opensource сообщество.

Доработки MySQL

Теперь о базе данных. В отличие от подавляющего большинства сайтов, MySQL в
Facebook используется как простое хранилище пар "ключ-значение". Большое
количество логических баз данных распределено по физическим серверам, но
репликация используется только между датацентрами. Балансировка нагрузки
осуществляется перераспределением баз данных по машинам. Так как данные
распределены практически случайным образом, никакие операции типа JOIN,
объединяющие данные из нескольких таблиц, в коде не используются. В этом есть
смысл. Ведь наращивать вычислительные мощности намного проще на веб-серверах,
чем на серверах баз данных.

В Facebook используется практически не модифицированный исходный код MySQL,
но с собственными схемами партиционирования по глобально-уникальным
идентификаторам и архивирования, основанного на частоте доступа к данным.
Принцип очень эффективен, поскольку большинство запросов касаются самой свежей
информации. Доступ к новым данным максимально оптимизирован, а старые записи
автоматически архивируются. Помимо этого используются свои библиотеки для
доступа к данным на основе графа, где объекты (вершины графа) могут иметь лишь
ограниченный набор типов данных (целое число, строка ограниченной длины, текст),
а связи (ребра графа) автоматически реплицируются, образуя аналог распределенных
внешних ключей.

Использование Memcached

Как известно, memcached - высокопроизводительная распределенная хэш-таблица.
Facebook хранит в ней "горячие" данные из MySQL, что существенно снижает
нагрузку на уровне баз данных. Используется более 25 Тб (только вдумайся в
цифру) оперативной памяти на нескольких тысячах серверов при среднем времени
отклика менее 250 мкс. Кэшируются сериализованные структуры данных PHP, причем
из-за отсутствия автоматического механизма проверки консистенции данных между
memcached и MySQL приходится делать это на уровне программного кода. Основным
способом использования memcache является множество multi-get запросов,
используемых для получения данных на другом конце ребер графа.

Facebook очень активно занимаются доработкой проекта по вопросам
производительности. Большинство из описанных ниже доработок были включены в
opensource версию memcached: порт на 64-битную архитектуру, сериализация,
многопоточность, компрессия, доступ к memcache через UDP (уменьшает расход
памяти благодаря отсутствию тысяч буферов TCP-соединений). В дополнение были
внесены некоторые изменения в ядро Linux для оптимизации работы memcache.
Насколько это действенно? После вышеперечисленных модификаций memcached способен
выполнять до 250 000 операций в секунду по сравнению со стандартными 30 000 - 40
000 в оригинальной версии.

Фреймворк Thrift

Еще одной инновационной разработкой Facebook является проект Thrift. По сути,
это механизм построения приложений с использованием нескольких языков
программирования. Основная цель - предоставить технологию прозрачного
взаимодействия между разными технологиями программирования. Thrift предлагает
разработчикам специальный язык описания интерфейсов, статический генератор кода,
а также поддерживает множество языков, в том числе C++, PHP, Python, Java, Ruby,
Erlang, Perl, Haskell. Возможен выбор транспорта (сокеты, файлы, буферы в
памяти) и стандарта сериализации (бинарный, JSON). Поддерживаются различные типы
серверов: неблокирующие, асинхронные, как однопоточные, так и многопоточные.
Альтернативными технологиями являются SOAP, CORBA, COM, Pillar, Protocol Buffers,
но у всех есть свои существенные недостатки, и это вынудило Facebook разработать
свою собственную. Важное преимущество Thrift’а заключается в производительности.
Он очень и очень быстрый, но даже это не главный его плюс. С появлением Thrift

Информация о взаимодействии Facebook с opensource-сообществом этих и
других проектов расположена на