Большие данные

«Не постите то, за что будет стыдно»: интервью с основателем компании, которая занимается анализом соцсетей

Николай Овчинников

Артур Хачуян руководит компанией SocialDataHub, занимающейся анализом данных из соцсетей, блогов и медиа. Именно благодаря SocialDataHub стало известно, что у террориста, совершившего теракт в метро в Санкт-Петербурге, с 2014 года было пять аккаунтов во «ВКонтакте», а последний был удален за неделю до теракта.

Среди его клиентов — коммерческие структуры, медиа и государство. Он считает, что мы сами виноваты в том, что из сети уходит анонимность, а близкие к государству структуры неправильно ищут террористов. Он рассказал Apparat о том, как можно вычислить потенциального террориста через интернет, как его компания хранит огромные массивы данных и зачем ему лично всё это нужно.

Почему ты вообще заинтересовался историей петербургского террориста?

У меня есть клиент — одно СМИ. Не буду говорить, какое, но оно любит чернуху всякую и считает себя федеральным СМИ. Посреди ночи мне [оттуда] позвонили и сказали: «Артур, мы прислали вам голову. Надо найти!» Я говорю: «Что? О чём речь?» А время — три часа ночи. Они говорят, что прислали своему менеджеру фотографию оторванной головы и что его [террориста — прим. ред.] нужно найти в социальных сетях.

К четырём утра мы нашли его профиль по фотографии этой головы. А потом мне самому стало интересно, какие связи у него были, потому что мне звонили и спрашивали: «Есть ли там украинский след?» В общем, я нашёл пять его аккаунтов и, самое главное, быстро определил, что в моей базе аккаунт был удалён за три-четыре дня до теракта.

А что за база?

У нас есть история ВК с 2010 года. Мы её выкачиваем постоянно, но без медиаконтента. Есть профили, люди. Там оказались пять связанных между собой аккаунтов этого товарища. В общем, мы начали крутить всё это, обнаружили много чего интересного. Например, есть связи с «хабаровским террористом», расстрелявшим приёмную ФСБ, а все они являются одной большой ячейкой ультраправых, которые группировались вокруг Максима «Тесака» Марцинкевича.

Как это возможно, если Тесак — националист, а петербургский террорист — мусульманин и выходец из Средней Азии?

Я не знаю, как они связаны в реальном мире. Но в соцсетях они единомышленники, террорист был его подписчиком, взаимодействовал с ультраправыми товарищами. Плюс к тому, по официальной версии, этот товарищ ездил в одно и то же время в один и тот же город с женщиной (Гюльчехрой Бобокуловой — прим. ред.), которая на Октябрьском поле [в феврале 2016 года] отрезала голову ребёнку.

Как вы это вычислили?

Например, с помощью всяких слитых баз авиаперевозчиков, которые постоянно взламывают и выкидывают в Tor. У нас есть алгоритм, который ищет связи между людьми, авиаперелёты и так далее. Но доказательства связи [петербургского террориста и Бобокуловой] косвенные. Они в промежутках примерно полгода были в одном месте. И его [террориста] друзья говорили, что он после того, как съездил к себе на родину, ******* [сошёл с ума]. И она вроде как была нормальная, но после поездки на родину тоже окочурилась.

На днях «Медуза» написала о молодчиках, которые под эгидой ФСБ занимаются «поиском террористов». Ты что об этом думаешь?

Полно таких людей, кто такими вещами занимается. Когда был питерский теракт, все сразу побежали этим заниматься. Кто-то какой-то софт делал. Искать людей по призывам к ненависти — не особо эффективная вещь. Все люди в соцсетях призывают к экстремизму. У меня за эталон взят [депутат Госдумы от партии «Единая Россия» Виталий] Милонов. Его публичные высказывания за пять лет взяты за эталон призывов к экстремизму. У меня [в лекциях] все высказывания определены как 0,5 Милонова, 4 Милоновых.

На основе чего это считалось?

На основе его публикаций. Например, он пишет что-то про геев. Если собрать все такие комментарии и тексты, вычленить оттуда призывы к экстремизму…

Я это к тому веду, что просто искать публичные призывы к экстремизму мало, как это делают все эти околофээсбэшные дети-тролли, про которых «Медуза» писала. Считать, сколько раз люди в соцсетях написали «сжечь всех *****[к чёрту]», мало. Нужно ещё заниматься сетевым анализом, находить группы.

Поясни для незнающих, что такое «сетевой анализ»

Это поиск взаимосвязей между людьми: друзьями, подписчиками. Это уже прошлый век. Им можно было удивить 10 лет назад. Сейчас более популярна история с моделями поведения: кто кого как лайкает, кто с кем взаимодействует. Но она всё равно не даёт 100-процентного результата. Тут нужно перейти из онлайна в офлайн. Если человек к чему-то призывает в сети, не означает, что он в реальной жизни такой «отбитый».

Как перейти из онлайна в офлайн? Например, есть несколько террористических группировок: правые, левые, исламисты, Энтео с дружками и так далее. Всех этих многочисленных людей в соцсетях объединяют два-три человека. В случае «левых»-«правых» это продавцы какой-нибудь атрибутики: файеров, балаклав и так далее. Соответственно, этих людей можно вычленить, к ним прийти, посмотреть чеки, паспортные данные. Вот как от аккаунта в социальной сети можно перейти к реальному человеку.

Второй вариант — отправить данные аккаунта соцсети провайдерам. Они, соответственно, могут сказать, с чьего айпишника, с чьих паспортных данных заходили на эту страницу. Проблема в том, что провайдеры — нищеброды, хранят информацию только за дней пять-семь. А человек может скрыть IP.

Мы работаем с теми историями, когда нет судебного решения. Моя любимая байка — о том, что якобы ФСБ читает все сообщения. Это, естественно, неправда. Рядовому московскому следователю очень сложно получить разрешение на чтение переписки.

Но можно же взломать.

Нифига они не взломают. Есть же двухфакторная аутентификация в ВК. К тому же «ВКонтакте» будет делать всё, чтобы не дать правоохранительным органам залезть в переписку, потому что для компании это репутационные издержки.

Мы же можем работать с теми данными, которые есть в открытом доступе. 90% подозреваемых — мимо кассы: они не были в нужных странах, взглядов соответствующих не разделяют. Смысла их проверять нет. С другой стороны, можно найти людей, которые могут быть потенциально причастны к какой-то истории.

Чем твоя организация занимается?

Анализом открытых источников данных: СМИ, соцсетей, блогов, форумов, сайтов, Tor — всего, до чего можно дотянуться без введения каких-либо паролей, без санкции суда.

Зачем?

Основной продукт, который мы продаём, — это технология распознавания изображений, это история государственная, про неё по понятным причинам рассказать я не могу. Кроме того, это коммерческий рынок. Например, для банков мы занимаемся скорингом профилей, анализом потенциальных клиентов.

Или поиском должников?

Да. Или поиском уклонистов от армии. Только когда у военкоматов недобор. Да и мне форсить эту тему особо не хочется. Коммерческий рынок — это рекламная история. Мы анализируем публичную аудиторию, таргетируем сегменты этой аудитории. Например, ищем всех женщин, владеющих красным БМВ, у которых муж работает в банковской сфере и есть двухлетняя беременная кошка.

Каким образом?

На основании анализа фотографии можно определить машины. На основании социальных связей можно найти мужа. На основании данных с HeadHunter или SuperJob можно понять, где он работает и сколько зарабатывает. На основании геочекинов можно понять, где они живут и работают. Узнав, куда они поедут за рубеж, можно понять, сколько примерно стоит билет. Они зачекались в отеле — через Booking можно узнать, сколько стоит номер в отеле. Так можно проанализировать хоть миллиард человек.

А это не затратно?

У нас есть копия всех социальных сетей. На каждого из этих людей все метрики рассчитаны. Мы можем проводить исследования очень быстро: утром пришёл запрос — вечером дали результат. Это наше конкурентное преимущество.

Третья история, которой мы занимаемся, — поиск лидеров мнений для маркетинга и рекламы. Бренды хотят работать с блогерами, блогеры стоят дорого, мы можем узнать, кто реально стоит своих денег. Это может быть политический и околополитический контент. Это может быть история типа «найти всех мам Москвы, узнать, кто имеет влияние на каком-нибудь Woman.Ru или в каком-нибудь паблике». Соответственно, бренды с ними связываются, что-то им дарят, устанавливают взаимодействие.

Ты говорил про анализ Tor. Что именно вы там делаете?

Мы анализируем только открытую историю. Где наркотики продают, где оружие. Просто ищем плохой контент и передаём это куда следует. Такой «мини-Роскомнадзор». Просто Роскомнадзор не умеет в Tor работать, а мы умеем.

А зачем это нужно? Гражданский долг?

Нет. Просто окологосударственная история.

То есть вопрос работы?

Да.

У тебя, значит, нет такой идеалистической задачи типа «очистить интернет от скверны»?

Нет. Боже, я не Дмитрий Энтео. Я считаю, что технологии — это хорошо. И если бы, скажем, технологии распознавания лиц были внедрены в том же условном питерском метро, всё было бы хорошо.

Моя любимая история — про «Спартан-300». Ребята получили кучу бабла, поставили «Майкрософт Кинект», заклеили надпись наклейкой «Спартан-300» и продали как ИИ, прогнозирующий терроризм. Их не смутило, что на «Кинекте» камера всего 0,3 МП и там лица в принципе видно быть не может.

Ты сам этой тотальной открытости и деанонимизации интернета, которая происходит в том числе с участием государства, не боишься?

Нет. К тому же «закону Яровой» я отношусь очень лояльно, потому что не считаю плохим лишение террористов гражданства. Тут я, впрочем, не рассматриваю вопрос, купленный наш суд или нет.

Что же касается требования о хранении данных — они ничего не реализуют. Это очень большой объём данных.

Но вы же храните эти данные, будучи при этом не крупной компанией типа МТС.

Мы храним. У нас есть куча ноу-хау. Например, ИИ определяет, что хранить, а что нет. Это важно: выигрывает не тот, кто все данные хранит, а кто понимает, что хранить. Допустим, мы видим фотку, это просто мемасик, в жопу его. Если же это политический активист, а мемасик с Джабба-хатом, то это, значит, шутка про Усманова и её нужно сохранить, вдруг пригодится.

Этот анализатор у нас натренирован. Есть пять человек, которые занимаются его разработкой, которые экономят средства на хранение данных.

Что же касается «закона Яровой», то вряд ли все эти компании типа «МегаФона» будут хранить данные, иначе жёсткими дисками придётся покрыть полстраны. Глупость всё это. Нет смысла бояться.

Что же насчёт блокировки сайтов, то Роскомнадзор неправильно действует. Если легальный контент негде достать, то смысл блочить Rutracker? Я успешно пользуюсь VPN, его не заблочишь, ничего с ним не сделаешь.

Я больше спрашиваю даже не про блокировки, а про открытость, когда информацию о тебе можно узнать через соцсети.

Я всегда всем говорю: не постите то, за что будет стыдно. Например, мы узнавали, кто из участников праймериз «Единой России» лайкает порно. Сами виноваты. Эта информация может быть получена любым человеком. Он отсмотрит тысячу групп с БДСМ-порно, в каждой — каждый пост, в каждом — каждый лайк. Вручную для этого понадобится несколько лет, а в автоматическом режиме — три минуты. По сути, это одна и та же информация. Сложно сказать, что мы нарушили чью-то приватность.

И что делать?

Ничего. Не постить ерунду какую-то.

Сидеть с левого аккаунта?

Ну, да. Но по сути, история с определением принадлежности фейка тому или иному человеку — тоже несложная вещь. Как правило, человек в своём аккаунте начинает, допустим, смотреть БДСМ-порно. Потом понимает, что со своего аккаунта это делать не очень круто, и заводит фейк. Но вот этот паттерн поведения у него уже одинаковый. И когда он заведёт фейк, он подпишется на определённые группы, и будет легко всё сличить. А если речь идёт не о нас, а о, допустим, провайдере, то он и так всё знает.

Допустим, я решил посмотреть порно. Я никогда не смотрел его со своего аккаунта во «ВКонтакте» и логинюсь с другого. Это всё равно можно будет определить?

Да. Но тебя защищает закон о тайне коммуникации: провайдер никому не может ничего слить.

Можно ли вычислить потенциального террориста?

Да. По модели поведения, по людям, с которыми он взаимодействует.

Тебе такие прецеденты знакомы?

У нас есть такие алгоритмы, по которым мы людей определяем. Но после этого людей никогда в тюрьму не сажают. Есть просто список людей, которые рекомендуются для проверки. К кому-то участковый приходит, к кому-то — ещё кто-то.

Я часто сам этим алгоритмом пользуюсь. Последний раз я это сделал, когда «Лентач» троллил наехавших на него православных активистов. Не знаю, что мной двигало, но я зашёл к этим активистам в паблик, и там было столько говна: геев сжигать, не рожавших женщин сжигать, всех сжигать. Я собрал все их высказывания и отправил это всё в прокуратуру. Что-что, а прокуратура в нашей стране работает *******[офигенно] хорошо.

Подпишись на Аппарат
Facebook
Вконтакте
E-mail дайджест
Популярное за неделю