Как анализ данных раскрывает преступные схемы

Выявление мошеннических сделок — это одна из областей, где полезность современные методов анализа данных давно не требует доказательства. Много написано о том, как их используют платёжные системы и финансовые организации, но часто остаются в стороне мошенников, которые избрали своим полем деятельности интернет-аукционы.

Интернет-аукционы — давно не шутка. Количество пользователей eBay исчисляется сотнями миллионов, а его оборот превышает 15 миллиардов долларов. И это всего лишь одна компания, работающая в этой области, пусть и самая крупная. Разумеется, такие деньги не могли не привлечь преступников. Уже в 2006 году более сорока процентов денежного ущерба, зарегистрированного американским Федеральным центром жалоб на интернет-преступления, был нанесён аукционными мошенниками.

E-commerce

Интернет-аукционы делают всё возможное для того, чтобы усложнить преступникам жизнь. Первая линия защиты — учёт «репутации». Большинство подобных сервисов позволяет пользователям указать, как прошла сделка — хорошо или плохо. Прежде чем отправить деньги незнакомцу, покупатель может поинтересоваться, что о нём думают его бывшие клиенты. Если многие из них оставили негативные оценки, то лучше не рисковать.

ebay

Проблема заключается в том, что эта система не так неуязвима, как хотелось бы. Офлайновые мошенники знают множество способов втереться жертве в доверие. В интернете с этим обстоит ещё проще. Сперва преступник накручивает свою репутацию — это можно сделать, например, торгуя с другими преступниками. Затем он быстро проворачивает несколько мошеннических сделок. Конечно, репутация скоро станет плохой, а администрация сервиса заметит неладное, но это не проблема. Мошенник просто бросит опороченный аккаунт и заведёт новый.

Можно было бы предположить, что аукционные мошенники ведут себя не так, как простые пользователи, но в чём это выражается? Для того, чтобы понять это, нужно посмотреть на интернет-аукцион как на сложную социальную сеть, образованную пользователями и их сделками. Несколько лет назад специалисты из университета Калифорнии и университета Карнеги-Меллона при участии Symantec попытались разобраться в том, как она устроена.

Analyzing data and charts in the office

Исследователи начали со сбора данных. Для этого они разработали программного «робота», который обходит сайт eBay и собирает открытую информацию о пользователях и сделках, которые они совершают. Набор данных, который получился в итоге, имел размер 10 гигабайт. В нём содержались сведения о 54 миллионах транзакций, в которых принимали участие 11 миллионов пользователей интернет-аукциона. Чуть больше 66 тысяч пользователей подверглись более внимательному изучению: история их сделок была загружена целиком.

Обычную социальную сеть можно представить в виде графа. Вершины в таком графе — это люди, а дуги отмечают их связи с другими — дружеские, родственные, рабочие или какие-либо ещё. Эта схема подходит и для аукциона. Вершинами в таком случае будут продавцы и покупатели, а дуги — это сделки, которые они совершают. В зависимости от того, как оценён исход сделки, дуга, связывающая покупателя и продавца, получает разный вес: положительный, нейтральный или отрицательный.

Вот первое интересное открытие, которое принёс анализ графа сделок в eBay: ему не свойственна так называемая топология «клуба богатеев», которая характерна для большинства социальных сетей. Суть феномена «клуба богатеев» заключается в том, что вершины со значительным количеством связей чаще связаны между собой, чем с вершинами, у которых мало связей. В обычной соцсети это значит, что одна знаменитость скорее добавит в список друзей другую, чем безымянного фаната. На eBay это правило не распространяется. Вероятность того, что покупатель и продавец сойдутся, не особенно зависит от количества сделок, которые они успели совершить в прошлом.

Man analyzing financial data and charts on computer screen

Другие ценные наблюдения связаны с тем, как люди оценивают сделки, и на что это влияет. Положительные оценки, как и следовало ожидать, способствуют популярности продавца, но лишь до определённого предела. Это объяснимо: покупателя интересует не столько количество положительных оценок, сколько их наличие. Продавец, совершивший пять удачных сделок, возможно, заслуживает большего доверия, чем продавец, совершивший лишь одну, но между двумя сотнями и двумя тысячами голосов «за» уже нет особой разницы. Для того, чтобы составить мнение, столько оценок не нужно.

Негативные оценки встречаются на удивление редко: их доля не превышает одной сотой от общего числа. Это, впрочем, не значит, что они не играют особой роли. Даже одна жалоба ощутимо бьёт по бизнесу. Половина аккаунтов, имевших менее 90% положительных оценок, не совершили ни одной сделки после того, как количество отрицательных оценок превысило десять.

В другой работе та же группа исследователей предлагает алгоритм обнаружения мошенников, основанный на анализе графа сделок между ними, и описывают программную систему, в которой они его реализовали. Её главная идея сводится к тому, что мошенников можно идентифицировать по их связям между собой.

В этом есть логика, ведь для того, чтобы накрутить свою «репутацию», преступникам приходится взаимодействовать. В самом простом случае они будут иметь больше связей друг с другом, чем с честными пользователями, и это их выдаст. Увы, реальность не так проста. Мошенники прекрасно понимают, что такое поведение выдаст их с головой, причём достаточно попасться одному — и погорит вся шайка. Чтобы избежать провала, они выработали более сложную схему, позволяющую время от времени избавляться от аккаунтов, которые скомпрометировали себя, но не ставить под удар «группу поддержки».

Для этого они используют два типа аккаунтов: аккаунты-мошенники и аккаунты-пособники. Аккаунт-мошенник — это камикадзе. Его срок годности ограничен: он подготовится к делу, совершит серию преступных сделок и неизбежно попадёт в поле зрения администрации сервиса. В отличие от него, пособники ведут себя максимально естественно. Они не делают ничего предосудительного, часто торгуют с честными пользователями и, как правило, имеют безупречную репутацию. Попутно они взаимодействуют с аккаунтами-мошенниками и дают им хорошие оценки. Когда один аккаунт-мошенник оказывается заблокирован, пособники остаются вне подозрения и быстро «накачивают» следующий.

Система, которую предложили исследователи, основана на так называемой марковской сети. В данном случае он представляет собой граф, рёбра которого задают вероятностные связи между вершинами, находящимися в одном из нескольких состояний. Их следующее состояние зависит только от текущего и от состояний их соседей, но не связано с тем, что происходило с вершиной в прошлом. В нашем случае вершины — это пользователи аукциона.

Они могут находиться в одном из трёх состояний: мошенник, пособник и честный пользователь. Чтобы прояснить, кто есть кто, служит алгоритм распространения доверия. Он действует так: вершины вычисляют своё состояние на основании сообщений, полученных от соседей, а затем переводят его в новые сообщения для соседей при помощи матрицы распространения.

Матрица распространения — самое важное. В ней указано, какова вероятность связи между вершинами с разными состояниями. Например, вероятность того, что мошенник совершит сделку с другим мошенником или с честным пользователем очень низка. С пособниками дело обстоит иначе: они почти одинаково часто торгуют с мошенниками и честными пользователями, но почти никогда не имеют дела друг с другом. В свою очередь, честные пользователи с равной вероятностью могут столкнуться с пособниками и с другими честными пользователями, но становятся жертвой мошенников с вероятностью 0,05.

По сути дела, получается нечто вроде игры «Сапёр», где нужно угадывать клетки с бомбами по цифрам на соседних клетках. Наша игра, впрочем, куда сложнее: число «клеток» составляет сотни миллионов, они связаны между собой самым замысловатым образом, а на кону стоят большие деньги.

Scheme

На иллюстрации показано, как алгоритм в несколько приёмов выявляет мошенников (красные треугольники) и пособников (жёлтые ромбы). Каждая итерация повышает вероятность того, что «честная» вершина примет статус «пособник». На следующей итерации вершины-пособники в зависимости от топологии сети меняют состояние соседей на «мошенник» или «честный пользователь». Процесс повторяется несколько раз, пока не будет достигнута необходимая точность.

Во время испытаний на искусственно сгенерированных данных система показала неплохую точность: она идентифицировала почти все преступные аккаунты, причём число ложных тревог составляло менее десяти процентов. Точность не зависела от размера анализируемого графа, а время просчёта каждой итерации увеличивалось линейно по мере роста количества вершин.

Data Mining Meets HCI: Making Sense of Large Graphs

Систему проверили и на наборе данных, полученном с eBay — тех самых 66 тысячах пользователей, сведения о которых были собраны с интернет-аукциона «роботами». Исследователи вручную нашли среди них десять мошенников, о которых уже сообщали в прессе. Система успешно выявила каждого из них и отыскала аккаунты, которые, скорее всего, принадлежали их пособникам.

Это, разумеется, далеко не единственный метод автоматического поиска мошенников и выявления мошеннических сделок, но у него большой потенциал. Впоследствии аналогичный подход к анализу данных лёг в основу технологии Polonium, предназначенной для обнаружения вредоносных программ, которую разработали специалисты из университета Карнеги-Меллона и исследовательского центра Symantec. Но эта тема заслуживает отдельной статьи.

Автор: Олег Парамонов, КОМПЬЮТЕРРА

 

You may also like...