Дата-сет без лица: как передать субподрядчику конфиденциальные данные для обработки и не потерять их

Компании тратят огромные деньги, чтобы защитить свои данные: контролируют коммуникации, доступы пользователей, шифруют данные и борются с мошенничеством. Но утечки информации продолжаются. Часто причиной тому случайности, ошибки в информационных системах, но еще чаще — неоправданно высокое доверие к получателям данных.

Бизнес-процессы любой организации требуют обрабатывать, хранить и передавать огромное количество информации в электронном виде. Российское законодательство, включая Федеральный закон «О персональных данных», предписывает защищать подобную информацию, поэтому в таких случаях применяется маскирование, для которого «Гарда Технологии» готова предоставить необходимый инструментарий.

Новая нефть

Необходимость маскирования данных возникает не только при взаимодействии с внешними контрагентами. К примеру, отдел маркетинга крупного сетевого ретейлера занят разработкой новых стратегий повышения потребительской лояльности и ему требуется проверять возникающие идеи на большом объеме данных о клиентах, их продуктовых и брендовых предпочтениях, частоте посещения торговых точек и совершения заказов онлайн, среднем чеке и т. п. При этом доступа к «сырому» массиву маркетологи по очевидным причинам не имеют, да он для решения стоящей перед ними задачи и не нужен — маскирование обеспечит их вполне адекватным объемом информации.

Кроме того, в контексте крупного бизнеса стоит сказать, что подавляющее большинство данных хранится в структурированном виде в базах данных (БД). Задача обезличивания в таких случаях решается с помощью команд из консоли СУБД. При этом все же бывают случаи, когда наряду со структурированными данными, передать требуется информацию и неструктурированную. Подразделение ИБ в этом случае испытывает стрессовые перегрузки, увеличивается вероятность ошибок операторов. Здесь необходима автоматизация — использование специального ПО для создания обезличенных копий баз данных: такого, как система «Гарда Маскирование».

Автоматическое
выявление критической
информации в массиве
данных
Маскирование данных с
целью передачи в среды
тестирования и
разработки
Подготовка данных для
аналитики и выявления
статистических
закономерностей

Теперь это личное

Система предполагает достаточно гибкие настройки для указания на типы данных, которые необходимо маскировать: это могут быть не только имена и некие номера (телефонные либо условные идентификаторы), но и, по сути, любые заданные пользователем поля и шаблоны. «Гарда Маскирование», утверждают разработчики, в автоматическом режиме выявляет подлежащие маскированию данные даже в слабоструктурированных информационных массивах. А задача эта сама по себе нетривиальная: скажем, имя может содержаться в исходных записях во множестве с трудом поддающихся формализации видов: «С. Петров», «Кузнецов Иван Павлович», «Пётр Семёнович Ковалев» (увы, наличие «ё» в имени и отчестве при отсутствии его в фамилии даже в официальных документах вполне вероятно), и «Полад Бюльбюль-оглы», и «Ким Ын-сук».

Для человека, неторопливо обрабатывающего каждую запись вручную, задача обезличения даже неструктурированного массива строк может показаться тривиальной — хотя и долгой, и утомительной. Но даже самому терпеливому оператору не справиться с десятками и сотнями тысяч записей, — тогда как «Гарда Маскирование» способна решить такую задачу за более чем разумное время. Принцип действия системы сводится к следующему:

  • Сперва в автоматическом режиме выявляется чувствительная информация (ФИО, номера телефонов, другие персональные данные и пр.).
  • Затем производится полная репликация исходной БД с сохранением взаимосвязей (имеются в виду таблицы и связанные с ними ключи).
  • Далее в дело пускаются предустановленные шаблоны сканирования и предлагаемые системой алгоритмы маскирования.
  • Оператор же контролирует всё происходящее через удобный интерфейс, верифицируя корректность автоматического выполнения задач и исправляя ошибки в случае их возникновения.

Выявление и маскирование чувствительных данных: ФИО, номера банковских карт, паспортные данные, даты рождения, ИНН, ОГРН, СНИЛС, номера телефонов, e-mail, логины учетных записей
Репликация баз данных с полным сохранением структуры БД и её взаимосвязей, с заменой чувствительной информации по справочникам и в соответствии с алгоритмами
Возможность маскирования только части БД с сохранением связей для больших массивов данных и маскирование только новых данных

Взять и сделать

Наиболее ответственный этап работы системы — сканирование исходного массива с выявлением данных, подлежащих маскированию. В «Гарда Маскирование» уже предустановлен ряд наиболее часто употребляемых шаблонов; кроме того, оператор волен прибавить к ним свои собственные, которые также будут исполняться в автоматическом режиме. После того как весь массив просканирован, персональные и иные чувствительные данные выявлены, параметры намеченного маскирования заданы, наступает следующий этап —собственно формирование обезличенного массива.

Чтобы такой массив сформировать (и он был пригоден для дальнейшей обработки с выявлением значимых закономерностей), необходимо перенести данные — за исключением маскированных, которые будут заменены на обезличенные, — из исходной базы в целевую. При этом «Гарда Маскирование» сохраняет взаимосвязи, форматы и структуру данных, что чрезвычайно важно именно с точки зрения последующей обработки. По сути, аналитики (или иные адресаты массива обезличенной информации) получают возможность работать не с какими-то куцыми обрезками изначальных БД и иных источников информации, а с корректно составленными и отформатированными их версиями, просто не содержащими действительных личных идентификаторов и иных чувствительных данных.

На рынке доступны различные системы автоматизированного обезличения информационных массивов, однако не все они готовы к уверенной работе с немаркированными, либо лишь частично маркированными, либо вовсе неструктурированными данными. Опрос, проведенный самой «Гарда Технологии», показывает, что менее 8% заказчиков аккуратно маркируют свои данные перед занесением в базы, а почти 13% вовсе не структурируют их. В массе же своей компании, которым приходится иметь дело с обезличением информационных массивов, либо используют самописные решения или специальное ПО, либо практически не занимаются этой проблемой. Последнее при первой же утечке персональных данных — с учетом ныне действующего законодательства — может обернуться для компании немалыми неприятностями.

Принцип работы системы
1
Сканирование
  1. Автоматический анализ структуры базы данных
  2. Выявление персональных данных и других чувствительных данных
  3. Настройка параметров маскирования
2
Перенос данных
  1. Создание копии БД
  2. Замена персональных данных и чувствительной информации (обезличивание)
  3. Сохранение взаимосвязей, форматов и структуры данных
  4. Формирование результирующего отчёта

Есть решение!

Если обезличивание упорядоченного массива дотошно маркированных данных действительно не представляет сложной задачи, то маскировать значительный объем неструктурированной информации без применения специальных программных средств, вообще говоря, невозможно. «Гарда Маскирование» именно для второго случая предлагает две хорошо апробированные технологии: сканирование по шаблонам (регулярным выражениям, включая обширный набор уже предустановленных в системе) и сканирование по справочникам.

С шаблонами ситуация достаточно ясна: выборка «по номеру паспорта» выявит все записи, в которых такие номера присутствуют. В случае ложноположительных срабатываний (например, в логах исполнения каких-то задач могут встречаться комбинации цифр, похожие на номера паспортов, но ими не являющиеся) шаблон несложно дополнить соответствующим исключением и перезапустить сканирование.

Справочники нужны для более сложных случаев, когда маскировать требуется информацию, не поддающуюся упорядочению с использованием регулярных выражений. Это могут быть названия улиц, наименования компаний, имена, отчества и пр. Здесь также, разумеется, предусмотрена возможность внесения дополнений и подключения новых справочников.

В чем смысл применения специализированной программной системы, если все те же процедуры — и выборку по регулярным выражениям, и сличение со словарями — не так уж трудно реализовать на уровне скриптов? Загвоздка в том, что самописные скрипты страдают теми же недостатками, что и любое кустарное ПО: узостью испытательной базы и отсутствием аппаратных оптимизаций. Автор самописного скрипта при всем желании не сможет вручную подготовить для него тестировочный массив длиннее, чем в несколько сотен, максимум тысяч записей. В результате, когда тот же скрипт запускается на массиве в сотни тысяч записей, он почти с гарантией наткнется на упущенную при тестировании проблему, да и исполняться будет существенно дольше ожиданий — поскольку является по сути довольно высокоуровневым программным кодом, выполняемым внутри СУБД, и, как правило, в один поток.

В свою очередь, отдельная проблема, которую самописными скриптами особенно трудно решать, — сохранение консистентности (согласованности) данных при маскировании. Скажем, один и тот же идентификатор клиента (ФИО, номер телефона и т. п.) в разных БД следует маскировать одинаковым образом, чтобы оставить возможность извлекать ценнейшую маркетинговую информацию при сопоставлении этих баз. И наоборот: каждый клиент обязан иметь свой уникальный идентификатор — нельзя допускать появления ложной консистентности, когда данные в разных БД из-за случайного совпадения маскировочных идентификаторов окажутся связанными.

«Гарда Маскирование» обеспечивает соблюдение требований консистентности и уникальности идентификаторов. Кроме того, система оптимизирована для многопоточного исполнения — в том числе и на виртуальной машине, и с ручным выделением ресурсов (числа задействованных процессорных ядер). И, что удобнее всего для заказчика, «Гарда Маскирование» запускается на исполнение в парадигме проектов: каждый из них сохраняет уникальные настройки сканирования и маскирования с использованием установленных алгоритмов, после чего однажды настроенный проект позволяет формировать обезличенные копии исходной БД практически по одному щелчку мыши. Система уже поддерживает MsSQL, Oracle и PostgreSQL, а в будущем планируется реализовать ее совместимость и с Click House.
ПРОТЕСТИРУЙТЕ СИСТЕМУ БЕСПЛАТНО