Information Protection and Control - Контроль каналов утечки информации

Интернет магазин китайских планшетных компьютеров

Компьютеры - Information Protection and Control - Контроль каналов утечки информации

01 мая 2011

Оглавление:
1. Information Protection and Control
2. Идеология IPC
3. Дополнительные задачи систем класса IPC
4. Контроль каналов утечки информации
5. Архивирование информации, проходящей через технические каналы утечки
6. Шифрование информации на всех точках сети
7. Контроль доступа к сети, приложениям и информации
8. Архитектура

Технология DLP в IPC поддерживает контроль следующих технических каналов утечки конфиденциальной информации:

корпоративная электронная почта,
веб-почта,
социальные сети и блоги,
файлообменные сети,
форумы и другие интернет-ресурсы, в том числе выполненные на AJAX-технологии,
IM,
p2p-клиенты,
периферийные устройства,
локальные и сетевые принтеры.

Технологии DLP в IPC поддерживают контроль в том числе следующих протоколов обмена данными:

HTTP,
HTTPS,
FTP,
FTP-over-HTTP,
FTPS,
SMTP.

Технологии детектирования конфиденциальной информации

Сигнатуры

Самый простой метод контроля — поиск в потоке данных некоторой последовательности символов. Иногда запрещенную последовательность символов называют «стоп-выражением», но в более общем случае она может быть представлена не словом, а произвольным набором символов, например, определенной меткой. Если система настроена только на одно слово, то результат ее работы — определение 100%-го совпадения, т.е. метод можно отнести к детерминистским. Однако чаще поиск определенной последовательности символов все же применяют при анализе текста. В подавляющем большинстве случаев сигнатурные системы настроены на поиск нескольких слов и частоту встречаемости терминов.

К достоинствам этого метода можно отнести простоту пополнения словаря запрещенных терминов и очевидность принципа работы, а также то, что это самый верный способ, если необходимо найти соответствие слова или выражения на 100 %. Недостатки же становятся очевидными после начала промышленного использования такой технологии при отлове утечек и настройке правил фильтрации. Большинство производителей DLP-систем работают для Западных рынков, а английский язык очень «сигнатурен» — формы слов чаще всего образуются с помощью предлогов без изменения самого слова. В русском языке все гораздо сложнее, так как у нас есть приставки, окончания, суффиксы. Для примера можно взять слово «ключ», которое может означать как «ключ шифрования», «ключ от квартиры», «родник», «ключ или PIN-код от кредитной карты», так и множество других значений. В русском языке из корня «ключ» можно образовать несколько десятков различных слов. Это означает, что если на Западе специалисту по защите информации от инсайдеров достаточно ввести одно слово, в России специалисту придется вводить пару десятков слов и затем еще изменять их в шести различных кодировках. Реальное применение этого метода требует наличие лингвиста или команды лингвистов как на этапе внедрения, так и в процессе эксплуатации и обновления базы. Несомненным недостатком является и то, что «сигнатуры» неустойчивы к примитивному кодированию, например, заменой символов на похожие по начертанию.

«Цифровые отпечатки»

Различного типа хеш-функции образцов конфиденциальных документов позиционируются западными разработчиками DLP-систем как новое слово на рынке защиты от утечек, хотя сама технология существует с 70-х годов. На Западе этот метод иногда называется «digital fingerprints». Суть всех методов одна и та же, хотя конкретные алгоритмы у каждого производителя могут отличаться. Некоторые алгоритмы даже патентуются, что помогает в продвижении «новой патентованной технологии DG». Общий сценарий действия такой: набирается база образцов конфиденциальных документов. Суть работы DG довольно проста и часто этим и привлекает: DLP/IPC-системе передается некий стандартный документ-шаблон, из него создается «цифровой отпечаток» и записывается в базу данных DF. Далее в правилах контентной фильтрации настраивается процентное соответствие шаблону из базы. Например, если настроить 75 % соответствие «цифровому отпечатку» договору поставки, то при контентной фильтрации DLP обнаружит практически все договоры этой формы. Иногда, к этой технологии относят и системы вроде «Антиплагиата», однако последняя работает только с текстовой информацией, в то время как технология «цифровых отпечатков», в зависимости от реализации, может работать и различным медийным контентом и применяться для защиты авторских прав и препятствию случайному или намеренному нарушению законов и нормативов информационной безопасности.

К достоинствам технологии «цифровых отпечатков» можно отнести простоту добавления новых шаблонов, довольно высокую степень детектирования и прозрачность алгоритма технологии для сотрудников подразделений по защите информации. Специалистам СБ и ИБ не надо думать о «стоп-выражениях» и прочей лингвистике, тратить много времени на анализ потенциально опасных словоформ и вбивать их в базу, тратить ресурсы на внедрение и поддержку лингвистической базы. Основным недостатком, который на первый взгляд неочевиден и скрыт за «патентованными технологиями», является то, что, несмотря на всю простоту и фактическое отсутствие лингвистических методов, необходимо постоянно обновлять базу данных «цифровых отпечатков». И если в случае с «сигнатурами», такой метод не требует постоянного обновления базы словами, то он требует обновления базы «цифровых отпечатков». К недостаткам «цифровых отпечатков» можно отнести то, что фактически от «дополнения базы словами» поддержка DLP в эффективном состоянии переходит «поиск и индексирование новых и измененных файлов», что является более сложной задачей, даже если это делается DLP-системой полуавтоматически. Крупные компании, в которых появляется до десятка тысяч новых и обновленных документов каждый рабочий день только на серверных хранилищах зачастую просто не в состоянии отслеживать всё это в режиме реального времени, не говоря уже об персональных компьютерах и ноутбуках. В таком случае применение DG малоэффективно, поэтому «цифровые отпечатки» в большинстве DLP рассчитаны на компании SMB-сектора. В дополнение к этому цифровые отпечатки занимают примерно 10—15 % от размера конфиденциальных документов, и база постоянно разрастается, что требует дополнительных инвестиций в увеличение систем хранения информации и производительность DLP-серверов. Кроме того, низкоуровневые хеш-функции неустойчивы к примитивному кодированию, которое рассматривалось применительно к «сигнатурам».

«Метки»

Суть этого метода заключается в расстановке специальных «меток» внутри файлов, содержащих конфиденциальную информацию. С одной стороны, такой метод дает стабильные и максимально точные сведения для DLP-системы, с другой стороны требуется много довольно сильных изменений в инфраструктуре сети. У лидеров DLP- и IPC-рынка реализация данного метода не встречается, поэтому рассматривать ее подробно не имеет особого смысла. Можно лишь заметить, что, несмотря на явное достоинство «меток» — качество детектирования, есть множество существенных недостатков: от необходимости значительной перестройки инфраструктуры внутри сети до введения множества новых правил и форматов файлов для пользователей. Фактически внедрение такой технологии превращается во внедрение упрощенной системы документооборота.

Регулярные выражения

Поиск по регулярным выражениям является также давно известным способом детектирования необходимого содержимого, однако в DLP стал применяться относительно недавно. Часто этот метод называют «текстовыми идентификаторами». Регулярные выражения позволяют находить совпадения по форме данных, в нем нельзя точно указать точное значение данных, в отличие от «сигнатур». Такой метод детектирования эффективен для поиска:

ИНН,
КПП,
номеров счетов,
номеров кредитных карт,
номеров телефонов,
номеров паспортов,
клиентских номеров.

Поиск по «маскам» позволяет DLP- или IPC-системе обеспечивать соответствие требованиям все более популярного стандарта PCI DSS, разработанного международными платежными системами Visa и MasterCard для финансовых организаций.

К достоинствам технологии регулярных выражений в первую очередь стоит отнести то, что они позволяют детектировать специфичный для каждой организации тип контента, начиная от кредитных карт и заканчивая названиям схем оборудования, специфичных для каждой компании. Кроме того, формы основных конфиденциальных данных меняются крайне редко, поэтому их поддержка практически не будет требовать временных ресурсов. К недостаткам регулярных выражений можно отнести их ограниченную сферу применения в рамках DLP- и IPC-систем, так как найти с помощью них можно только конфиденциальную информацию лишь определенной формы. Регулярные выражения не могут применяться независимо от других технологий, однако могут эффективно дополнять их возможности.

Лингвистические методы

Самым распространенным на сегодняшний день методом анализа в DLP/IPC-системах является лингвистический анализ текста. Он настолько популярен, что часто именно он в просторечье именуется «контентной фильтрацией», то есть несет на себе характеристику всего класса методов анализа содержимого. Лингвистика как наука состоит из многих дисциплин — от морфологии до семантики, и лингвистические методы анализа различаются между собой. Есть технологии, использующие лишь «стоп-выражения», вводящиеся только на уровне корней, а сама система уже составляет полный словарь; есть базирующиеся на расставлении весов встречающихся в тексте терминов. Есть в лингвистических методах и свои отпечатки, базирующиеся на статистике; например, берется документ, считаются пятьдесят самых употребляемых слов, затем выбирается по 10 самых употребляемых из них в каждом абзаце. Такой «словарь» представляет собой практически уникальную характеристику текста и позволяет находить в «клонах» значащие цитаты. Разбор всех тонкостей лингвистического анализа не входит в рамки этой статьи, однако необходимо заметить ширину возможностей данной технологии в рамках IPC-систем.

К достоинствам лингвистических методов в DLP можно отнести то, что в морфологии и других лингвистических методах высокая степень эффективности, сравнимая с сигнатурами, при намного меньших трудозатратах на внедрение и поддержку. При этом в случае с использованием лингвистических методов детектирования нет необходимости отслеживать появление новых документов и направлять их на анализ в IPC-систему, так как эффективность лингвистических методов определения конфиденциальной информации не зависит от количества конфиденциальных документов, частоты их появления и производительности системы фильтрации содержимого. Недостатки лингвистических методов также довольно очевидны, первый из них — зависимость от языка — если организация представлена в нескольких странах, базы конфиденциальных слов и выражений придется создавать отдельно для каждого языка и страны, учитывая всю специфику. При этом обычная эффективность такого метода составит в среднем 85 %. Если привлекать профессиональных лингвистов, то эффективность может возрасти до 95 % — больше может обеспечить лишь ручная проверка или «сигнатуры», однако по отношению эффективности и трудозатрат равных лингвистическим методам пока не нашли.

Ручное детектирование

Ручная проверка конфиденциальной информации иногда называется «Карантином». Любая информация, которая попадает под правила ручной проверки, например, в ней встречается слово «ключ», попадает в консоль специалиста информационной безопасности. Последний по очереди вручную просматривает такую информацию и принимает решение о пропуске, блокировке или задержке данных. Если данные блокируются или задерживаются, отправителю посылается соответствующее сообщение. Несомненным достоинством такого метода можно считать наибольшую эффективность. Однако, такой метод в реальном бизнесе применим лишь для ограниченного объема данных, так как требуется большого количества человеческих ресурсов, так как для качественного анализа всей информации, выходящий за пределы компании, количество сотрудников информационной безопасности должно примерно совпадать с количеством остальных офисных сотрудников. А это невозможно даже в силовых и военных структурах. Реальное применение для такого метода — анализ данных выбранных сотрудников, где требуется более тонкая работа, чем автоматический поиск по шаблонам, «цифровых отпечатков» или совпадений со словами из базы.

<<< ISAAC

Компьютерное аппаратное обеспечение
Вычислительные комплексы
Компьютерные данные
Компьютерные журналы
Классы компьютеров
Компьютеры

Программное обеспечение
Производители компьютеров
Профессии в ИТ
Системное администрирование
Компьютерный сленг
Списки компьютерных терминов

Человеко-компьютерное взаимодействие