Разделы
Главная Сапромат Моделирование Взаимодействие Методы Инновации Индукция Исследования Факторизация Частоты
Популярное
Как составляется проект слаботочных сетей? Как защитить объект? Слаботочные системы в проекте «Умный дом» Какой дом надежнее: каркасный или брусовой? Как правильно создавать слаботочные системы? Что такое энергоэффективные дома?
Главная »  Специальный подход 

Функции риска как составляющая специального подхода к анализу классификации трафика

Тарасова Е.Г. (Tarasova@uven.ru ) ЦТКиТИ УлГУ

1. Введение

Метод определения оптимальных показателей на основе функций риска рассматривался и применялся в нескольких областях, одна из которых относится к задачам анализа и классификации трафика в сетях передачи данных. К настоящему времени значительно возросло число приложений передающих данные в реальном времени, что обусловлено возросшим интересом людей подобными услугами (передача аудио, видео). Для каналов с ограниченной полосой пропускания данных организация передачи голоса и видео в хорошем качестве весьма проблематична, с учетом того, что все сервисы сети должны полноценно работать. Так же могут возникнуть сложности, связанные с различными видами атак (такими как флуд и сканирование сети), которые могут привести к выходу из строя сервисов (deny of service). Цель работы в данном случае заключается в своевременном обнаружении таких ситуаций. В крупной рассредоточенной по городу структуре (как государственное образовательное учреждение высшего профессионального образования Ульяновский государственный университет) невозможно на всех локальных участках одновременно контролировать работоспособность конечных, реальных серверов. Это обстоятельство некоторое время создавало проблемы передачи данных, например, при проведении видеоконференций.

Изначально были поставлены следующие задачи:

Во-первых, для создания информационной системы анализа выбрать из огромного потока данные, которые будут задавать контрольный, переходный и критический случаи, учитывая статистические факторы (временные интервалы, разнородный уровень работы).

Во-вторых, полученные данные необходимо обработать по общим признакам (по ip-адресам нашей сети, портам), а также определить значимый параметр (дельта, как разность между принятыми и отправленными пакетами), который позволит в дальнейшем классифицировать ситуации.

В-третьих, разработать нетрадиционный подход по анализу значимого параметра (дельта) и получить результат в виде оптимальных значений (границ). В заключении дать оценку граничным значениям, как критериям определенных ситуаций.



В данной области удалось автоматизировать процесс обнаружения критических точек в системе, а так же классифицировать ситуации, благодаря предложенным автором методикам анализа на основе функций риска [3], что позволило в кратчайшие сроки локализовать проблемные участки. Метод функций риска оказался весьма удобным, так как позволил не выстраивать отдельные математические модели для оценки каждого контрольного, переходного и критического случаев, а изменялась лишь сама функция риска. В зависимости от поставленной задачи можно говорить и о быстроте методики (метод функций риска оказывается более быстрым для получения результата в отличие от нейросетей), и о качестве (после первоначальной обработки ситуаций (обучение системы) для получения результата не требуется вмешательство эксперта по исследуемой области, т. е. можно говорить о самообучении системы). Проведено множество исследований по разработке систем управления телекоммуникационным оборудованием, что в свою очередь влечет анализ и классификацию трафика, сетей и протоколов передачи данных. В частности, по динамическому управлению трафиком была предложена методика нейросетевых моделей, что также дает представление о потоках данных, ошибках и сбоях. Нейронные сети -мощный аппарат для имитации процессов и явлений, который предоставляет возможность воспроизводить достаточно сложные зависимости. После определения количества слоев в сети и числа нейронов в каждом из них, назначается значения весов и смещений, которые минимизируют ошибку решения. Это достигается с помощью процедур обучения. Процесс обучения - процесс подгонки параметров той модели процесса или явления, которая реализуется нейронной сетью. В этом подходе есть и минусы заключающиеся в соизмерении затрат на построение такой сети управления на практике [4]. То есть метод достаточно трудоемкий длительный и увеличение узлов в сети повлечет увеличение вычислительных затрат.

Методом функций риска в настоящей работе определены допустимые границы для каждой из рассмотренных ситуаций, что классифицирует их по параметру дельта. Так как зрительно просматривать все статистические сводки весьма затруднительно, то была разработана модель анализа и контроля, свою реализацию она получила в информационной системе. Рассмотрим основные ее компоненты. 2. Математический аппарат для обработки

Распространенной формой статистических показателей, используемой в исследованиях, является средняя величина. Она представляет собой обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях времени и места. Показатель в форме средней величины выражает типичные черты и дает обобщающую характеристику однотипных явлений по одному из варьирующих признаков.



где x - это сгруппированные данные конкретной области, которые имеют общую

определенную для всех размерность. Иными словами значения детерминированных оценок, которые задаются изначально для анализа; f (xt) - весовая оценка представленная

функцией риска.

Функция риска f (xt) рассматривается на отрезке [0,1]. В контрольном случае выбор

убывающей функции обусловлен тем, что значения весовых коэффициентов распределяется с убыванием при росте значений значимого показателя (х). По формуле (*) оптимальное значение будет смещено в сторону большего коэффициента, что даст наименьшее допустимое оптимальное значение x из возможных. В критическом (плохом) случае все выглядит иначе. Значения весовых коэффициентов возрастают с увеличением значений x. Оптимальное значение так же сместится в сторону наибольших коэффициентов, что даст наибольшее допустимое оптимальное значение x. 3. Механизм сбора данных

Он отражает уровень этого признака, отнесенный к единице совокупности ([1] стр. 70). Этими факторами обусловлено применение средней величины, а именно взвешенной, которая определяется по сгруппированным данным или вариационным рядам и весовым коэффициентам, роль которых в настоящей работе играют функции риска. Такой метод был выбран в связи с тем, что значение оценки без функции риска (т.е. с функцией риска равной константе, что соответствует среднему арифметическому) будет неверным ([3], стр.13). Здесь можно провести аналогию с фигурным катанием, когда оценки с математической точки зрения не играют роли, а важно место, занимаемое каждым выступающим, с точки зрения каждого судьи.

Значения весовых коэффициентов в каждом выделенном случае определяются функциями риска. Возрастающие квадратичные функции отнесены к категории задач, связанных с критическими ситуациями (неудачный исход), напротив, убывающие применялись в контрольном или переходном случаях. Выбор функции осуществляется для каждого выделенного исхода в задаче, программно выдается список возрастающих либо убывающих квадратичных функций типа y=axA2+bx+c на отрезке [0;1] с различными коэффициентами (a, b, c). На основе значений весовых коэффициентов и конкретного вариационного ряда был получен некоторый набор значений результирующего параметра (получена оценка ситуации). Представленная ниже формула будет являться динамической оценкой данных в вычислительных экспериментах определенной области.



Механизм основан на использовании утилиты flow-tools - утилиты для накопления, просмотра и иного анализа log-файлов потока netflow от маршрутизаторов Cisco. Данная реализация не содержит в своем составе функции для автоматического создания баз данных, и какие либо другие дополнительные утилиты, что было очень удобно при выполнении данной работы. Flow-tools включает в себя программу-коллектор (flow-capture) и программы обработки. Программа-коллектор (netflow) настроена на udp-порты, а маршрутизатор отдает на эти порты статистические данные, которые собирались в файлы статистики и в дальнейшем обрабатывались программами, разработанными автором.

При анализе, проводимом в ходе работы, ключевыми параметрами были взяты SrcIPaddress, SrcP, DstlPaddress, DstP, Pkts.

В ходе статистического наблюдения различалось несколько ситуаций. Было выбрано три однородных аналитических группы по количественным факторным признакам (интервалам времени) и качественным результативным (в зависимости от характера работы серверов и каналов) признакам. При построении аналитических группировок можно установить взаимосвязь между двумя признаками и более. При этом один признак будет результативным, а другой (другие) - факторным. Факторными называют признаки, под воздействием которых изменяются результативные признаки ([2], стр50). В каждом случае использовался индивидуальный подход к отбору, группы следующие:

- контрольный случай, когда все сервисы работают нормально и загрузка серверов и каналов незначительна (примером может служить ночное время, начиная с 2 часов ночи); в данном случае, чтобы провести анализ методом функций риска, применялись убывающие функции, которые, при соответствующих весовых коэффициентах, давали наименьшее допустимое значение.

- переходный (средний случай, здесь может рассматриваться ежедневная загрузка в рабочий день с 14 до 16 часов дня); анализ в данных ситуациях схож с контрольным случаем.

- критический случай, когда загрузка на реальные серверы и каналы высокая (загрузка в рабочий день с учетом проведения видеоконференции), есть ошибки в канале и некоторые сервисы дают сбой. Чтобы проанализировать данные в критическом случае выбирались возрастающие функции, что, при соответствующих коэффициентах, позволило получить оптимальное значение.

Для создания области хранения данных было использовано общедоступное бесплатное программное обеспечение, а именно, mysql-3.23.58 на базе ОС Unix. 3.1 Первичная обработка данных



Суть первичной обработки заключалась в отборе данных из общего потока для анализа методом функций риска. Отбор осуществлялся следующим образом, в зависимости от ситуации (контрольный случай, средний или критический) файлы данных обрабатывались программными функциями. Первая отбрасывала из общего потока ip-адреса, зарезервированные под loopback-адреса, async, вторая выбирала адреса из наших сетей, которые подлежали дальнейшей обработке. Следующим шагом был анализ первичных данных на предмет полученных/отправленных пакетов, затем определялась разность (дельта) между принятыми и отправленными пакетами по ip-адресу. В идеале число принятых пакетов должно быть равно числу отправленных, в реальности все не так. К вариационным рядам по показателю дельта в контрольном, среднем и критическом случаях был применен метод функций риска, о котором речь пойдет ниже. 4. Вывод

Работа посвящена применению эвристического метода принятия решений на основе функций риска в областях, которые не принято называть дискретной оптимизацией. Цель исследования было доказательство научно-практической значимости метода в нетрадиционных сферах деятельности, где ранее применялись другие подходы. Задачами автора являлись разработка и внедрение метода функций риска как составляющей подхода для анализа данных. В ходе проведенной работы можно говорить о востребованности метода в различных научно-практических областях. Созданная информационная модель позволяет определить в рамках эксперимента границы оптимальных значений для каждой ситуации, отличающейся, как интервалом времени, так и разнородным уровнем работы. Литература

1. Теория статистики: Учебно-практическое пособие / В.Г. Минашкин, А.Б. Гусынин; Московский государственный университет экономки, статистики и информатики. Москва, 2003. - 173с.

2. Теория статистики: Учебник/ под ред. Проф. Г.Л. Громыко. - 2-е изд. - М.: ИНФРА-М, 2005. - 476с.

3. Б.Мельников, А.Радионов. Эвристические алгоритмы в специальных задачах дискретной оптимизации. - В кн.: Тезисы докладов международной научной конференции Дискретный анализ и исследование операций , Новосибирск, изд-во Института математики, 2000.

4. Комашинский В. И. Смирнов Д.А. Нейронные сети и их применение в системах управления и связи. - М.: Горячая линия - Телеком, 2002.