Начала теории. Распознавание образов

Направления в распознавании образов

Формальная постановка задачи

Некоторые методы распознавания графических образов

Персептрон как метод распознавания образов

Примеры задач распознавания образов

Цели науки распознавания образов:

Основные определения

Энциклопедичный YouTube

Глава 3: Аналитический обзор методов распознавания образов и принятия решений

Часть 1. Фильтрация

Часть 2. Логическая обработка результатов фильтрации

Часть 3. Обучение

И напоследок

Субтитры

Теория распознавания образов и автоматизация управления

Основные задачи адаптивного распознавания образов

Задача формализации предметной области

Задача формирования обучающей выборки

Задача обучения системы распознавания

Задача снижения размерности пространства признаков

Задача распознавания

Задача контроля качества распознавания

Задача адаптации

Обратная задача распознавания

Задачи кластерного и конструктивного анализа

Задача когнитивного анализа

Методы распознавания образов и их характеристики

Принципы классификации методов распознавания образов

Интенсиональные методы

Методы, основанные на оценках плотностей распределения значений признаков

Методы, основанные на предположениях о классе решающих функций

Логические методы

Лингвистические (структурные) методы

Экстенсиональные методы

Метод сравнения с прототипом

Метод k ближайших соседей

Алгоритмы вычисления оценок (»голосования»)

Коллективы решающих правил

Сравнительный анализ методов распознавания образов

Роль и место распознавания образов в автоматизации управления сложными системами

Принятие решения об управляющем воздействии в АСУ

Многообразие задач принятия решений

Принятие решений как реализация цели

Принятие решений как снятие неопределенности (информационный подход)

Классификация задач принятия решений

Языки описания методов принятия решений

Критериальный язык

Язык последовательного бинарного выбора

Обобщенный язык функций выбора

Групповой выбор

Выбор в условиях неопределенности

Информационная (статистическая) неопределенность в исходных данных

Неопределенность последствий

Рассмотрим такой вид неопределенности, как расплывчатая неопределенность

О некоторых ограничениях оптимизационного подхода

Экспертные методы выбора

Автоматизированные системы поддержки принятия решений

Бинаризация по порогу, выбор области гистограммы

Классическая фильтрация: Фурье, ФНЧ, ФВЧ

Вейвлеты

Корреляция

Фильтрации функций

Фильтрации контуров

Прочие фильтры

Морфология

Контурный анализ

Особые точки

Простой случай, одномерное разделение

Лекция № 17. МЕТОДЫ РАСПОЗНАВАНИЯ ОБРАЗОВ

Различают следующие группы методов распознавания:

Методы функций близости

Методы дискриминантных функций

Статистические методы распознавания.

Лингвистические методы

Эвристические методы.

Первые три группы методов ориентированы на анализ признаков, выражаемых числами либо векторами с числовыми компонентами.

Группа лингвистических методов обеспечивает распознавание образов на основе анализа их структуры, описываемой соответствующими структурными признаками и отношениями между ними.

Группа эвристических методов объединяет характерные приемы и логические процедуры, используемые человеком при распознавании образов.

Методы функций близости

Методы данной группы основаны на использовании функций, оценивающих меру близости между распознаваемым образом с вектором x * = (x * 1 ,….,x * n ), и эталонными образами различных классов, представленными векторами x i = (x i 1 ,…, x i n ), i= 1,…,N , где i – номер класса образов.

Процедура распознавания согласно данному методу состоит в вычислении расстояния между точкой распознаваемого образа и каждой из точек, представляющих эталонный образ, т.е. в вычислении всех значений d i , i= 1,…,N . Образ относится к классу, для которого значение d i имеет наименьшее значение среди всех i= 1,…,N .

Функция, ставящая в соответствие каждой паре векторов x i , x * вещественное число как меру их близости, т.е. определяющая расстояние между ними может быть достаточно произвольной. В математике такую функцию называют метрикой пространства. Она должна удовлетворять следующим аксиомам:

r (x,y )= r (y,x );

r (x,y ) > 0, если x не равен y и r (x,y )=0 если x=y ;

r (x,y ) <= r (x,z )+ r (z,y )

Перечисленным аксиомам удовлетворяют, в частности, следующие функции

a i = 1/2 , j =1,2,…n .

b i =sum, j =1,2,…n .

c i =max abs (x i ‑ x j * ), j =1,2,…n .

Первая из них называется евклидовой нормой векторного пространства. Соответственно пространства, в которых в качестве метрики используется указанная функция называется Евклидовым пространством.

Часто в качестве функции близости выбирают среднеквадратическую разность координат распознаваемого образа x * и эталона x i , т.е. функцию

d i = (1/n ) sum(x i j ‑ x j * ) 2 , j =1,2,…n .

Величина d i геометрически интерпретируется как квадрат расстояния между точками в пространстве признаков, отнесенный к размерности пространства.

Часто оказывается, что разные признаки неодинаково важны при распознавании. С целью учета данного обстоятельства при вычислении функций близости разности координат, соответствующие более важным признакам умножают на большие коэффициенты, а менее важным – на меньшие.

В таком случае d i = (1/n ) sum w j (x i j ‑ x j * ) 2 , j =1,2,…n ,

где w j – весовые коэффициенты.

Введение весовых коэффициентов эквивалентно масштабированию осей пространства признаков и, соответственно растяжению либо сжатию пространства в отдельных направлениях.

Указанные деформации пространства признаков преследуют цель такого размещения точек эталонных образов, которое соответствует наиболее надежному распознаванию в условиях значительного разброса образов каждого класса в окрестности точки эталонного образа.

Группы близких друг другу точек образов (скопления образов) в пространстве признаков называют кластерами, а задачу выделения таких групп – задачей кластеризации.

Задачу выявления кластеров относят к задачам распознавания образов без учителя, т.е. к задачам распознавания в условиях отсутствия примера правильного распознавания.

Методы дискриминантных функций

Идея методов данной группы состоит в построении функций, определяющих в пространстве образов границы, разделяющие пространство на области, соответствующие классам образов. Простейшими и наиболее часто используемыми функциями такого рода являются функции, линейно зависящие от значений признаков. Им в пространстве признаков соответствуют разделяющие поверхности в виде гиперплоскостей. В случае двумерного пространства признаков в качестве разделяющей функции выступает прямая линия.

Общий вид линейной решающей функции задается формулой

d (x )=w 1 x 1 + w 2 x 2 +…+ w n x n + w n +1 = Wx +w n

где x - вектор образа, w= ( w 1 , w 2 ,…w n ) – вектор весовых коэффициентов.

В случае разбиения на два класса X 1 и X 2 дискриминантная функция d (x) позволяет осуществить распознавание в соответствии с правилом:

x принадлежит X 1 , если d (x )>0;

x принадлежит X 2 , если d (x )<0.

Если d (x )=0, то имеет место случай неопределенности.

В случае разбиения на несколько классов вводится несколько функций. При этом каждому классу образов ставится в соответствие определенная комбинация знаков дискриминационных функций.

Например, если введены три дискриминантные функции, то возможен следующий вариант выделения классов образов:

x принадлежит X 1 , если d 1 (x )>0, d 2 (x )<0, d 3 (x )<0;

x принадлежит X 2 , если d (x )<0, d 2 (x )>0, d 3 (x )<0;

x принадлежит X 3 , если d (x )<0, d 2 (x )<0, d 3 (x )>0.

При этом считается, что для других комбинаций значений d 1 (x ), d 2 (x ), d 3 (x ) имеет место случай неопределенности.

Разновидностью метода дискриминантных функций является метод решающих функций. В нем при наличии m классов предполагается существование m функций d i (x ), называемых решающими, таких, что если x принадлежит X i , то d i (x ) > d j (x ) для всех j не равных i ,т.е. решающая функция d i (x ) имеет максимальное значение среди всех функций d j (x ), j =1,...,n ..

Иллюстрацией такого метода может служить классификатор, основанный на оценке минимума евклидова расстояния в пространстве признаков между точкой образа и эталоном. Покажем это.

Евклидово расстояние между вектором признаков распознаваемого образа x и вектором эталонного образа определяется формулой ||x i ‑ x || = 1/2 , j =1,2,…n .

Вектор x будет отнесен к классу i , для которого значение ||x i ‑ x * || минимально.

Вместо расстояния можно сравнивать квадрат расстояния, т.е.

||x i ‑ x || 2 = (x i ‑ x )( x i ‑ x ) т = x x - 2x x i + x i x i

Поскольку величина x x одинакова для всех i , минимум функции ||x i ‑ x || 2 будет совпадать с максимумом решающей функции

d i (x ) = 2x x i - x i x i .

то есть x принадлежит X i , если d i (x ) > d j (x ) для всех j не равных i .

Т.о. машина, классифицирующая по минимуму расстояния, основывается на линейных решающих функциях. Общая структура такой машины, использует решающие функции вида

d i (x )=w i 1 x 1 + w i 2 x 2 +…+ w in x n + w i n +1

Она может быть наглядно представлена соответствующей структурной схемой.

Для машины, осуществляющей классификацию по минимуму расстояния имеют место равенства: w ij = -2x i j , w i n +1 = x i x i .

Эквивалентное распознавание методом дискриминантных функций может быть осуществлено, если определить дискриминантные функции как разности d ij (x )= d i (x )‑ d j (x ).

Достоинством метода дискриминантных функций является простая структура распознающей машины, а также возможность ее реализации преимущественно посредством преимущественно линейных решающих блоков.

Еще одним важным достоинством метода дискриминаннтных функций является возможность автоматического обучения машины правильному распознаванию по заданной (обучающей) выборке образов.

При этом алгоритм автоматического обучения оказывается весьма простым в сравнении с другими методами распознавания.

В силу указанных причин метод дискриминантных функций завоевал широкую популярность весьма часто используется на практике.

Процедуры самообученя распознаванию образов

Рассмотрим методы построения дискриминантной функции по заданной (обучающей) выборке применительно к задаче о разделении образов на два класса. Если заданы два множества образов, принадлежащих соответственно классам А и В, то решение задачи построения линейной дискриминантной функции ищется в виде вектора весовых коэффициентов W =(w 1 ,w 2 ,...,w n ,w n +1), обладающего тем свойством, что для любого образа выполняются условия

x принадлежит классу A, если >0, j =1,2,…n .

x принадлежит классу B, если <0, j =1,2,…n .

Если обучающую выборку составляют N образов обоих классов, задача сводится к отысканию вектора w, обеспечивающего справедливость системы неравенств Если обучающую выборку составляют N образов обоих классов, задача сводится к отысканию вектора w , обеспечивающего справедливость системы неравенств

x 1 1 w i +x 21 w 2 +...+x n 1 w n +w n +1 >0;

x 1 2 w i +x 22 w 2 +...+x n 2 w n +w n +1 <0;

x 1 i w i +x 2i w 2 +...+x ni w n +w n +1 >0;

................................................

x 1 N w i +x 2N w 2 +...+x nN w n +w n + 1>0;

здесь x i =(x i 1 ,x i 2 ,...,x i n ,x i n+ 1 ) - вектор значений признаков образа из обучающей выборки, знак > соответствует векторам образов x , принадлежащих классу A, а знак < - векторам x , принадлежащих классу B.

Искомый вектор w существует, если классы A и B разделимы и не существует в противном случае. Значения компонент вектора w могут быть найдены либо предварительно, на этапе, предшествующем аппаратной реализации СРО, либо непосредственно самой СРО в процессе ее функционирования. Последний из указанных подходов обеспечивает большую гибкость и автономность СРО. Рассмотрим его на примере устройства, называемого перцентроном. изобретенного в 1957 году американским ученым Розенблатом. Схематичное представление перцентрона, обеспечивающего отнесение образа к одному из двух классов, представлено на следующем рисунке.

Сетчатка S Сетчатка A Сетчатка R

о о x 1

о о x 2

о о x 3

о (sum)-------> R (реакция)

о о x i

о о x n

о о x n +1

Устройство состоит из сетчатки сенсорных элементов S , которые случайным образом соединены с ассоциативными элементами сетчатки A . Каждый элемент второй сетчатки воспроизводит выходной сигнал только в том случае, если достаточное число сенсорных элементов, соединенных с его входом, находятся в возбужденном состоянии. Реакция всей системы R пропорциональна сумме взятых с определенными весами реакций элементов ассоциативной сетчатки.

Обозначив через x i реакцию i -го ассоциативного элемента и через w i - весовой коэффициент реакции i -го ассоциативного элемента, реакцию системы можно записать как R =sum(w j x j ), j =1,..,n . Если R >0, то предъявленный системе образ принадлежит классу A, а если R <0, то образ относится к классу B. Описание этой процедуры классификации соответствует рассмотренным нами раньше принципам классификации, и, очевидно, перцентронная модель распознавания образов представляет собой, за исключением сенсорной сетчатки, реализацию линейной дискриминантной функции. Принятый в перцентроне принцип формирования значений x 1 , x 2 ,...,x n соответствует некоторому алгоритму формирования признаков на основе сигналов первичных датчиков.

В общем случае может быть несколько элементов R , формирующих реакцию перцептрона. В таком случае говорят о присутствии в перцептроне сетчатки R реагирующих элементов.

Схему перцентрона можно распространить на случай, когда число классов более двух, путем увеличения числа элементов сетчатки R до числа различаемых классов и введение блока определения максимальной реакции в соответствии со схемой, представленной на выше приведенном рисунке. При этом образ причисляется к классу с номером i , если R i >R j , для всех j .

Процесс обучения перцентрона состоит в подборе значений весовых коэффициентов w j так, чтобы выходной сигнал соответствовал тому классу, которому принадлежит распознаваемый образ.

Рассмотрим алгоритм действия перцентрона на примере распознавания объектов двух классов: A и B. Объектам класса A должно соответствовать значение R = +1, а классу B - значение R = -1.

Алгоритм обучения состоит в следующем.

Если очередной образ x принадлежит классу A, но R <0 (имеет место ошибка распознавания), тогда коэффициенты w j c индексами, которым соответствуют значения x j >0, увеличивают на некоторую величину dw , а остальные коэффициенты w j уменьшают на dw . При этом значение реакции R получает приращение в сторону ее положительных значений, соответствующих правильной классификации.

Если x принадлежит классу B, но R >0 (имеет место ошибка распознавания), то коэффициенты w j с индексами, которым соответствуют x j <0, увеличивают на dw , а остальные коэффициенты w j уменьшают на ту же величину. При этом значение реакции R получает приращение в сторону отрицательных значений, соответствующих правильной классификации.

Алгоритм таким образом вносит изменение в вектор весов w в том и только в том случае, если образ, предъявляемый на k -ом шаге обучения, был при выполнении этого шага неправильно классифицирован, и оставляет вектор весов w без изменений в случае правильной классификации. Доказательство сходимости данного алгоритма представлено в работе [Ту, Гонсалес]. Такое обучение в конечном итоге (при надлежащем выборе dw и линейной разделимости классов образов) приводит к получению вектора w , обеспечивающего правильную классификацию.

Статистические методы распознавания.

Статистические методы основываются на минимизации вероятности ошибки классификации. Вероятность P неправильной классификации поступившего на распознавание образа, описываемого вектором признаков x , определяется формулой

P = sum[p (i )·prob(D (x )+i | x классу i )]

где m - число классов,

p (i ) = prob (x принадлежит классу i ) - априорная вероятность принадлежности произвольного образа x к i -му классу (частота появления образов i -го класса),

D (x ) - функция, принимающая классификационное решение (вектору признаков x ставит в соответствие номер класса i из множества {1,2,...,m }),

prob(D (x ) не равно i | x принадлежит классу i ) - вероятность события "D (x ) не равно i " при выполнении условия принадлежности x классу i , т.е. вероятность вынесения ошибочного решения функцией D (x ) для данного значения x , принадлежащего i -му классу.

Можно показать, что вероятность неправильной классификации достигает минимума, если D (x )=i в том и только в том случае, если p (x |i )·p (i )>p (x|j )·p (j ), для всех i+j , где p (x|i ) - плотность распределения образов i -го класса в пространстве признаков.

Согласно приведенному правилу точка x относится к тому классу, которому соответствует максимальное значение p (i ) p (x|i ), т.е. произведение априорной вероятности (частоты) появления образов i -го класса и плотности распределения образов i -го класса в пространстве признаков. Представленное правило классификации называется байесовским, т.к. оно следует из известной в теории вероятности формулы Байеса.

Пример. Пусть необходимо осуществить распознавание дискретных сигналов на выходе информационного канала, подверженного воздействию шума.

Каждый входной сигнал представляет собой 0 или 1. В результате передачи сигнала на выходе канала появляется величина x , на которую налагается Гауссовский шум с нулевым средним значением и дисперсией б.

Воспользуемся для синтеза классификатора, осуществляющего распознавание сигналов, байесовским правилом классификации.

В класс №1 объединим сигналы, представляющие единицы, в класс №2 - сигналы, представляющие нули. Пусть заранее известно, что в среднем из каждой 1000 сигналов a сигналов представляют собой единицы и b сигналов - нули. Тогда значения априорных вероятностей появления сигналов 1-го и 2-го классов (единиц и нулей), соответственно можно принять равными

p(1)=a/1000, p(2)=b/1000.

Т.к. шум является гауссовским, т.е. подчиняется нормальному (гауссовскому) закону распределения, то плотность распределения образов первого класса в зависимости от значения x , или, что тоже самое, вероятность получения на выходе величины x при подаче на входе сигнала 1 определяется выражением

p (x ¦1) =(2piб) -1/2 exp(-(x -1) 2 /(2б 2)),

а плотность распределения в зависимости от значения x образов второго класса, т.е. вероятность получения на выходе величины x при подаче на входе сигнала 0 определяется выражением

p (x ¦2)= (2piб) -1/2 exp(-x 2 /(2б 2)),

Применение байесовского решающего правила приводит к выводу, что передан сигнал класса 2, т.е. передан ноль, если

p (2) p (x ¦2) > p (1) p (x ¦1)

или, более конкретно, если

b exp(-x 2 /(2б 2)) > a exp(-(x -1) 2 /(2б 2)),

Поделив левую часть неравенства на правую, получим

(b /a ) exp((1-2 x )/(2б 2)) >1,

откуда после логарифмирования находим

1-2x > 2б 2 ln(a/b)

x < 0.5 - б 2 ln(a/b)

Из полученного неравенства следует, что при a=b , т.е. при одинаковых априорных вероятностях появления сигналов 0 и 1, образу присваивается значение 0 когда x <0.5, а значение 1, когда x >0.5.

Если заранее известно, что один из сигналов появляется чаще, а другой реже, т.е. в случае неодинаковых значений a и b , порог срабатывания классификатора смещается в ту или другую сторону.

Так при a/b =2.71 (что соответствует в 2.71 раза более частой передаче единиц) и б 2 =0.1, образу присваивается значение 0, если x <0.4, и значение 1, если x >0.4. Если информация об априорных вероятностях распределения отсутствует, то могут быть использованы статистические методы распознавания, в основу которых положены иные, отличные от байесовского, правила классификации.

Однако, на практике наиболее распространены методы, основанные на правилах Байеса в силу их большей эффективности, а также в связи с тем обстоятельством, что в большинстве задач распознавания образов оказывается возможным задать априорные вероятности появления образов каждого класса.

Лингвистические методы распознавания образов.

Лингвистические методы распознавания образов основываются на анализе описания идеализированного изображения, представленного в виде графа или цепочки символов, являющейся фразой или предложением некоторого языка.

Рассмотрим идеализированные изображения букв, полученные в результате первого этапа лингвистического распознавания, описанного выше. Эти идеализированные изображения можно задать описаниями графов, представленных, например, в виде матриц связей, как это было сделано в рассмотренном выше примере. Это же описание можно представить фразой формального языка (выражением).

Пример. Пусть заданы три изображения буквы А, полученные в результате предварительной обработки изображений. Обозначим эти изображения идентификаторами А1, А2 и А3.

Для лингвистического описания представленных образов воспользуемся языком PDL (Picture Description Language). Словарь языка PDL включает следующие символы:

1. Имена простейших изображений (примитивов). Применительно к рассматриваемому случаю примитивы и соответствующие им имена следующие.

Изображения в виде линии, направленной:

вверх и влево (leF t), на север(north)), вверх и вправо (right), на восток(east)).

Имена: L, N, R, E .

2. Символы бинарных операций. {+,*,-} Их смысл соответствует последовательному соединению примитивов (+), соединению начал и окончаний примитивов (*), соединению только окончаний примитивов (-).

3. Правую и левую скобки. {(,)} Скобки позволяют определять последовательность выполненияопераций в выражении.

Рассматриваемые изображения А1, А2 и А3 описываются на языке PDL соответственно следующими выражениями.

T(1)=R+((R-(L+N))*E-L

T(2)=(R+N)+((N+R)-L)*E-L

T(3)=(N+R)+(R-L)*E-(L+N)

После того как лингвистическое описание изображения построено, необходимо с помощью некоторой распознающей процедуры проанализировать, принадлежит или нет данное изображение к интересующему нас классу (классу букв А), т.е. обладает или нет это изображение некоторой структурой. Для этого прежде всего необходимо описать класс изображений, имеющих интересующую нас структуру.

Очевидно, буква А всегда содержит следующие структурные элементы: левую "ножку", правую "ножку" и головную часть. Назовем эти элементы соответственно STL, STR, TR.

Тогда на языке PDL класс символов А - SIMB A описывается выражением

SIMB A = STL + TR - STR

Левая "ножка" STL всегда есть цепочка элементов R и N, что можно записать так

STL ‑> R ¦ N ¦ (STL + R)¦(STL + N)

(STL есть символ R или N, или цепочка, полученная добавлением кисходной цепочке STL символов R или N)

Правая "ножка" STR всегда есть цепочка элементов L и N, что можно записать так, т.е.

STR ‑> L¦N¦ (STR + L)¦(STR + N)

Головная часть буквы - TR представляет собой замкнутый контур, составленный из элемента E и цепочек типа STL и STR.

На языке PDLструктура TR описывается выражением

TR ‑> (STL - STR) * E

Окончательно получим следующее описание класса букв А:

SIMB A ‑> (STL + TR - STR),

STL ‑> R¦N¦ (STL + R)¦(STL + N)

STR ‑> L¦N¦ (STR + L)¦(STR + N)

TR ‑> (STL - STR) * E

Процедура распознавания в данном случае может быть реализована следующим образом.

1. Выражение, соответствующее образу, сравнивается с эталоннойструктурой STL + TR - STR.

2. Каждому элементу структуры STL, TR, STR, если это возможно, т.е. если описание изображения сравнимо с эталоном, ставится в соответствиенекоторое подвыражение из выражения T(А). Например,

для А1: STL=R, STR=L, TR=(R-(L+N))*E

для А2: STL = R + N, STR = L, TR = ((N + R) - L) * E

для А3: STL = N + R, STR = L + N, TR = (R - L) * E 3.

Выражения STL, STR, TR сравниваются с соответствующими им эталонными структурами.

4. Если структура каждого выражения STL, STR, TR соответствует эталонной, делается вывод о принадлежности образа к классу букв А. Если на каком-либо из этапов 2, 3, 4 обнаруживается несоответствие структуры анализируемого выражения эталону, делается вывод о непринадлежности образа классу SIMB A. Сопоставление структур выражений может проводиться с помощью алгоритмических языков LISP, PLANER, PROLOG и других подобных им языков искусственного интеллекта.

В рассматриваемом примере все цепочки STL составлены из символов N и R, а цепочки STR из символов L и N, что соответствует заданной структуре этих цепочек. Структура TR в рассматриваемых образах также соответствует эталонной, т.к. состоит из "разности" цепочек типа STL, STR, "умноженной" на символ E.

Т.о., приходим к выводу о принадлежности рассматриваемых образов классу SIMB A.

Синтез нечеткого регулятора электропривода постоянного тока в среде «MatLab»

Синтез нечеткого регулятора с одним входом и выходом.

Проблема состоит в том, чтобы заставить привод точно следить за различными входными сигналами. Выработка управляющего воздействия осуществляется нечетким регулятором, в котором структурно можно выделить следующие функциональные блоки: фаззификатор, блок правил и дефаззификатор.

Рис.4 Обобщенная функциональная схема системы с двумя лингвистическими переменными.

Рис.5 Принципиальная схема нечеткого регулятора с двумя лингвистическими переменными.

Алгоритм нечеткого управления в общем случае представляет собой преобразование входных переменных нечеткого регулятора в его выходные переменные с помощью следующих взаимосвязанных процедур:

1. преобразование входных физических переменных, получаемых от измерительных датчиков с объекта управления во входные лингвистические переменные нечеткого регулятора;

2. обработка логических высказываний, называемых лингвистическими правилами, относительно входных и выходных лингвистических переменных регулятора;

3. преобразование выходных лингвистических переменных нечеткого регулятора в физические управляющие переменные.

Рассмотрим сначала самый простой случай, когда для управления следящим электроприводом вводятся всего две лингвистические переменные:

«угол» - входная переменная;

«управляющее воздействие» - выходная переменная.

Синтез регулятора будем осуществлять в среде «MatLab» с помощью тулбокса «Fuzzy Logic». Он позволяет создавать системы нечеткого логического вывода и нечеткой классификации в рамках среды MatLab, с возможностью их интегрирования в Simulink. Базовым понятием Fuzzy Logic Toolbox является FIS-структура - система нечеткого вывода (Fuzzy Inference System). FIS-структура содержит все необходимые данные для реализации функционального отображения “входы-выходы” на основе нечеткого логического вывода согласно схеме, приведенной на рис. 6.

Рисунок 6. Нечеткий логический вывод.

X - входной четкий вектор; - вектор нечетких множеств, соответствующий входному вектору X;
- результат логического вывода в виде вектора нечетких множеств;Y - выходной четкий вектор.

Модуль fuzzy позволяет строить нечеткие системы двух типов - Мамдани и Сугэно. В системах типа Мамдани база знаний состоит из правил вида “Если x 1 =низкий и x 2 =средний, то y=высокий” . В системах типа Сугэно база знаний состоит из правил вида “Если x 1 =низкий и x 2 =средний, то y=a 0 +a 1 x 1 +a 2 x 2 " . Таким образом, основное отличие между системами Мамдани и Сугэно заключается в разных способах задания значений выходной переменной в правилах, образующих базу знаний. В системах типа Мамдани значения выходной переменной задаются нечеткими термами, в системах типа Сугэно - как линейная комбинация входных переменных. В нашем случаем будем использовать систему Сугэно, т.к. она лучше поддается оптимизации.

Для управления следящим электроприводом, вводятся две лингвистические переменные: «ошибка» (по положению) и «управляющее воздействие». Первая из них является входной, вторая – выходная. Определим терм-множество для указанный переменных.

Основные компоненты нечеткого логического вывода. Фаззификатор.

Для каждой лингвистической переменной определим базовое терм-множество вида, включающее в себя нечеткие множества, которые можно обозначить: отрицательная высокая, отрицателная низкая, нуль, положительная низкая, положительная высокая.

Прежде всего субъективно определим что подразумевается под термами «большая ошибка», «малая ошибка» и т.д., определяя функции принадлежности для соответствующих нечетких множеств. Здесь пока можно руководствоваться только требуемой точностью, известными параметрами для класса входных сигналов и здравым смыслом. Никакого жесткого алгоритма для выбора параметров функций принадлежности пока никому предложить не удалось. В нашем случае лингвистическая переменная «ошибка» будет выглядеть следующим образом.

Рис.7. Лингвистическая переменная «ошибка».

Лингвистическую переменную «управление» удобнее представить в виде таблицы:

Таблица 1

Блок правил .

Рассмотрим последовательность определения нескольких правил, которые описывают некоторые ситуации:

Предположим, например, что выходной угол равен входному сигналу (т.е. ошибка - нуль). Очевидно, что это желаемая ситуация, и следовательно мы не должны ничего делать (управляющее воздействие - нуль).

Теперь рассмотрим другой случай: ошибка по положению сильно больше нуля. Естественно мы должны её компенсировать, формируя большой положительный сигнал управления.

Т.о. составлены два правила, которые могут быть формально определены так:

если ошибка = нуль, то управляющее воздействие = нуль.

если ошибка = большая положительная, то управляющее воздействие = большое положительное.

Рис.8. Формирование управления при малой положительной ошибке по положению.

Рис.9. Формирование управления при нулевой ошибке по положению.

Ниже в таблице приведены все правила, соответствующие всем ситуациям для этого простого случая.

Таблица 2

Всего для нечеткого регулятора, имеющего n входов и 1 выход может быть определено правил управления, где – количество нечетких множеств для i-го входа, но для нормального функционирования регулятора не обязательно использовать все возможные правила, а можно обойтись и меньшим их числом. В нашем случае для формирования нечеткого сигнала управления используются все 5 возможных правил.

Дефаззификатор.

Таким образом, результирующее воздействие U будет определяться соответственно выполнению какого-либо правила. Если возникает ситуация, когда выполняются сразу несколько правил, то результирующее воздействие U находится по следующей зависимости:

, где n-число сработавших правил (дефаззификация методом центра области), u n – физическое значение управляющего сигнала, сответствующее каждому из нечетких множеств UBO , UMo , U Z , UMp , UB P . m Un(u) – степень принадлежности управляющего сигнала u к соответствующему нечеткому множеству Un={UBO , UMo , U Z , UMp , UB P }. Существуют также и другие методы дефаззификации, когда выходная лингвистическая переменная пропорциональна самомому «сильному» или «слабому» правилу.

Промоделируем процесс управления электроприводом с помощью вышеописанного нечеткого регулятора.

Рис.10. Структурная схема системы в среде Matlab .

Рис.11. Структурная схема нечеткого регулятора в среде Matlab .

Рис.12. Переходный процесс при единичном ступенчатом воздействии.

Рис. 13. Переходный процесс при гармоническом входном воздействии для модели с нечетким регулятором, содержащим одну входную лингвистическую переменную.

Анализ характеристик привода с синтезированным алгоритмом управления показывает, что они далеки от оптимальных и хуже, чем при синтезе управления другими методами (слишком большое время регулирования при единичном ступенчатом воздействии и ошибка при гармоническом). Объясняется это тем, что параметры функций принадлежности выбирались достаточно произвольно, а в качестве входов регулятора использовалась только величина ошибки по положению. Естественно ни о какой оптимальности полученного регулятора не может идти и речи. Поэтому актуальной становится задача оптимизации нечеткого регулятора, с целью достижения им максимально возможных показателей качества управления. Т.е. стоит задача оптимизации целевой функции f(a 1 ,a 2 …a n), где a 1 ,a 2 …a n – коэффициенты, определяющие вид и характеристики нечеткого регулятора. Для оптимизации нечеткого регулятора воспользуемся блоком ANFIS из среды Matlab. Также одним из способов улучшения характеристик регулятора может являться увеличение числа его входов. Это сделает регулятор более гибким и улучшит его характеристики. Добавим еще одну входную лингвистическую переменную – скорость изменения входного сигнала (его производную). Соответственно возрастет и число правил. Тогда принципиальная схема регулятора примет вид:

Рис.14 Принципиальная схема нечеткого регулятора с тремя лингвистическими переменными.

Пусть - значение скорости входного сигнала. Базовое терм-множество Тn определим в виде:

Тn={”отрицательная (ВО)”, “нулевая (Z)”, ”положительная (ВР)”}.

Расположение функций принадлежности для всех лингвистических переменных показано на рисунке.

Рис.15. Функции принадлежности лингвистической переменной «ошибка».

Рис.16. Функции принадлежности лингвистической переменной «скорость входного сигнала» .

В связи с добавлением еще одной лингвистической переменной, количество правил возрастет до 3x5=15. Принцип их составления полностью аналогичен рассмотренному выше. Все они приведены в следующей таблице:

Таблица 3

Например, если если ошибка = нуль, а производная входного сигнала = большая положительная, то управляющее воздействие = малое отрицательное.

Рис.17. Формирование управления при трех лингвистических переменных.

В связи с увеличением числа входов и соответственно самих правил, усложнится и структура нечеткого регулятора.

Рис.18. Структурная схема нечеткого регулятора с двумя входами.

Добавить рисунок

Рис.20. Переходный процесс при гармоническом входном воздействии для модели с нечетким регулятором, содержащим две входные лингвистические переменные.

Рис. 21. Сигнал ошибки при гармоническом входном воздействии для модели с нечетким регулятором, содержащим две входные лингвистические переменные.

Промоделируем работу нечеткого регулятора с двумя входами в среде Matlab. Структурная схема модели будет точно такой же, как на рис. 19. Из графика переходного процесса для гармонического входного воздействия можно видеть, что точность системы значительно возросла, но при этом увеличилась её колебательность, особенно в местах, где производная выходной координаты стремится к нулю. Очевидно, что причинами этого, как уже говорилось выше, является неоптимальный выбор параметров функций принадлежности, как для входных, так и для выходных лингвистических переменных. Поэтому оптимизируем нечеткий регулятор с помощью блока ANFISedit в среде Matlab.

Оптимизация нечеткого регулятора.

Рассмотрим использование генетических алгоритмов для оптимизации нечеткого регулятора. Генетические алгоритмы – адаптивные методы поиска, которые в последнее время часто используются для решения задач функциональной оптимизации. Они основаны на подобии генетическим процессам биологических организмов: биологические популяции развиваются в течении нескольких поколений, подчиняясь законам естественного отбора и по принципу "выживает наиболее приспособленный" (survival of the fittest), открытому Чарльзом Дарвином. Подражая этому процессу генетические алгоритмы способны "развивать" решения реальных задач, если те соответствующим образом закодированы.

Генетические алгоритмы работают с совокупностью "особей" - популяцией, каждая из которых представляет возможное решение данной проблемы. Каждая особь оценивается мерой ее "приспособленности" согласно тому, насколько "хорошо" соответствующее ей решение задачи. Наиболее приспособленные особи получают возможность "воспроизводить" потомство с помощью "перекрестного скрещивания" с другими особями популяции. Это приводит к появлению новых особей, которые сочетают в себе некоторые характеристики, наследуемые ими от родителей. Наименее приспособленные особи с меньшей вероятностью смогут воспроизвести потомков, так что те свойства, которыми они обладали, будут постепенно исчезать из популяции.

Так и воспроизводится вся новая популяция допустимых решений, выбирая лучших представителей предыдущего поколения, скрещивая их и получая множество новых особей. Это новое поколение содержит более высокое соотношение характеристик, которыми обладают хорошие члены предыдущего поколения. Таким образом, из поколения в поколение, хорошие характеристики распространяются по всей популяции. В конечном итоге, популяция будет сходиться к оптимальному решению задачи.

Имеются много способов реализации идеи биологической эволюции в рамках генетических алгоритмов. Традиционный, можно представить в виде следующей блок-схемы показанной на рисунке 22, где:

1. Инициализация начальной популяции – генерация заданного числа решений задачи, с которых начинается процесс оптимизации;

2. Применение операторов кроссовера и мутации;

3. Условия останова – обычно процесс оптимизации продолжают до тех пор, пока не будет найдено решение задачи с заданной точностью, или пока не будет выявлено, что процесс сошелся (т.е. не произошло улучшения решения задачи за последние N поколений).

В среде Matlab генетические алгоритмы представлены отдельным тулбоксом, а также пакетом ANFIS. ANFIS - это аббревиатура Adaptive-Network-Based Fuzzy Inference System - адаптивная сеть нечеткого вывода. ANFIS является одним из первых вариантов гибридных нейро-нечетких сетей - нейронной сети прямого распространения сигнала особого типа. Архитектура нейро-нечеткой сети изоморфна нечеткой базе знаний. В нейро-нечетких сетях используются дифференцируемые реализации треугольных норм (умножение и вероятностное ИЛИ), а также гладкие функции принадлежности. Это позволяет применять для настройки нейро-нечетких сетей быстрые и генетические алгоритмы обучения нейронных сетей, основанные на методе обратного распространения ошибки. Ниже описываются архитектура и правила функционирования каждого слоя ANFIS-сети.

ANFIS реализует систему нечеткого вывода Сугено в виде пятислойной нейронной сети прямого распространения сигнала. Назначение слоев следующее: первый слой - термы входных переменных; второй слой - антецеденты (посылки) нечетких правил; третий слой - нормализация степеней выполнения правил; четвертый слой - заключения правил; пятый слой - агрегирование результата, полученного по различным правилам.

Входы сети в отдельный слой не выделяются. На рис.23 изображена ANFIS-сеть с одной входной переменной («ошибка») и пятью нечеткими правилами. Для лингвистической оценки входной переменной «ошибка» используется 5 термов.

Рис.23. Структура ANFIS -сети.

Введем следующие обозначения, необходимые для дальнейшего изложения:

Пусть - входы сети;

y - выход сети;

Нечеткое правило с порядковым номером r;

m - количество правил,;

Нечеткий терм с функцией принадлежности , применяемый для лингвистической оценки переменной в r-ом правиле (,);

Действительные числа в заключении r-го правила (,).

ANFIS-сеть функционирует следующим образом.

Слой 1. Каждый узел первого слоя представляет один терм с колокообразной функцией принадлежности. Входы сети соединены только со своими термами. Количество узлов первого слоя равно сумме мощностей терм-множеств входных переменных. Выходом узла являются степень принадлежности значения входной переменной соответствующему нечеткому терму:

где a, b и c - настраиваемые параметры функции принадлежности.

Слой 2. Количество узлов второго слоя равно m. Каждый узел этого слоя соответствует одному нечеткому правилу. Узел второго слоя соединен с теми узлами первого слоя, которые формируют антецеденты соответствующего правила. Следовательно, каждый узел второго слоя может принимать от 1 до n входных сигналов. Выходом узла является степень выполнения правила, которая рассчитывается как произведение входных сигналов. Обозначим выходы узлов этого слоя через , .

Слой 3. Количество узлов третьего слоя также равно m. Каждый узел этого слоя рассчитывает относительную степень выполнения нечеткого правила:

Слой 4. Количество узлов четвертого слоя также равно m. Каждый узел соединен с одним узлом третьего слоя а также со всеми входами сети (на рис. 18 связи с входами не показаны). Узел четвертого слоя рассчитывает вклад одного нечеткого правила в выход сети:

Слой 5. Единственный узел этого слоя суммирует вклады всех правил:

Типовые процедуры обучения нейронных сетей могут быть применены для настройки ANFIS-сети так как, в ней использует только дифференцируемые функции. Обычно применяется комбинация градиентного спуска в виде алгоритма обратного распространения ошибки и метода наименьших квадратов. Алгоритм обратного распространения ошибки настраивает параметры антецедентов правил, т.е. функций принадлежности. Методом наименьших квадратов оцениваются коэффициенты заключений правил, так как они линейно связаны с выходом сети. Каждая итерация процедуры настройки выполняется в два этапа. На первом этапе на входы подается обучающая выборка, и по невязке между желаемым и действительным поведением сети итерационным методом наименьших квадратов находятся оптимальные параметры узлов четвертого слоя. На втором этапе остаточная невязка передается с выхода сети на входы, и методом обратного распространения ошибки модифицируются параметры узлов первого слоя. При этом найденные на первом этапе коэффициенты заключений правил не изменяются. Итерационная процедура настройки продолжается пока невязка превышает заранее установленное значение. Для настройки функций принадлежностей кроме метода обратного распространения ошибки могут использоваться и другие алгоритмы оптимизации, например, метод Левенберга-Марквардта.

Рис.24. Рабочая область ANFISedit.

Попробуем теперь оптимизировать нечеткий регулятор для единичного ступенчатого воздействия. Желаемый переходный процесс имеет приблизительно следующий вид:

Рис.25. Желаемый переходный процесс.

Из графика изображенного на рис. следует, что большую часть времени двигатель должен работать на полную мощность, чтобы обеспечить максимальное быстродействие, а при приближении к желаемому значению должен плавно притормаживать. Руководствуясь этими простыми рассуждениями, в качестве обучающей возьмем следующую выборку значений, представленную ниже в виде таблицы:

Таблица 4

Значение ошибки	Значение управления











Значение ошибки	Значение управления











Значение ошибки	Значение управления

Рис.26. Вид обучающей выборки.

Обучение будем проводить на 100 шагах. Этого более чем достаточно для сходимости используемого метода.

Рис.27. Процесс обучения нейросети.

В процессе обучения параметры функций принадлежности формируются таким образом, чтобы при заданной величине ошибки регулятор создавал необходимое управление. На участке между узловыми точками зависимость управления от ошибки является интерполяцией данных таблицы. Метод интерполяции зависит от способа обучения нейросети. Фактически после обучения модель нечеткого регулятора можно представить нелинейной функцией одной переменной, график которой представлен ниже.

Рис.28. График зависимости управления от ошибки поп положению внутри регулятора.

Сохранив найденные параметры функций принадлежности, промоделируем систему с оптимизированным нечетким регулятором.

Рис. 29. Переходный процесс при гармоническом входном воздействии для модели с оптимизированным нечетким регулятором, содержащим одну входную лингвистическую переменную.

Рис.30. Сигнал ошибки при гармоническом входном воздействии для модели с нечетким регулятором, содержащим две входные лингвистические переменные.

Из графиков следует, что оптимизация нечеткого регулятора с помощью обучения нейросети удалась. Значительно снизилась колебательность и величина ошибки. Поэтому использование нейросети является вполне обоснованным для оптимизации регуляторов, принцип действия которых основан на нечеткой логике. Тем не менее, даже оптимизированный регулятор не может удовлетворить предъявленные требования по точности, поэтому целесообразно рассмотреть еще один способ управления, когда нечеткий регулятор управляет не непосредственно объектом, а занимается соединением нескольких законов управления в зависимости от сложившейся ситуации.

Tutorial

Давно хотел написать общую статью, содержащую в себе самые основы Image Recognition, некий гайд по базовым методам, рассказывающий, когда их применять, какие задачи они решают, что возможно сделать вечером на коленке, а о чём лучше и не думать, не имея команды человек в 20.

Какие-то статьи по Optical Recognition я пишу давненько, так что пару раз в месяц мне пишут различные люди с вопросами по этой тематике. Иногда создаётся ощущение, что живёшь с ними в разных мирах. С одной стороны понимаешь, что человек скорее всего профессионал в смежной теме, но в методах оптического распознавания знает очень мало. И самое обидное, что он пытается применить метод из близрасположенной области знаний, который логичен, но в Image Recognition полностью не работает, но не понимает этого и сильно обижается, если ему начать рассказывать что-нибудь с самых основ. А учитывая, что рассказывать с основ - много времени, которого часто нет, становится всё ещё печальнее.

Эта статья задумана для того, чтобы человек, который никогда не занимался методами распознавания изображений, смог в течении 10-15 минут создать у себя в голове некую базовую картину мира, соответствующую тематике, и понять в какую сторону ему копать. Многие методы, которые тут описаны, применимы к радиолокации и аудио-обработке.
Начну с пары принципов, которые мы всегда начинаем рассказывать потенциальному заказчику, или человеку, который хочет начать заниматься Optical Recognition:

При решении задачи всегда идти от простейшего. Гораздо проще повесить на персону метку оранжевого цвета, чем следить за человеком, выделяя его каскадами. Гораздо проще взять камеру с большим разрешением, чем разрабатывать сверхразрешающий алгоритм.
Строгая постановка задачи в методах оптического распознавания на порядки важнее, чем в задачах системного программирования: одно лишнее слово в ТЗ может добавить 50% работы.
В задачах распознавания нет универсальных решений. Нельзя сделать алгоритм, который будет просто «распознавать любую надпись». Табличка на улице и лист текста - это принципиально разные объекты. Наверное, можно сделать общий алгоритм( хороший пример от гугла), но это будет требовать огромного труда большой команды и состоять из десятков различных подпрограмм.
OpenCV - это библия, в которой есть множество методов, и с помощью которой можно решить 50% от объёма почти любой задачи, но OpenCV - это лишь малая часть того, что в реальности можно сделать. В одном исследовании в выводах было написано: «Задача не решается методами OpenCV, следовательно, она неразрешима». Старайтесь избегать такого, не лениться и трезво оценивать текущую задачу каждый раз с нуля, не используя OpenCV-шаблоны.

Очень сложно давать какой-то универсальный совет, или рассказать как создать какую-то структуру, вокруг которой можно строить решение произвольных задач компьютерного зрения. Цель этой статьи в структуризации того, что можно использовать. Я попробую разбить существующие методы на три группы. Первая группа это предварительная фильтрация и подготовка изображения. Вторая группа это логическая обработка результатов фильтрации. Третья группа это алгоритмы принятия решений на основе логической обработки. Границы между группами очень условные. Для решения задачи далеко не всегда нужно применять методы из всех групп, бывает достаточно двух, а иногда даже одного.

Список приведённых тут методов не полон. Предлагаю в комментариях добавлять критические методы, которые я не написал и приписывать каждому по 2-3 сопроводительных слова.

В эту группу я поместил методы, которые позволяют выделить на изображениях интересующие области, без их анализа. Большая часть этих методов применяет какое-то единое преобразование ко всем точкам изображения. На уровне фильтрации анализ изображения не производится, но точки, которые проходят фильтрацию, можно рассматривать как области с особыми характеристиками.

Самое просто преобразование - это бинаризация изображения по порогу. Для RGB изображения и изображения в градациях серого порогом является значение цвета. Встречаются идеальные задачи, в которых такого преобразования достаточно. Предположим, нужно автоматически выделить предметы на белом листе бумаги:

Выбор порога, по которому происходит бинаризация, во многом определяет процесс самой бинаризации. В данном случае, изображение было бинаризовано по среднему цвету. Обычно бинаризация осуществляется с помощью алгоритма, который адаптивно выбирает порог. Таким алгоритмом может быть выбор матожидания или моды . А можно выбрать наибольший пик гистограммы.

Бинаризация может дать очень интересные результаты при работе с гистограммами, в том числе в ситуации, если мы рассматриваем изображение не в RGB, а в HSV . Например, сегментировать интересующие цвета. На этом принципе можно построить как детектор метки так и детектор кожи человека.

Классические методы фильтрации из радиолокации и обработки сигналов можно с успехом применять во множестве задач Pattern Recognition. Традиционным методом в радиолокации, который почти не используется в изображениях в чистом виде, является преобразование Фурье (конкретнее - БПФ). Одно из немногих исключение, при которых используется одномерное преобразование Фурье, - компрессия изображений . Для анализа изображений одномерного преобразования обычно не хватает, нужно использовать куда более ресурсоёмкое двумерное преобразование .

Мало кто его в действительности рассчитывает, обычно, куда быстрее и проще использовать свёртку интересующей области с уже готовым фильтром, заточенным на высокие (ФВЧ) или низкие(ФНЧ) частоты. Такой метод, конечно, не позволяет сделать анализ спектра, но в конкретной задаче видеообработки обычно нужен не анализ, а результат.

Самые простые примеры фильтров, реализующих подчёркивание низких частот (фильтр Гаусса) и высоких частот (Фильтр Габора).
Для каждой точки изображения выбирается окно и перемножается с фильтром того же размера. Результатом такой свёртки является новое значение точки. При реализации ФНЧ и ФВЧ получаются изображения такого типа:

Но что если использовать для свёртки с сигналом некую произвольную характеристическую функцию? Тогда это будет называться "Вейвлет-преобразование ". Это определение вейвлетов не является корректным, но традиционно сложилось, что во многих командах вейвлет-анализом называется поиск произвольного паттерна на изображении при помощи свёртки с моделью этого паттерна. Существует набор классических функций, используемых в вейвлет-анализе. К ним относятся вейвлет Хаара , вейвлет Морле , вейвлет мексиканская шляпа , и.т.д. Примитивы Хаара, про которые было несколько моих прошлых статей ( , ), относятся к таким функциям для двумерного пространства.

Выше приведено 4 примера классических вейвлетов. 3х-мерный вейвлет Хаара, 2х-мерные вейвлет Мейера, вейвлет Мексиканская Шляпа, вейвлет Добеши. Хорошим примером использования расширеной трактовки вейвлетов является задачка поиска блика в глазу, для которой вейвлетом является сам блик:

Классические вейвлеты обычно используются для , или для их классификации (будет описано ниже).

После такой вольной трактовки вейвлетов с моей стороны стоит упомянуть собственно корреляцию, лежащую в их основе. При фильтрации изображений это незаменимый инструмент. Классическое применение - корреляция видеопотока для нахождения сдвигов или оптических потоков. Простейший детектор сдвига - тоже в каком-то смысле разностный коррелятор. Там где изображения не коррелируют - было движение.

Интересным классом фильтров является фильтрация функций. Это чисто математические фильтры, которые позволяют обнаружить простую математическую функцию на изображении (прямую, параболу, круг). Строится аккумулирующее изображение, в котором для каждой точки исходного изображения отрисовывается множество функций, её порождающих. Наиболее классическим преобразованием является преобразование Хафа для прямых. В этом преобразовании для каждой точки (x;y) отрисовывается множество точек (a;b) прямой y=ax+b, для которых верно равенство. Получаются красивые картинки:

(первый плюсег тому, кто первый найдёт подвох в картинке и таком определении и объяснит его, второй плюсег тому, кто первый скажет что тут изображено)
Преобразование Хафа позволяет находить любые параметризуемые функции. Например окружности . Есть модифицированное преобразование, которое позволяет искать любые . Это преобразование ужасно любят математики. Но вот при обработке изображений, оно, к сожалению, работает далеко не всегда. Очень медленная скорость работы, очень высокая чувствительность к качеству бинаризации. Даже в идеальных ситуациях я предпочитал обходиться другими методами.
Аналогом преобразования Хафа для прямых является преобразование Радона . Оно вычисляется через БПФ, что даёт выигрыш производительности в ситуации, когда точек очень много. К тому же его возможно применять к не бинаризованному изображению.

Отдельный класс фильтров - фильтрация границ и контуров . Контуры очень полезны, когда мы хотим перейти от работы с изображением к работе с объектами на этом изображении. Когда объект достаточно сложный, но хорошо выделяемый, то зачастую единственным способом работы с ним является выделение его контуров. Существует целый ряд алгоритмов, решающих задачу фильтрации контуров:

Чаще всего используется именно Кэнни, который хорошо работает и реализация которого есть в OpenCV (Собель там тоже есть, но он хуже ищёт контуры).

Сверху приведены фильтры, модификации которых помогают решить 80-90% задач. Но кроме них есть более редкие фильтры, используемые в локальных задачах. Таких фильтров десятки, я не буду приводить их все. Интересными являются итерационные фильтры (например ), а так же риджлет и курвлет преобразования, являющиеся сплавом классической вейвлет фильтрации и анализом в поле радон-преобразования. Бимлет-преобразование красиво работает на границе вейвлет преобразования и логического анализа, позволяя выделить контуры:

Но эти преобразования весьма специфичны и заточены под редкие задачи.

Фильтрация даёт набор пригодных для обработки данных. Но зачастую нельзя просто взять и использовать эти данные без их обработки. В этом разделе будет несколько классических методов, позволяющих перейти от изображения к свойствам объектов, или к самим объектам.

Переходом от фильтрации к логике, на мой взгляд, являются методы математической морфологии ( , ). По сути, это простейшие операции наращивания и эрозии бинарных изображений. Эти методы позволяют убрать шумы из бинарного изображения, увеличив или уменьшив имеющиеся элементы. На базе математической морфологии существуют алгоритмы оконтуривания, но обычно пользуются какими-то гибридными алгоритмами или алгоритмами в связке.

В разделе по фильтрации уже упоминались алгоритмы получения границ. Полученные границы достаточно просто преобразуются в контуры. Для алгоритма Кэнни это происходит автоматически, для остальных алгоритмов требуется дополнительная бинаризация. Получить контур для бинарного алгоритма можно например алгоритмом жука .
Контур является уникальной характеристикой объекта. Часто это позволяет идентифицировать объект по контуру. Существует мощный математический аппарат, позволяющий это сделать. Аппарат называется контурным анализом ( , ).

Если честно, то у меня ни разу ни получилось применить контурный анализ в реальных задачах. Уж слишком идеальные условия требуются. То граница не найдётся, то шумов слишком много. Но, если нужно что-то распознавать в идеальных условиях - то контурный анализ замечательный вариант. Очень быстро работает, красивая математика и понятная логика.

Особые точки это уникальные характеристики объекта, которые позволяют сопоставлять объект сам с собой или с похожими классами объектов. Существует несколько десятков способов позволяющих выделить такие точки. Некоторые способы выделяют особые точки в соседних кадрах, некоторые через большой промежуток времени и при смене освещения, некоторые позволяют найти особые точки, которые остаются таковыми даже при поворотах объекта. Начнём с методов, позволяющих найти особые точки, которые не такие стабильные, зато быстро рассчитываются, а потом пойдём по возрастанию сложности:
Первый класс. Особые точки, являющиеся стабильными на протяжении секунд. Такие точки служат для того, чтобы вести объект между соседними кадрами видео, или для сведения изображения с соседних камер. К таким точкам можно отнести локальные максимумы изображения, углы на изображении (лучший из детекторов, пожалуй, детектор Хариса), точки в которых достигается максимумы дисперсии, определённые градиенты и.т.д.
Второй класс. Особые точки, являющиеся стабильными при смене освещения и небольших движениях объекта. Такие точки служат в первую очередь для обучения и последующей классификации типов объектов. Например, классификатор пешехода или классификатор лица - это продукт системы, построенной именно на таких точках. Некоторые из ранее упомянутых вейвлетов могут являются базой для таких точек. Например, примитивы Хаара, поиск бликов, поиск прочих специфических функций. К таким точкам относятся точки, найденные методом гистограмм направленных градиентов (HOG).
Третий класс. Стабильные точки. Мне известно лишь про два метода, которые дают полную стабильность и про их модификации. Это и . Они позволяют находить особые точки даже при повороте изображения. Расчёт таких точек осуществляется дольше по сравнению с остальными методами, но достаточно ограниченное время. К сожалению эти методы запатентованы. Хотя, в России патентовать алгоритмы низя, так что для внутреннего рынка пользуйтесь.

ретья часть рассказа будет посвящена методам, которые не работают непосредственно с изображением, но которые позволяют принимать решения. В основном это различные методы машинного обучения и принятия решений. Недавно Яндыкс выложил на Хабр по этой тематике, там очень хорошая подборка. Вот оно есть в текстовой версии. Для серьёзного занятия тематикой настоятельно рекомендую посмотреть именно их. Тут я попробую обозначить несколько основных методов используемых именно в распознавании образов.
В 80% ситуаций суть обучения в задаче распознавания в следующем:
Имеется тестовая выборка, на которой есть несколько классов объектов. Пусть это будет наличие/отсутствие человека на фотографии. Для каждого изображения есть набор признаков, которые были выделены каким-нибудь признаком, будь то Хаар, HOG, SURF или какой-нибудь вейвлет. Алгоритм обучения должен построить такую модель, по которой он сумеет проанализировать новое изображение и принять решение, какой из объектов имеется на изображении.
Как это делается? Каждое из тестовых изображений - это точка в пространстве признаков. Её координаты это вес каждого из признаков на изображении. Пусть нашими признаками будут: «Наличие глаз», «Наличие носа», «Наличие двух рук», «Наличие ушей», и.т.д… Все эти признаки мы выделим существующими у нас детекторами, которые обучены на части тела, похожие на людские. Для человека в таком пространстве будет корректной точка . Для обезьяны точка для лошади . Классификатор обучается по выборке примеров. Но не на всех фотографиях выделились руки, на других нет глаз, а на третьей у обезьяны из-за ошибки классификатора появился человеческий нос. Обучаемый классификатор человека автоматически разбивает пространство признаков таким образом, чтобы сказать: если первый признак лежит в диапазоне 0.5 По существу цель классификатора - отрисовать в пространстве признаков области, характеристические для объектов классификации. Вот так будет выглядеть последовательное приближение к ответу для одного из классификаторов (AdaBoost) в двумерном пространстве:

Существует очень много классификаторов. Каждый из них лучше работает в какой-то своей задачке. Задача подбора классификатора к конкретной задаче это во многом искусство. Вот немножко красивых картинок на тему.

Разберём на примере самый простой случай классификации, когда пространство признака одномерное, а нам нужно разделить 2 класса. Ситуация встречается чаще, чем может представиться: например, когда нужно отличить два сигнала, или сравнить паттерн с образцом. Пусть у нас есть обучающая выборка. При этом получается изображение, где по оси X будет мера похожести, а по оси Y -количество событий с такой мерой. Когда искомый объект похож на себя - получается левая гауссиана. Когда не похож - правая. Значение X=0.4 разделяет выборки так, что ошибочное решение минимизирует вероятность принятия любого неправильного решения. Именно поиском такого разделителя и является задача классификации.

Маленькая ремарка. Далеко не всегда оптимальным будет тот критерий, который минимизирует ошибку. Следующий график - это график реальной системы распознавания по радужной оболочке. Для такой системы критерий выбирается такой, чтобы минимизировать вероятность ложного пропуска постороннего человека на объект. Такая вероятность называется «ошибка первого рода», «вероятность ложной тревоги», «ложное срабатывание». В англоязычной литературе «False Access Rate ».
) АдаБуста - один из самых распространённых классификаторов. Например каскад Хаара построен именно на нём. Обычно используют когда нужна бинарная классификация, но ничего не мешает обучить на большее количество классов.
SVM ( , , , ) Один из самых мощных классификаторов, имеющий множество реализаций. В принципе, на задачах обучения, с которыми я сталкивался, он работал аналогично адабусте. Считается достаточно быстрым, но его обучение сложнее, чем у Адабусты и требуется выбор правильного ядра.

Ещё есть нейронные сети и регрессия. Но чтобы кратко их классифицировать и показать, чем они отличаются, нужна статья куда больше, чем эта.
________________________________________________
Надеюсь, у меня получилось сделать беглый обзор используемых методов без погружения в математику и описание. Может, кому-то это поможет. Хотя, конечно, статья неполна и нет ни слова ни о работе со стереоизображениями, ни о МНК с фильтром Калмана, ни об адаптивном байесовом подходе.
Если статья понравится, то попробую сделать вторую часть с подборкой примеров того, как решаются существующие задачки ImageRecognition.

Что почитать?
1) Когда-то мне очень понравилась книга «Цифровая обработка изображений» Б. Яне, которая написана просто и понятно, но в то же время приведена почти вся математика. Хороша для того, чтобы ознакомиться с существующими методами.
2) Классикой жанра является Р Гонсалес, Р. Вудс " Цифровая обработка изображений ". Почему-то она мне далась сложнее, чем первая. Сильно меньше математики, зато больше методов и картинок.
3) «Обработка и анализ изображений в задачах машинного зрения» - написана на базе курса, читаемого на одной из кафедр ФизТеха. Очень много методов и их подробного описания. Но на мой взгляд в книге есть два больших минуса: книга сильно ориентирована на пакет софта, который к ней прилагается, в книге слишком часто описание простого метода превращается в математические дебри, из которых сложно вынести структурную схему метода. Зато авторы сделали удобный сайт, где представлено почти всё содержание - wiki.technicalvision.ru Добавить метки

И т. п. объектов , которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу.

Необходимость в таком распознавании возникает в самых разных областях - от военного дела и систем безопасности до оцифровки аналоговых сигналов.

Проблема распознавания образа приобрела выдающееся значение в условиях информационных перегрузок, когда человек не справляется с линейно-последовательным пониманием поступающих к нему сообщений, в результате чего его мозг переключается на режим одновременности восприятия и мышления, которому такое распознавание свойственно.

Неслучайно, таким образом, проблема распознавания образа оказалась в поле междисциплинарных исследований - в том числе в связи с работой по созданию искусственного интеллекта , а создание технических систем распознавания образа привлекает к себе всё большее внимание.

1 / 4

Введение в распознавание образов

Р.В. Шамин. Лекция № 6 Сети Хопфилда и Хемминга в задачах распознавания образов

[ДДШ-2016]: Нейронные сети и современное компьютерное зрение

Лекция 9. Экспоненциальное сглаживание. Распознавание образов: метод к-го ближайшего соседа

Можно выделить два основных направления :

Изучение способностей к распознаванию, которыми обладают живые существа, объяснение и моделирование их;
Развитие теории и методов построения устройств, предназначенных для решения отдельных задач в прикладных целях.

Распознавание образов - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных.

При постановке задач распознавания стараются пользоваться математическим языком, стремясь - в отличие от теории искусственных нейронных сетей , где основой является получение результата путём эксперимента, - заменить эксперимент логическими рассуждениями и математическими доказательствами .

Классическая постановка задачи распознавания образов : Дано множество объектов. Относительно них необходимо провести классификацию. Множество представлено подмножествами, которые называются классами. Заданы: информация о классах, описание всего множества и описание информации об объекте, принадлежность которого к определенному классу неизвестна. Требуется по имеющейся информации о классах и описании объекта установить - к какому классу относится этот объект.

Наиболее часто в задачах распознавания образов рассматриваются монохромные изображения , что дает возможность рассматривать изображение как функцию на плоскости. Если рассмотреть точечное множество на плоскости T {\displaystyle T} , где функция выражает в каждой точке изображения его характеристику - яркость, прозрачность, оптическую плотность, то такая функция есть формальная запись изображения.

Множество же всех возможных функций f (x , y) {\displaystyle f(x,y)} на плоскости T {\displaystyle T} - есть модель множества всех изображений X {\displaystyle X} . Вводя понятие сходства между образами можно поставить задачу распознавания. Конкретный вид такой постановки сильно зависит от последующих этапов при распознавании в соответствии с тем или иным подходом.

Для оптического распознавания образов можно применить метод перебора вида объекта под различными углами, масштабами, смещениями и т. д. Для букв нужно перебирать шрифт, свойства шрифта и т. д.

Второй подход - найти контур объекта и исследовать его свойства (связность, наличие углов и т. д.)

Ещё один подход - использовать искусственные нейронные сети . Этот метод требует либо большого количества примеров задачи распознавания (с правильными ответами), либо специальной структуры нейронной сети, учитывающей специфику данной задачи.

Ф. Розенблатт, вводя понятие о модели мозга , задача которой состоит в том, чтобы показать, как в некоторой физической системе, структура и функциональные свойства которой известны, могут возникать психологические явления, описал простейшие эксперименты по различению. Данные эксперименты целиком относятся к методам распознавания образов, но отличаются тем, что алгоритм решения не детерминированный.

Простейший эксперимент, на основе которого можно получить психологически значимую информацию о некоторой системе, сводится к тому, что модели предъявляются два различных стимула и требуется, чтобы она реагировала на них различным образом. Целью такого эксперимента может быть исследование возможности их спонтанного различения системой при отсутствии вмешательства со стороны экспериментатора, или, наоборот, изучение принудительного различения, при котором экспериментатор стремится обучить систему проводить требуемую классификацию.

В опыте с обучением персептрону обычно предъявляется некоторая последовательность образов, в которую входят представители каждого из классов, подлежащих различению. В соответствии с некоторым правилом модификации памяти правильный выбор реакции подкрепляется. Затем персептрону предъявляется контрольный стимул и определяется вероятность получения правильной реакции для стимулов данного класса. В зависимости от того, совпадает или не совпадает выбранный контрольный стимул с одним из образов, которые использовались в обучающей последовательности, получают различные результаты:

Если контрольный стимул не совпадает ни с одним из обучающих стимулов, то эксперимент связан не только с чистым различением , но включает в себя и элементы обобщения .
Если контрольный стимул возбуждает некоторый набор сенсорных элементов, совершенно отличных от тех элементов, которые активизировались при воздействии ранее предъявленных стимулов того же класса, то эксперимент является исследованием чистого обобщения .

Персептроны не обладают способностью к чистому обобщению, но они вполне удовлетворительно функционируют в экспериментах по различению, особенно если контрольный стимул достаточно близко совпадает с одним из образов, относительно которых персептрон уже накопил определенный опыт.

Распознавание штрих-кодов
Распознавание автомобильных номеров
Распознавание изображений
Распознавание локальных участков земной коры, в которых находятся месторождения

→

Распознавание представляет собой информационный процесс, реализуемый некоторым преобразователем информации (интеллектуальным информационным каналом, системой распознавания), имеющим вход и выход. На вход системы подается информация о том, какими признаками обладают предъявляемые объекты. На выходе системы отображается информация о том, к каким классам (обобщенным образам) отнесены распознаваемые объекты.

При создании и эксплуатации автоматизированной системы распознавания образов решается ряд задач. Рассмотрим кратко и упрощенно эти задачи. Отметим, что у различных авторов формулировки этих задач, да и сам набор не совпадают, так как он в определенной степени зависит от конкретной математической модели, на которой основана та или иная система распознавания. Кроме того, некоторые задачи в определенных моделях распознавания не имеют решения и, соответственно, не ставятся.

По сути это задача является задачей кодирования. Составляется список обобщенных классов, к которым могут относиться конкретные реализации объектов, а также список признаков, которыми эти объекты в принципе могут обладать.

Обучающая выборка представляет собой базу данных, содержащую описания конкретных реализаций объектов на языке признаков, дополненную информацией о принадлежности этих объектов к определенным классам распознавания.

Обучающая выборка используется для формирования обобщенных образов классов распознавания на основе обобщения информации о том, какими признаками обладают объекты обучающей выборки, относящиеся к этому классу и другим классам.

После обучения системы распознавания (получения статистики распределения частот признаков по классам) становится возможным определить для каждого признака его ценность для решения задачи распознавания. После этого наименее ценные признаки могут быть удалены из системы признаков. Затем система распознавания должна быть обучена заново, так как в результате удаления некоторых признаков статистика распределения оставшихся признаков по классам изменяется. Этот процесс может повторяться, т.е. быть итерационным.

Распознаются объекты распознаваемой выборки, которая, в частности, может состоять и из одного объекта. Распознаваемая выборка формируется аналогично обучающей, но не содержит информации о принадлежности объектов к классам, так как именно это и определяется в процессе распознавания. Результатом распознавания каждого объекта является распределение или список всех классов распознавания в порядке убывания степени сходства распознаваемого объекта с ними.

После распознавания может быть установлена его адекватность. Для объектов обучающей выборки это может быть сделано сразу, так как для них просто известно, к каким классам они относятся. Для других объектов эта информация может быть получена позже. В любом случае может быть определена фактическая средняя вероятность ошибки по всем классам распознавания, а также вероятность ошибки при отнесении распознаваемого объекта к определенному классу.

Результаты распознавания должны интерпретироваться с учетом имеющейся информации о качестве распознавания.

Если в результате выполнения процедуры контроля качества установлено, что оно неудовлетворительное, то описания неправильно распознанных объектов могут быть скопированы из распознаваемой выборки в обучающую, дополнены адекватной классификационной информацией и использованы для переформирования решающих правил, т.е. учтены. Более того, если эти объекты не относятся к уже имеющимся классам распознавания, что и могло быть причиной их неверного распознавания, то этот список может быть расширен. В результате система распознавания адаптируется и начинает адекватно классифицировать эти объекты.

Задача распознавания состоит в том, что для данного объекта по его известным признакам системой устанавливается его принадлежность к некоторому ранее неизвестному классу. В обратной задаче распознавания, наоборот, для данного класса распознавания системой устанавливается, какие признаки наиболее характерны для объектов данного класса, а какие нет (или какие объекты обучающей выборки относятся к данному классу).

Кластерами называются такие группы объектов, классов или признаков, что внутри каждого кластера они максимально сходны, а между разными кластерами — максимально различны.

Конструктом (в контексте, рассматриваемом в данном разделе) называется система противоположных кластеров. Таким образом, в определенном смысле конструкты есть результат кластерного анализа кластеров.

В кластерном анализе количественно измеряется степень сходства и различия объектов (классов, признаков), и эта информация используется для классификации. Результатом кластерного анализа является сама классификация объектов по кластерам. Эта классификация может быть представлена в форме семантических сетей.

В когнитивном анализе информация о сходстве и различии классов или признаков интересует исследователя сама по себе, а не для того, чтобы использовать ее для классификации, как в кластерном и конструктивном анализе.

Если для двух классов распознавания является характерным один и тот же признак, то это вносит вклад в сходство этих двух классов. Если же для одного из классов этот признак является нехарактерным, то это вносит вклад в различие.

Если два признака коррелируют друг с другом, то в определенном смысле их можно рассматривать как один признак, а если антикоррелируют, то как различные. С учетом этого обстоятельства наличие различных признаков у разных классов также вносит определенный вклад в их сходство и различие.

Результаты когнитивного анализа могут быть представлены в форме когнитивных диаграмм.

Распознаванием образов называются задачи построения и применения формальных операций над числовыми или символьными отображениями объектов реального или идеального мира, результаты решения которых отражают отношения эквивалентности между этими объектами. Отношения эквивалентности выражают принадлежность оцениваемых объектов к каким-либо классам, рассматриваемым как самостоятельные семантические единицы.

При построении алгоритмов распознавания классы эквивалентности могут задаваться исследователем, который пользуется собственными содержательными представлениями или использует внешнюю дополнительную информацию о сходстве и различии объектов в контексте решаемой задачи. Тогда говорят о «распознавании с учителем» . В противном случае, т.е. когда автоматизированная система решает задачу классификации без привлечения внешней обучающей информации, говорят об автоматической классификации или «распознавании без учителя». Большинство алгоритмов распознавания образов требует привлечения весьма значительных вычислительных мощностей, которые могут быть обеспечены только высокопроизводительной компьютерной техникой.

Различные авторы (Ю.Л. Барабаш , В.И. Васильев , А.Л. Горелик, В.А. Скрипкин , Р. Дуда, П. Харт , Л.Т. Кузин , Ф.И. Перегудов, Ф.П. Тарасенко , Ф.Е. Темников , Дж. Ту, Р. Гонсалес , П. Уинстон , К. Фу , Я.З. Цыпкин и др.) дают различную типологию методов распознавания образов. Одни авторы различают параметрические, непараметрические и эвристические методы, другие — выделяют группы методов, исходя из исторически сложившихся школ и направлений в данной области. Например, в работе , в которой дан академический обзор методов распознавания, используется следующая типология методов распознавания образов:

методы, основанные на принципе разделения;
статистические методы;
методы, построенные на основе «потенциальных функций»;
методы вычисления оценок (голосования);
методы, основанные на исчислении высказываний, в частности на аппарате алгебры логики.

В основе данной классификации лежит различие в формальных методах распознавания образов и поэтому опущено рассмотрение эвристического подхода к распознаванию, получившего полное и адекватное развитие в экспертных системах. Эвристический подход основан на трудно формализуемых знаниях и интуиции исследователя. При этом исследователь сам определяет, какую информацию и каким образом система должна использовать для достижения требуемого эффекта распознавания.

Подобная типология методов распознавания с той или иной степенью детализации встречается во многих работах по распознаванию. В то же время известные типологии не учитывают одну очень существенную характеристику, которая отражает специфику способа представления знаний о предметной области с помощью какого-либо формального алгоритма распознавания образов.

Д.А.Поспелов (1990) выделяет два основных способа представления знаний :

интенсиональное, в виде схемы связей между атрибутами (признаками).
экстенсиональное, с помощью конкретных фактов (объекты, примеры).

Интенсиональное представление фиксируют закономерности и связи, которыми объясняется структура данных. Применительно к диагностическим задачам такая фиксация заключается в определении операций над атрибутами (признаками) объектов, приводящих к требуемому диагностическому результату. Интенсиональные представления реализуются посредством операций над значениями атрибутов и не предполагают произведения операций над конкретными информационными фактами (объектами).

В свою очередь, экстенсиональные представления знаний связаны с описанием и фиксацией конкретных объектов из предметной области и реализуются в операциях, элементами которых служат объекты как целостные системы.

Можно провести аналогию между интенсиональными и экстенсиональными представлениями знаний и механизмами, лежащими в основе деятельности левого и правого полушарий головного мозга человека. Если для правого полушария характерна целостная прототипная репрезентация окружающего мира, то левое полушарие оперирует закономерностями, отражающими связи атрибутов этого мира .

Описанные выше два фундаментальных способа представления знаний позволяют предложить следующую классификацию методов распознавания образов:

интенсиональные методы, основанные на операциях с признаками.
экстенсиональные методы, основанные на операциях с объектами.

Необходимо особо подчеркнуть, что существование именно этих двух (и только двух) групп методов распознавания: оперирующих с признаками, и оперирующих с объектами, глубоко закономерно. С этой точки зрения ни один из этих методов, взятый отдельно от другого, не позволяет сформировать адекватное отражение предметной области. По мнению авторов, между этими методами существует отношение дополнительности в смысле Н.Бора , поэтому перспективные системы распознавания должны обеспечивать реализацию обоих этих методов, а не только какого-либо одного из них.

Таким образом, в основу классификации методов распознавания, предложенной Д. А. Поспеловым, положены фундаментальные закономерности, лежащие в основе человеческого способа познания вообще, что ставит ее в совершенно особое (привилегированное) положение по сравнению с другими классификациями, которые на этом фоне выглядят более легковесными и искусственными.

Отличительной особенностью интенсиональных методов является то, что в качестве элементов операций при построении и применении алгоритмов распознавания образов они используют различные характеристики признаков и их связей. Такими элементами могут быть отдельные значения или интервалы значений признаков, средние величины и дисперсии, матрицы связей признаков и т. п., над которыми производятся действия, выражаемые в аналитической или конструктивной форме. При этом объекты в данных методах не рассматриваются как целостные информационные единицы, а выступают в роли индикаторов для оценки взаимодействия и поведения своих атрибутов.

Группа интенсиональных методов распознавания образов обширна, и ее деление на подклассы носит в определенной мере условный характер.

Эти методы распознавания образов заимствованы из классической теории статистических решений, в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону. Они базируются на байесовской схеме принятия решений, апеллирующей к априорным вероятностям принадлежности объектов к тому или иному распознаваемому классу и условным плотностям распределения значений вектора признаков. Данные методы сводятся к определению отношения правдоподобия в различных областях многомерного пространства признаков.

Группа методов, основанных на оценке плотностей распределения значений признаков, имеет прямое отношение к методам дискриминантного анализа. Байесовский подход к принятию решений и относится к наиболее разработанным в современной статистике так называемым параметрическим методам, для которых считается известным аналитическое выражение закона распределения (в данном случае нормальный закон) и требуется оценить лишь небольшое количество параметров (векторы средних значений и ковариационные матрицы).

Основными трудностями применения указанных методов считаются необходимость запоминания всей обучающей выборки для вычисления оценок локальных плотностей распределения вероятностей и высокая чувствительность к непредставительности обучающей выборки.

В данной группе методов считается известным общий вид решающей функции и задан функционал ее качества. На основании этого функционала по обучающей последовательности находят наилучшее приближение решающей функции . Самыми распространенными являются представления решающих функций в виде линейных и обобщенных нелинейных полиномов. Функционал качества решающего правила обычно связывают с ошибкой классификации.

Основным достоинством методов, основанных на предположениях о классе решающих функций, является ясность математической постановки задачи распознавания, как задачи поиска экстремума. Многообразие методов этой группы объясняется широким спектром используемых функционалов качества решающего правила и алгоритмов поиска экстремума. Обобщением рассматриваемых алгоритмов, к которым относятся, в частности, алгоритм Ньютона, алгоритмы перцептронного типа и др., является метод стохастической аппроксимации.

Возможности градиентных алгоритмов поиска экстремума, особенно в группе линейных решающих правил, достаточно хорошо изучены. Сходимость этих алгоритмов доказана только для случая, когда распознаваемые классы объектов отображаются в пространстве признаков компактными геометрическими структурами.

Достаточно высокое качество решающего правила может быть достигнуто с помощью алгоритмов, не имеющих строгого математического доказательства сходимости решения к глобальному экстремуму. К таким алгоритмам относится большая группа процедур эвристического программирования, представляющих направление эволюционного моделирования. Эволюционное моделирование является бионическим методом, заимствованным у природы. Оно основано на использовании известных механизмов эволюции с целью замены процесса содержательного моделирования сложного объекта феноменологическим моделированием его эволюции. Известным представителем эволюционного моделирования в распознавании образов является метод группового учета аргументов (МГУА) . В основу МГУА положен принцип самоорганизации, и алгоритмы МГУА воспроизводят схему массовой селекции.

Однако достижению практических целей в данном случае не сопутствует извлечение новых знаний о природе распознаваемых объектов. Возможность извлечения этих знаний, в частности знаний о механизмах взаимодействия атрибутов (признаков), здесь принципиально ограничена заданной структурой такого взаимодействия, зафиксированной в выбранной форме решающих функций.

Логические методы распознавания образов базируются на аппарате алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. В этих методах значения какого-либо признака рассматриваются как элементарные события .

В самом общем виде логические методы можно охарактеризовать как разновидность поиска по обучающей выборке логических закономерностей и формирование некоторой системы логических решающих правил (например, в виде конъюнкций элементарных событий), каждое из которых имеет собственный вес. Группа логических методов разнообразна и включает методы различной сложности и глубины анализа. Для дихотомических (булевых) признаков популярными являются так называемые древообразные классификаторы, метод тупиковых тестов, алгоритм «Кора» и др.

Алгоритм «Кора», как и другие логические методы распознавания образов, является достаточно трудоемким в вычислительном отношении, поскольку при отборе конъюнкций необходим полный перебор. Поэтому при применении логических методов предъявляются высокие требования к эффективной организации вычислительного процесса, и эти методы хорошо работают при сравнительно небольших размерностях пространства признаков и только на мощных компьютерах.

Лингвистические методы распознавания образов основаны на использовании специальных грамматик, порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов .

Для различных классов объектов выделяются непроизводные (атомарные) элементы (подобразы, признаки) и возможные отношения между ними. Грамматикой называют правила построения объектов из этих непроизводных элементов.

Таким образом, каждый объект представляет собой совокупность непроизводных элементов, «соединенных» между собой теми или иными способами или, другими словами, «предложением» некоторого «языка». Хотелось бы особо подчеркнуть очень значительную мировоззренческую ценность этой мысли .

Путем синтаксического анализа (грамматического разбора) «предложения» определяется его синтаксическая «правильность» или, что эквивалентно, может ли некоторая фиксированная грамматика, описывающая класс, породить имеющееся описание объекта.

Однако задача восстановления (определения) грамматик по некоторому множеству высказываний (предложений — описаний объектов), порождающих данный язык, является трудно формализуемой.

В методах данной группы, в отличие от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. По своей сути эти методы близки к клиническому подходу, который рассматривает людей не как проранжированную по тому или иному показателю цепочку объектов, а как целостные системы, каждая из которых индивидуальна и имеет особенную диагностическую ценность . Такое бережное отношение к объектам исследования не позволяет исключать или утрачивать информацию о каждом отдельном объекте, что происходит при применении методов интенсионального направления, использующих объекты только для обнаружения и фиксации закономерностей поведения их атрибутов.

Основными операциями в распознавании образов с помощью обсуждаемых методов являются операции определения сходства и различия объектов. Объекты в указанной группе методов играют роль диагностических прецедентов. При этом в зависимости от условий конкретной задачи роль отдельного прецедента может меняться в самых широких пределах: от главной и определяющей и до весьма косвенного участия в процессе распознавания. В свою очередь условия задачи могут требовать для успешного решения участия различного количества диагностических прецедентов: от одного в каждом распознаваемом классе до полного объема выборки, а также разных способов вычисления мер сходства и различия объектов. Этими требованиями объясняется дальнейшее разделение экстенсиональных методов на подклассы.

Это наиболее простой экстенсиональный метод распознавания. Он применяется, например, в том случае, когда распознаваемые классы отображаются в пространстве признаков компактными геометрическими группировками. В таком случае обычно в качестве точки — прототипа выбирается центр геометрической группировки класса (или ближайший к центру объект).

Для классификации неизвестного объекта находится ближайший к нему прототип, и объект относится к тому же классу, что и этот прототип. Очевидно, никаких обобщенных образов классов в данном методе не формируется.

В качестве меры близости могут применяться различные типы расстояний. Часто для дихотомических признаков используется расстояние Хэмминга, которое в данном случае равно квадрату евклидова расстояния. При этом решающее правило классификации объектов эквивалентно линейной решающей функции.

Указанный факт следует особо отметить. Он наглядно демонстрирует связь прототипной и признаковой репрезентации информации о структуре данных. Пользуясь приведенным представлением, можно, например, любую традиционную измерительную шкалу, являющуюся линейной функцией от значений дихотомических признаков, рассматривать как гипотетический диагностический прототип. В свою очередь, если анализ пространственной структуры распознаваемых классов позволяет сделать вывод об их геометрической компактности, то каждый из этих классов достаточно заменить одним прототипом, который фактически эквивалентен линейной диагностической модели.

На практике, безусловно, ситуация часто бывает отличной от описанного идеализированного примера. Перед исследователем, намеревающимся применить метод распознавания, основанный на сравнении с прототипами диагностических классов, встают непростые проблемы.

Во-первых, это выбор меры близости (метрики), от которого может существенно измениться пространственная конфигурация распределения объектов. Во-вторых, самостоятельной проблемой является анализ многомерных структур экспериментальных данных. Обе эти проблемы особенно остро встают перед исследователем в условиях высокой размерности пространства признаков, характерной для реальных задач.

Метод k ближайших соседей для решения задач дискриминантного анализа был впервые предложен еще в 1952 году . Он заключается в следующем.

При классификации неизвестного объекта находится заданное число (k) геометрически ближайших к нему в пространстве признаков других объектов (ближайших соседей) с уже известной принадлежностью к распознаваемым классам. Решение об отнесении неизвестного объекта к тому или иному диагностическому классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов.

Первоначально метод k ближайших соседей рассматривался как непараметрический метод оценивания отношения правдоподобия. Для этого метода получены теоретические оценки его эффективности в сравнении с оптимальным байесовским классификатором. Доказано, что асимптотические вероятности ошибки для метода k ближайших соседей превышают ошибки правила Байеса не более чем в два раза.

При использовании метода k ближайших соседей для распознавания образов исследователю приходится решать сложную проблему выбора метрики для определения близости диагностируемых объектов. Эта проблема в условиях высокой размерности пространства признаков чрезвычайно обостряется вследствие достаточной трудоемкости данного метода, которая становится значимой даже для высокопроизводительных компьютеров. Поэтому здесь так же, как и в методе сравнения с прототипом, необходимо решать творческую задачу анализа многомерной структуры экспериментальных данных для минимизации числа объектов, представляющих диагностические классы.

Необходимость уменьшения числа объектов в обучающей выборке (диагностических прецедентов) является недостатком данного метода, так как уменьшает представительность обучающей выборки.

Принцип действия алгоритмов вычисления оценок (АВО) состоит в вычислении приоритетов (оценок сходства), характеризующих «близость» распознаваемого и эталонных объектов по системе ансамблей признаков, представляющей собой систему подмножеств заданного множества признаков.

В отличие от всех ранее рассмотренных методов алгоритмы вычисления оценок принципиально по-новому оперируют описаниями объектов. Для этих алгоритмов объекты существуют одновременно в самых разных подпространствах пространства признаков. Класс АВО доводит идею использования признаков до логического конца: поскольку не всегда известно, какие сочетания признаков наиболее информативны, то в АВО степень сходства объектов вычисляется при сопоставлении всех возможных или определенных сочетаний признаков, входящих в описания объектов .

Используемые сочетания признаков (подпространства) авторы называют опорными множествами или множествами частичных описаний объектов. Вводится понятие обобщенной близости между распознаваемым объектом и объектами обучающей выборки (с известной классификацией), которые называют эталонными объектами. Эта близость представляется комбинацией близостей распознаваемого объекта с эталонными объектами, вычисленных на множествах частичных описаний. Таким образом, АВО является расширением метода k ближайших соседей, в котором близость объектов рассматривается только в одном заданном пространстве признаков.

Еще одним расширением АВО является то, что в данных алгоритмах задача определения сходства и различия объектов формулируется как параметрическая и выделен этап настройки АВО по обучающей выборке, на котором подбираются оптимальные значения введенных параметров. Критерием качества служит ошибка распознавания, а параметризуется буквально все:

правила вычисления близости объектов по отдельным признакам;
правила вычисления близости объектов в подпространствах признаков;
степень важности того или иного эталонного объекта как диагностического прецедента;
значимость вклада каждого опорного множества признаков в итоговую оценку сходства распознаваемого объекта с каким-либо диагностическим классом.

Параметры АВО задаются в виде значений порогов и (или) как веса указанных составляющих.

Теоретические возможности АВО по крайней мере не ниже возможностей любого другого алгоритма распознавания образов, так как с помощью АВО могут быть реализованы все мыслимые операции с исследуемыми объектами.

Но, как это обычно бывает, расширение потенциальных возможностей наталкивается на большие трудности при их практическом воплощении, особенно на этапе построения (настройки) алгоритмов данного типа.

Отдельные трудности отмечались ранее при обсуждении метода k ближайших соседей, который можно было интерпретировать как усеченный вариант АВО. Его тоже можно рассматривать в параметрическом виде и свести задачу к поиску взвешенной метрики выбранного типа. В то же время уже здесь для высокоразмерных задач возникают сложные теоретические вопросы и проблемы, связанные с организацией эффективного вычислительного процесса.

Для АВО, если попытаться использовать возможности данных алгоритмов в полном объеме, указанные трудности возрастают многократно.

Отмеченные проблемы объясняют то, что на практике применение АВО для решения высокоразмерных задач сопровождается введением каких-либо эвристических ограничений и допущений. В частности, известен пример использования АВО в психодиагностике, в котором апробирована разновидность АВО, фактически эквивалентная методу k ближайших соседей.

В завершение обзора методов распознавания образов остановимся еще на одном подходе. Это так называемые коллективы решающих правил (КРП) .

Так как различные алгоритмы распознавания проявляют себя по-разному на одной и той же выборке объектов, то закономерно встает вопрос о синтетическом решающем правиле, адаптивно использующем сильные стороны этих алгоритмов. В синтетическом решающем правиле применяется двухуровневая схема распознавания. На первом уровне работают частные алгоритмы распознавания, результаты которых объединяются на втором уровне в блоке синтеза. Наиболее распространенные способы такого объединения основаны на выделении областей компетентности того или иного частного алгоритма. Простейший способ нахождения областей компетентности заключается в априорном разбиении пространства признаков исходя из профессиональных соображений конкретной науки (например расслоение выборки по некоторому признаку). Тогда для каждой из выделенных областей строится собственный распознающий алгоритм. Другой способ базируется на применении формального анализа для определения локальных областей пространства признаков как окрестностей распознаваемых объектов, для которых доказана успешность работы какого-либо частного алгоритма распознавания.

Самый общий подход к построению блока синтеза рассматривает результирующие показатели частных алгоритмов как исходные признаки для построения нового обобщенного решающего правила. В этом случае могут использоваться все перечисленные выше методы интенсионального и экстенсионального направлений в распознавании образов. Эффективными для решения задачи создания коллектива решающих правил являются логические алгоритмы типа «Кора» и алгоритмы вычисления оценок (АВО), положенные в основу так называемого алгебраического подхода, обеспечивающего исследование и конструктивное описание алгоритмов распознавания, в рамки которого укладываются все существующие типы алгоритмов .

Сравним описанные выше методы распознавания образов и оценим степень их адекватности сформулированным в разделе 3.3.3 требованиям к моделям СОУ для адаптивных АСУ сложными системами.

Для решения реальных задач из группы методов интенсионального направления практическую ценность представляют параметрические методы и методы, основанные на предложениях о виде решающих функций. Параметрические методы составляют основу традиционной методологии конструирования показателей. Применение этих методов в реальных задачах связано с наложением сильных ограничений на структуру данных, которые приводят к линейным диагностическим моделям с очень приблизительными оценками их параметров. При использовании методов, основанных на предположениях о виде решающих функций, исследователь также вынужден обращаться к линейным моделям. Это обусловлено высокой размерностью пространства признаков, характерной для реальных задач, которая при повышении степени полиноминальной решающей функции дает огромный рост числа ее членов при проблематичном сопутствующем повышении качества распознавания. Таким образом, спроецировав область потенциального применения интенсиональных методов распознавания на реальную проблематику, получим картину, соответствующую хорошо отработанной традиционной методологии линейных диагностических моделей.

Свойства линейных диагностических моделей, в которых диагностический показатель представлен взвешенной суммой исходных признаков, хорошо изучены. Результаты этих моделей (при соответствующем нормировании) интерпретируются как расстояния от исследуемых объектов до некоторой гиперплоскости в пространстве признаков или, что эквивалентно, как проекции объектов на некоторую прямую линию в данном пространстве. Поэтому линейные модели адекватны только простым геометрическим конфигурациям областей пространства признаков, в которые отображаются объекты разных диагностических классов. При более сложных распределениях эти модели принципиально не могут отражать многие особенности структуры экспериментальных данных. В то же время такие особенности способны нести ценную диагностическую информацию.

Вместе с тем появление в какой-либо реальной задаче простых многомерных структур (в частности, многомерных нормальных распределений) следует скорее расценивать как исключение, чем как правило. Часто диагностические классы формируются на основе сложносоставных внешних критериев, что автоматически влечет за собой геометрическую неоднородность данных классов в пространстве признаков. Это особенно касается «жизненных», наиболее часто встречающихся на практике критериев. В таких условиях применение линейных моделей фиксирует только самые «грубые» закономерности экспериментальной информации.

Применение экстенсиональных методов не связано с каким-либо предположениями о структуре экспериментальной информации, кроме того, что внутри распознаваемых классов должны существовать одна или несколько групп чем-то похожих объектов, а объекты разных классов должны чем-то отличаться друг от друга. Очевидно, что при любой конечной размерности обучающей выборки (а другой она быть и не может) это требование выполняется всегда просто по той причине, что существуют случайные различия между объектами. В качестве мер сходства применяются различные меры близости (расстояния) объектов в пространстве признаков. Поэтому эффективное использование экстенсиональных методов распознавания образов зависит от того, насколько удачно определены указанные меры близости, а также от того, какие объекты обучающей выборки (объекты с известной классификацией) выполняют роль диагностических прецедентов. Успешное решение данных задач дает результат, приближающийся к теоретически достижимым пределам эффективности распознавания.

Достоинствам экстенсиональных методов распознавания образов противопоставлена, в первую очередь, высокая техническая сложность их практического воплощения. Для высокоразмерных пространств признаков внешне простая задача нахождения пар ближайших точек превращается в серьезную проблему. Также многие авторы отмечают в качестве проблемы необходимость запоминания достаточно большого количества объектов, представляющих распознаваемые классы.

Само по себе это не является проблемой, однако воспринимается как проблема (например, в методе k ближайших соседей) по той причине, что при распознавании каждого объекта происходит полный перебор всех объектов обучающей выборки.

Поэтому целесообразно применить модель системы распознавания, в которой проблема полного перебора объектов обучающей выборки при распознавании снимается, так как он осуществляется лишь один раз при формировании обобщенных образов классов распознавания. При самом же распознавании осуществляется сравнение идентифицируемого объекта лишь с обобщенными образами классов распознавания, количество которых фиксировано и совершенно не зависит от размерности обучающей выборки. Данный подход позволяет увеличивать размерность обучающей выборки до тех пор, пока не будет достигнуто требуемое высокое качество обобщенных образов, совершенно при этом не опасаясь, что это может привести к неприемлемому увеличению времени распознавания (так как время распознавания в данной модели вообще не зависит от размерности обучающей выборки).

Теоретические проблемы применения экстенсиональных методов распознавания связаны с проблемами поиска информативных групп признаков, нахождения оптимальных метрик для измерения сходства и различия объектов и анализа структуры экспериментальной информации. В то же время успешное решение перечисленных проблем позволяет не только конструировать эффективные распознающие алгоритмы, но и осуществлять переход от экстенсионального знания эмпирических фактов к интенсиональному знанию о закономерностях их структуры.

Переход от экстенсионального знания к интенсиональному происходит на той стадии, когда формальный алгоритм распознавания уже сконструирован и его эффективность продемонстрирована. Тогда производится изучение механизмов, за счет которых достигается полученная эффективность. Такое изучение, связанное с анализом геометрической структуры данных, может, например, привести к выводу о том, что достаточно заменить объекты, представляющие тот или иной диагностический класс, одним типичным представителем (прототипом). Это эквивалентно, как отмечалось выше, заданию традиционной линейной диагностической шкалы. Также возможно, что каждый диагностический класс достаточно заменить несколькими объектами, осмысленными как типичные представители некоторых подклассов, что эквивалентно построению веера линейных шкал. Возможны и другие варианты, которые будут рассмотрены ниже.

Таким образом, обзор методов распознавания показывает, что в настоящее время теоретически разработан целый ряд различных методов распознавания образов. В литературе приводится развернутая их классификация. Однако для большинства этих методов их программная реализация отсутствует, и это глубоко закономерно, можно даже сказать «предопределено» характеристиками самих методов распознавания. Об этом можно судить по тому, что такие системы мало упоминаются в специальной литературе и других источниках информации.

Следовательно, остается недостаточно разработанным вопрос о практической применимости тех или иных теоретических методов распознавания для решения практических задач при реальных (т.е. довольно значительных) размерностях данных и на реальных современных компьютерах.

Вышеупомянутое обстоятельство может быть понято, если напомнить, что сложность математической модели экспоненциально увеличивает трудоемкость программной реализации системы и в такой же степени уменьшает шансы на то, что эта система будет практически работать. Это означает, что реально на рынке можно реализовать только такие программные системы, в основе которых лежат достаточно простые и «прозрачные» математические модели. Поэтому разработчик, заинтересованный в тиражировании своего программного продукта, подходит к вопросу о выборе математической модели не с чисто научной точки зрения, а как прагматик, с учетом возможностей программной реализации. Он считает, что модель должна быть как можно более простой, а значит реализоваться с меньшими затратами и более качественно, а также должна обязательно работать (быть практически эффективной).

В этой связи особенно актуальной представляется задача реализации в системах распознавания механизма обобщения описаний объектов, относящихся к одному классу, т.е. механизма формирования компактных обобщенных образов. Очевидно, что такой механизм обобщения позволит «сжать» любую по размерности обучающую выборку к заранее известной по размерности базе обобщенных образов. Это позволит также поставить и решить ряд задач, которые даже не могут быть сформулированы в таких методах распознавания, как метод сравнения с прототипом, метод k ближайших соседей и АВО.

Это задачи:

определения информационного вклада признаков в информационный портрет обобщенного образа;
кластерно-конструктивный анализ обобщенных образов;
определение семантической нагрузки признака;
семантический кластерно-конструктивный анализ признаков;
содержательное сравнение обобщенных образов классов друг с другом и признаков друг с другом (когнитивные диаграммы, в т.ч. диаграммы Мерлина ).

Метод, который позволил достичь решения этих задач, также отличает основанную на нем перспективную систему от других систем, как компиляторы отличаются от интерпретаторов, так как благодаря формированию обобщенных образов в этой перспективной системе достигается независимость времени распознавания от объемов обучающей выборки. Известно, что именно существование этой зависимости приводит к практически неприемлемым затратам машинного времени на распознавание в таких методах, как метод k ближайших соседей, АВО и КРП при таких размерностях обучающей выборки, когда можно говорить о достаточной статистике.

В заключение краткого обзора методов распознавания представим суть вышеизложенного в сводной таблице (табл. 3.1), содержащей краткую характеристику различных методов распознавания образов по следующим параметрам:

классификация методов распознавания;
области применения методов распознавания;
классификация ограничений методов распознавания.

Классификация методов распознавания		Область применения	Ограничения (недостатки)
Интенсиальные методы распознавания	Методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов)	Задачи с известным распределением, как правило, нормальным, необходимость набора большой статистики	Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к непредставительности обучающей выборки и артефактам
	Методы, основанные на предположениях о классе решающих функций	Классы должны быть хорошо разделяемыми, система признаков — ортонормированной	Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками
	Логические методы		При отборе логических решающих правил (коньюнкций) необходим полный перебор. Высокая вычислительная трудоемкость
	Лингвистические (структурные) методы	Задачи небольшой размерности пространства признаков	Задача восстановления (определения) грамматики по некоторому множеству высказываний (описаний объектов), является трудно формализуемой. Нерешенность теоретических проблем
Экстенсиальные методы распознавания	Метод сравнения с прототипом	Задачи небольшой размерности пространства признаков	Высокая зависимость результатов классификации от меры расстояния (метрики). Неизвестность оптимальной метрики
	Метод k ближайших соседей		Высокая зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость
	Алгоритмы вычисления оценок (голосования) АВО	Задачи небольшой размерности по количеству классов и признаков	Зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода
	Коллективы решающих правил (КРП)	Задачи небольшой размерности по количеству классов и признаков	Очень высокая техническая сложность метода, нерешенность ряда теоретических проблем, как при определении областей компетенции частных методов, так и в самих частных методах

Таблица 3.1 — Сводная таблица классификации методов распознавания, сравнения их областей применения и ограничений

Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы.

Управляющая система осуществляет следующие функции:

идентификация состояния объекта управления;
выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и среды;
оказание управляющего воздействия на объект управления.

Распознавание образов есть не что иное, как идентификация состояния некоторого объекта.

Следовательно, возможность применения системы распознавания образов на этапе идентификации состояния объекта управления представляется вполне очевидной и естественной. Однако в этом может не быть необходимости. Поэтому возникает вопрос, в каких случаях целесообразно применять систему распознавания в АСУ, а в каких нет.

По литературным данным во многих ранее разработанных и современных АСУ в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий используются детерминистские математические модели «прямого счета», которые однозначно и достаточно просто определяют, что делать с объектом управления, если у него наблюдаются определенные внешние параметры.

При этом не ставится и не решается вопрос о том, как связаны эти параметры с теми или иными состояниями объекта управления. Эта позиция соответствует точке зрения, состоящей в том, что «по умолчанию» принимается их взаимно —однозначная связь. Поэтому термины: «параметры объекта управления» и «состояния объекта управления» рассматриваются как синонимы, а понятие «состояние объекта управления» в явном виде вообще не вводится. Однако очевидно, что в общем случае связь между наблюдаемыми параметрами объекта управления и его состоянием имеет динамичный и вероятностный характер.

Таким образом, традиционные АСУ по сути дела являются системами параметрического управления, т.е. системами, которые управляют не состояниями объекта управления, а лишь его наблюдаемыми параметрами. Решение об управляющем воздействии принимается в таких системах как бы «вслепую», т.е. без формирования целостного образа объекта управления и окружающей среды в их текущем состоянии, а также без прогнозирования развития среды и реакции объекта управления на те или иные управляющие воздействия на него, действующие одновременно с прогнозируемым влиянием среды.

С позиций, развиваемых в данной работе, термин «принятие решений» в современном понимании едва ли вообще в полной мере применим к традиционным АСУ. Дело в том, что «принятие решений», как минимум, предполагает целостное видение объекта в окружающей среде, причем не только в их актуальном состоянии, но и в динамике, и во взаимодействии как друг с другом, так и с системой управления, предполагает рассмотрение различных альтернативных вариантов развития всей этой системы, а также сужение многообразия (редукцию) этих альтернатив на основе определенных целевых критериев. Ничего этого, очевидно, нет в традиционных АСУ, или есть, но в упрощенном виде.

Конечно, традиционный метод является адекватным и его применение вполне корректно и оправдано в тех случаях, когда объект управления действительно является стабильной и жестко детерминированной системой, а влиянием окружающей среды на него можно пренебречь.

Однако в других случаях этот метод малоэффективен.

Если объект управления динамичен, то модели, лежащие в основе алгоритмов управления им, быстро становятся неадекватными, так как изменяются отношения между входными и выходными параметрами, а также сам набор существенных параметров. По сути дела это означает, что традиционные АСУ способны управлять состоянием объекта управления лишь вблизи точки равновесия путем слабых управляющих воздействий на него, т.е. методом малых возмущений. Вдали же от состояния равновесия с традиционной точки зрения поведение объекта управления выглядит непредсказуемым и неуправляемым.

Если нет однозначной связи между входными и выходными параметрами объекта управления (т.е. между входными параметрами и состоянием объекта), иначе говоря, если эта связь имеет выраженный вероятностный характер, то детерминистские модели, в которых предполагается, что результатом измерения некоторого параметра является просто число, изначально неприменимы. Кроме того, вид этой связи просто может быть неизвестным, и тогда необходимо исходить из самого общего предположения: что она вероятностная, либо не определена совсем.

Автоматизированная система управления, построенная на традиционных принципах, может работать только на основе параметров, закономерности связей которых уже известны, изучены и отражены в математической модели, в данном же исследовании поставлена задача разработки таких методов проектирования АСУ, которые позволят создать системы, способные выявлять и набор наиболее значимых параметров, и определять характер связей между ними и состояниями объекта управления.

В этом случае необходимо применять более развитые и адекватные реальной ситуации методы измерений:

классификация или распознавание образов (обучение на основе обучающей выборки, адаптивность алгоритмов распознавания, адаптивность наборов классов и исследуемых параметров, выделение наиболее существенных параметров и снижение размерности описания при сохранении заданной избыточности и т.д.);
статистические измерения, когда результатом измерения некоторого параметра является не отдельное число, а вероятностное распределение: изменение статистической переменной означает не изменение ее значения самого по себе, а изменение характеристик вероятностного распределения ее значений.

В итоге АСУ, основанные на традиционном детерминистском подходе, практически не работают со сложными динамическими многопараметрическими слабодетерминированными объектами управления, такими, например, как макро- и микросоциально-экономические системы в условиях динамичной экономики «переходного периода», иерархические элитные и этнические группы, социум и электорат, физиология и психика человека, природные и искусственные экосистемы и многие другие.

Весьма знаменательно, что в середине 80-х годов школа И.Пригожина развивает подход , согласно которому в развитии любой системы (в том числе и человека) чередуются периоды, в течение которых система ведет себя то как «в основном детерминированная», то как «в основном случайная». Естественно, реальная система управления должна устойчиво управлять объектом управления не только на «детерминистских» участках его истории, но и в точках, когда его дальнейшее поведение становится в высокой степени неопределенным. Уже одно это означает, что необходимо разрабатывать подходы к управлению системами, в поведении которых есть большой элемент случайности (или того, что в настоящее время математически описывается как «случайность»).

Поэтому, в состав перспективных АСУ, обеспечивающих управление сложными динамическими многопараметрическими слабодетерминированными системами, в качестве существенных функциональных звеньев, по-видимому, войдут подсистемы идентификации и прогнозирования состояний среды и объекта управления, основанные на методах искусственного интеллекта (прежде всего распознавания образов), методах поддержки принятия решений и теории информации.

Кратко рассмотрим вопрос о применении систем распознавания образов для принятия решения об управляющем воздействии (подробнее этот вопрос будет рассмотрен далее, так как он является ключевым для данной работы). Если в качестве классов распознавания взять целевые и иные состояния объекта управления, а в качестве признаков — факторы, влияющие на него, то в модели распознавания образов может быть сформирована мера связи факторов и состояний. Это позволяет по заданному состоянию объекта управления получить информацию о факторах, которые способствуют или препятствуют его переходу в это состояние, и, на этой основе, выработать решение об управляющем воздействии.

Факторы могут быть разделены на следующие группы:

характеризующие предысторию объекта управления;
характеризующие актуальное состояние объекта управления;
факторы окружающей среды;
технологические (управляемые) факторы.

Таким образом, системы распознавания образов могут быть применены в составе АСУ: в подсистемах идентификации состояния объекта управления и выработки управляющих воздействий.

Это целесообразно в случае, когда объект управления представляет собой сложную систему.

Решение проблемы синтеза адаптивных АСУ сложными системами рассматривается в данной работе с учетом многочисленных и глубоких аналогий между методами распознавания образов и принятия решений.

С одной стороны, задача распознавания образов представляет собой принятие решения о принадлежности распознаваемого объекта к определенному классу распознавания.

С другой стороны, задачу принятия решения авторы предлагают рассматривать как обратную задачу декодирования или обратную задачу распознавания образов (см. раздел 2.2.2).

Особенно очевидной общность основных идей, лежащих в основе методов распознавания образов и принятия решений, становится при рассмотрении их с позиций теории информации.

Определение: принятие решения (»выбор») есть действие над множеством альтернатив, в результате которого исходное множество альтернатив сужается, т.е. происходит его редукция.

Выбор является действием, придающим всей деятельности целенаправленность. Именно через акты выбора реализуется подчиненность всей деятельности определенной цели или совокупности взаимосвязанных целей.

Таким образом, для того, чтобы стал возможен акт выбора, необходимо следующее:

порождение или обнаружение множества альтернатив, на котором предстоит совершить выбор;
определение целей, ради достижения которых осуществляется выбор;
разработка и применение способа сравнения альтернатив между собой, т.е. определение рейтинга предпочтения для каждой альтернативы согласно определенным критериям, позволяющим косвенно оценивать, насколько каждая альтернатива соответствует цели.

Современные работы в области поддержки принятия решений выявили характерную ситуацию, которая состоит в том, что полная формализация нахождения наилучшего (в определенном смысле) решения возможна только для хорошо изученных, относительно простых задач, тогда как на практике чаще встречаются слабо структурированные задачи, для которых полностью формализованных алгоритмов не разработано (если не считать полного перебора и метода проб и ошибок). Вместе с тем опытные, компетентные и способные специалисты часто делают выбор, который оказывается достаточно хорошим. Поэтому современная тенденция практики принятия решений в естественных ситуациях состоит в сочетании способности человека решать неформализованные задачи с возможностями формальных методов и компьютерного моделирования: диалоговые системы поддержки принятия решений, экспертные системы, адаптивные человеко-машинные автоматизированные системы управления, нейронные сети и когнитивные системы.

Процесс получения информации можно рассматривать как уменьшение неопределенности в результате приема сигнала, а количество информации — как количественную меру степени снятия неопределенности.

Но в результате выбора некоторого подмножества альтернатив из множества, т.е. в результате принятия решения, происходит тоже самое (уменьшение неопределенности). Это значит, что каждый выбор, каждое решение порождает определенное количество информации, а значит может быть описано в терминах теории информации.

Множественность задач принятия решений связана с тем, что каждая компонента ситуации, в которой осуществляется принятие решений, может реализовываться в качественно различных вариантах .

Перечислим только некоторые из этих вариантов:

множество альтернатив, с одной стороны, может быть конечным, счетным или континуальным, а с другой, — закрытым (т.е. известным полностью) или открытым (включающим неизвестные элементы);
оценка альтернатив может осуществляться по одному или нескольким критериям, которые, в свою очередь, могут иметь количественный или качественный характер;
режим выбора может быть однократным (разовым), или многократным, повторяющимся, включающим обратную связь по результатам выбора, т.е. допускающим обучение алгоритмов принятия решений с учетом последствий предыдущих выборов;
последствия выбора каждой альтернативы могут быть точно известны заранее (выбор в условиях определенности), иметь вероятностный характер, когда известны вероятности возможных исходов после сделанного выбора (выбор в условиях риска) или иметь неоднозначный исход с неизвестными вероятностями (выбор в условиях неопределенности);
ответственность за выбор может отсутствовать, быть индивидуальной или групповой;
степень согласованности целей при групповом выборе может варьироваться от полного совпадения интересов сторон (кооперативный выбор) до их противоположности (выбор в конфликтной ситуации). Возможны также промежуточные варианты: компромисс, коалиция, нарастающий или затухающий конфликт.

Различные сочетания перечисленных вариантов и приводят к многочисленным задачам принятия решений, которые изучены в различной степени.

Об одном и том же явлении можно говорить на различных языках различной степени общности и адекватности. К настоящему времени сложились три основных языка описания выбора.

Самым простым, наиболее развитым и наиболее популярным является критериальный язык .

Название этого языка связано с основным предположением, состоящим в том, что каждую отдельно взятую альтернативу можно оценить некоторым конкретным (одним) числом, после чего сравнение альтернатив сводится к сравнению соответствующих им чисел.

Пусть, например, {X} — множество альтернатив, а x — некоторая определенная альтернатива, принадлежащая этому множеству: x∈X. Тогда считается, что для всех x может быть задана функция q(x), которая называется критерием (критерием качества, целевой функцией, функцией предпочтения, функцией полезности и т.п.), обладающая тем свойством, что если альтернатива x 1 предпочтительнее x 2 (обозначается: x 1 > x 2), то q(x 1) > q(x 2).

При этом выбор сводится к отысканию альтернативы с наибольшим значением критериальной функции.

Однако на практике использование лишь одного критерия для сравнения степени предпочтительности альтернатив оказывается неоправданным упрощением, так как более подробное рассмотрение альтернатив приводит к необходимости оценивать их не по одному, а по многим критериям, которые могут иметь различную природу и качественно отличаться друг от друга.

Например, при выборе наиболее приемлемого для пассажиров и эксплуатирующей организации типа самолета на определенных видах трасс сравнение идет одновременно по многим группам критериев: техническим, технологическим, экономическим, социальным, эргономическим и др.

Многокритериальные задачи не имеют однозначного общего решения. Поэтому предлагается множество способов придать многокритериальной задаче частный вид, допускающий единственное общее решение. Естественно, что для разных способов эти решения являются в общем случае различными. Поэтому едва ли не главное в решении многокритериальной задачи — обоснование данного вида ее постановки.

Используются различные варианты упрощения многокритериальной задачи выбора. Перечислим некоторые из них.

Условная максимизация (находится не глобальный экстремум интегрального критерия, а локальный экстремум основного критерия).
Поиск альтернативы с заданными свойствами.
Нахождение множества Парето.
Сведение многокритериальной задачи к однокритериальной путем ввода интегрального критерия.

Рассмотрим подробнее формальную постановку метода сведения многокритериальной задачи к однокритериальной.

Введем интегральный критерий q 0 (x), как скалярную функцию векторного аргумента:

q 0 (x) = q 0 ((q 1 (x), q 2 (x), ..., q n (x)).

Интегральный критерий позволяет упорядочить альтернативы по величине q 0 , выделив тем самым наилучшую (в смысле этого критерия). Вид функции q 0 определяется тем, как конкретно мы представляем себе вклад каждого критерия в интегральный критерий. Обычно используют аддитивные и мультипликативные функции:

q 0 = ∑a i ⋅q i /s i

1 - q 0 = ∏(1 - b i ⋅q i /s i)

Коэффициенты s i обеспечивают:

Безразмерность или единую размерность числа a i ⋅q i /s i (различные частные критерии могут иметь разную размерность, и тогда над ними нельзя производить арифметических операций и свести их в интегральный критерий).
Нормировку, т.е. обеспечение условия: b i ⋅q i /s i <1.

Коэффициенты a i и b i отражают относительный вклад частных критериев q i в интегральный критерий.

Итак, в многокритериальной постановке задача принятия решения о выборе одной из альтернатив сводится к максимизации интегрального критерия:

x * = arg max(q 0 (q 1 (x), q 2 (x), ..., q n (x)))

Основная проблема в многокритериальной постановке задачи принятия решений состоит в том, что необходимо найти такой аналитический вид коэффициентов a i и b i , который бы обеспечил следующие свойства модели:

высокую степень адекватности предметной области и точке зрения экспертов;
минимальные вычислительные трудности максимизации интегрального критерия, т.е. его расчета для разных альтернатив;
устойчивость результатов максимизации интегрального критерия от малых возмущений исходных данных.
Устойчивость решения означает, что малое изменение исходных данных должно приводить к малому изменению величины интегрального критерия, и, соответственно, к малому изменению принимаемого решения. Таким образом, если исходные данные практически те же, то и решение должно приниматься или тоже самое, или очень близкое.

Язык бинарных отношений является обобщением многокритериального языка и основан на учете того факта, что когда мы даем оценку некоторой альтернативе, то эта оценка всегда является относительной, т.е. явно или чаще неявно в качестве базы или системы отсчета для сравнения используются другие альтернативы из исследуемого множества или из генеральной совокупности. Мышление человека основано на поиске и анализе противоположностей (конструктов), поэтому нам всегда проще выбрать один из двух противоположных вариантов, чем один вариант из большого и никак неупорядоченного их множества.

Таким образом, основные предположения этого языка сводятся к следующему:

отдельная альтернатива не оценивается, т.е. критериальная функция не вводится;
для каждой пары альтернатив некоторым образом можно установить, что одна из них предпочтительнее другой или они равноценны или несравнимы;
отношение предпочтения в любой паре альтернатив не зависит от остальных альтернатив, предъявленных к выбору.

Существуют различные способы задания бинарных отношений: непосредственный, матричный, с использованием графов предпочтений, метод сечений и др.

Отношения между альтернативами одной пары выражают через понятия эквивалентности, порядка и доминирования.

Язык функций выбора основан на теории множеств и позволяет оперировать с отображениями множеств на свои подмножества, соответствующие различным вариантам выбора без необходимости перечисления элементов. Этот язык является весьма общим и потенциально позволяет описывать любой выбор. Однако математический аппарат обобщенных функций выбора в настоящее время еще только разрабатывается и проверяется в основном на задачах, которые уже решены с помощью критериального или бинарного подходов.

Пусть имеется группа лиц, имеющих право принимать участие в коллективном принятии решений. Предположим, что эта группа рассматривает некоторый набор альтернатив, и каждый член группы осуществляет свой выбор. Ставится задача о выработке решения, которое определенным образом согласует индивидуальные выборы и в каком-то смысле выражает «общее мнение» группы, т.е. принимается за групповой выбор .

Естественно, различным принципам согласования индивидуальных решений будут соответствовать различные групповые решения.

Правила согласования индивидуальных решений при групповом выборе называются правилами голосования. Наиболее распространенным является «правило большинства», при котором за групповое решение принимается альтернатива, получившая наибольшее число голосов.

Необходимо понимать, что такое решение отражает лишь распространенность различных точек зрения в группе, а не действительно оптимальный вариант, за который вообще никто может и не проголосовать. «Истина не определяется путем голосования».

Кроме того, существуют так называемые «парадоксы голосования», наиболее известный из которых парадокс Эрроу.

Эти парадоксы могут привести, и иногда действительно приводят, к очень неприятным особенностям процедуры голосования: например, бывают случаи, когда группа вообще не может принять единственного решения (нет кворума или каждый голосует за свой уникальный вариант и т.д.), а иногда (при многоступенчатом голосовании) меньшинство может навязать свою волю большинству.

Определенность — это частный случай неопределенности, а именно: это неопределенность, близкая к нулю.

В современной теории выбора считается, что в задачах принятия решений существует три основных вида неопределенности:

Информационная (статистическая) неопределенность исходных данных для принятия решений.
Неопределенность последствий принятия решений (выбора).
Расплывчатость в описании компонент процесса принятия решений.

Рассмотрим их по порядку.

Данные, полученные о предметной области, не могут рассматриваться как абсолютно точные. Кроме того, очевидно, эти данные нас интересуют не сами по себе, а лишь в качестве сигналов, которые, возможно, несут определенную информацию о том, что нас в действительности интересует. Таким образом, реалистичнее считать, что мы имеем дело с данными, не только зашумленными и неточными, но еще и косвенными, а возможно, и не полными. Кроме того, эти данные касаются не всей исследуемой (генеральной) совокупности, а лишь определенного ее подмножества, о котором мы смогли фактически собрать данные, однако при этом мы хотим сделать выводы о всей совокупности, причем хотим еще и знать степень достоверности этих выводов.

В этих условиях используется теория статистических решений.

В этой теории существуют два основных источника неопределенности. Во-первых, неизвестно, какому распределению подчиняются исходные данные. Во-вторых, неизвестно, какое распределение имеет то множество (генеральная совокупность), о котором мы хотим сделать выводы по его подмножеству, образующему исходные данные.

Статистические процедуры это и есть процедуры принятия решений, снимающих оба эти вида неопределенности.

Необходимо отметить, что существует ряд причин, которые приводят к некорректному применению статистических методов:

статистические выводы, как и любые другие, всегда имеют некоторую определенную надежность или достоверность. Но, в отличие от многих других случаев, достоверность статистических выводов известна и определяется в ходе статистического исследования;
качество решения, полученного в результате применения статистической процедуры, зависит от качества исходных данных;
не следует подвергать статистической обработке данные, не имеющие статистической природы;
необходимо использовать статистические процедуры, соответствующие уровню априорной информации об исследуемой совокупности (например, не следует применять методы дисперсионного анализа к негауссовым данным). Если распределение исходных данных неизвестно, то надо либо его установить, либо использовать несколько различных методов и сравнить результаты. Если они сильно отличаются — это говорит о неприменимости некоторых из использованных процедур.

Когда последствия выбора той или иной альтернативы однозначно определяются самой альтернативой, то можно не различать альтернативу и ее последствия, считая само собой разумеющимся, что выбирая альтернативу, мы в действительности выбираем ее последствия.

Однако, в реальной практике нередко приходится иметь дело с более сложной ситуацией, когда выбор той или иной альтернативы неоднозначно определяет последствия сделанного выбора.

В случае дискретного набора альтернатив и исходов их выбора, при условии, что сам набор возможных исходов общий для всех альтернатив, можно считать, что различные альтернативы отличаются друг от друга распределением вероятностей исходов. Эти распределения вероятностей в общем случае могут зависеть от результатов выбора альтернатив и реально наступивших в результате этого исходов. В простейшем случае исходы равновероятны. Сами исходы обычно имеют смысл выигрышей или потерь и выражаются количественно.

Если исходы равны для всех альтернатив, то выбирать нечего. Если же они различны, то можно сравнивать альтернативы, вводя для них те или иные количественные оценки. Разнообразие задач теории игр связано с различным выбором числовых характеристик потерь и выигрышей в результате выбора альтернатив, различными степенями конфликтности между сторонами, выбирающими альтернативы и т.д.

Любая задача выбора является задачей целевого сужения множества альтернатив. Как формальное описание альтернатив (сам их перечень, перечень их признаков или параметров), так и описание правил их сравнения (критериев, отношений) всегда даются в терминах той или иной измерительной шкалы (даже тогда, когда тот, кто это делает, не знает об этом).

Известно, что все шкалы размыты, но в разной степени. Под термином «размытие» понимается свойство шкал, состоящее в том, что всегда можно предъявить такие две альтернативы, которые различимы, т.е. различны в одной шкале и неразличимы, т.е. тождественны, в другой — более размытой. Чем меньше градаций в некоторой шкале, тем более она размыта.

Таким образом, мы можем четко видеть альтернативы и одновременно нечетко их классифицировать, т.е. иметь неопределенность в вопросе о том, к каким классам они относятся.

Уже в своей первой работе по принятию решений в расплывчатой ситуации Беллман и Заде выдвинули идею, состоящую в том, что и цели, и ограничения должны представляться как размытые (нечеткие) множества на множестве альтернатив.

Во всех рассмотренных выше задачах выбора и методах принятия решений проблема состояла в том, чтобы в исходном множестве найти наилучшие в заданных условиях, т.е. оптимальные в определенном смысле альтернативы.

Идея оптимальности является центральной идеей кибернетики и прочно вошла в практику проектирования и эксплуатации технических систем. Вместе с тем эта идея требует осторожного к себе отношения, когда мы пытаемся перенести ее в область управления сложными, большими и слабо детерминированными системами, такими, например, как социально-экономические системы.

Для этого заключения имеются достаточно веские основания. Рассмотрим некоторые из них:

Оптимальное решение нередко оказывается неустойчивым, т.е. незначительные изменения в условиях задачи, исходных данных или ограничениях могут привести к выбору существенно отличающихся альтернатив.
Оптимизационные модели разработаны лишь для узких классов достаточно простых задач, которые не всегда адекватно и системно отражают реальные объекты управления. Чаще всего оптимизационные методы позволяют оптимизировать лишь достаточно простые и хорошо формально описанные подсистемы некоторых больших и сложных систем, т.е. позволяют осуществить лишь локальную оптимизацию. Однако, если каждая подсистема некоторой большой системы будет работать оптимально, то это еще совершенно не означает, что оптимально будет работать и система в целом. Поэтому оптимизация подсистемы совсем не обязательно приводит к такому ее поведению, которое от нее требуется при оптимизации системы в целом. Более того, иногда локальная оптимизация может привести к негативным последствиям для системы в целом. Поэтому при оптимизации подсистем и системы в целом необходимо определить дерево целей и подцелей и их приоритетность.
Часто максимизация критерия оптимизации согласно некоторой математической модели считается целью оптимизации, однако в действительностью целью является оптимизация объекта управления. Критерии оптимизации и математические модели всегда связаны с целью лишь косвенно, т.е. более или менее адекватно, но всегда приближенно.

Итак, идею оптимальности, чрезвычайно плодотворную для систем, поддающихся адекватной математической формализации, на сложные системы необходимо переносить с осторожностью. Конечно, математические модели, которые удается иногда предложить для таких систем, можно оптимизировать. Однако всегда следует учитывать сильную упрощенность этих моделей, которой в случае сложных систем уже нельзя пренебречь, а также то, что степень адекватности этих моделей в случае сложных систем фактически неизвестна. Поэтому не известно, какое чисто практическое значение имеет эта оптимизация. Высокая практичность оптимизации в технических системах не должна порождать иллюзии, что она будет настолько же эффективна и при оптимизации сложных систем. Содержательное математическое моделирование сложных систем является весьма затруднительным, приблизительным и неточным. Чем сложнее система, тем осторожнее следует относиться к идее ее оптимизации.

Поэтому при разработке методов управления сложными, большими слабодетерминированными системами, авторы считают основным не только оптимальность выбранного подхода с формальной математической точки зрения, но и его адекватность поставленной цели и самому характеру объекта управления.

При исследовании сложных систем часто возникают проблемы, которые по различным причинам не могут быть строго поставлены и решены с применением разработанного в настоящее время математического аппарата. В этих случаях прибегают к услугам экспертов (системных аналитиков), чей опыт и интуиция помогают уменьшить сложность проблемы.

Однако необходимо учитывать, что эксперты сами представляют собой сверхсложные системы, и их деятельность также зависит от многих внешних и внутренних условий. Поэтому в методиках организации экспертных оценок большое внимание уделяется созданию благоприятных внешних и психологических условий для работы экспертов.

На работу эксперта оказывают влияние следующие факторы:

ответственность за использование результатов экспертизы;
знание того, что привлекаются и другие эксперты;
наличие информационного контакта между экспертами;
межличностные отношения экспертов (если между ними есть информационный контакт);
личная заинтересованность эксперта в результатах оценки;
личностные качества экспертов (самолюбие, конформизм, воля и др.)

Взаимодействие между экспертами может как стимулировать, так и подавлять их деятельность. Поэтому в разных случаях используют различные методы экспертизы, отличающиеся характером взаимодействия экспертов друг с другом: анонимные и открытые опросы и анкетирования, совещания, дискуссии, деловые игры, мозговой штурм и т.д.

Существуют различные методы математической обработки мнений экспертов. Экспертам предлагают оценить различные альтернативы либо одним, либо системой показателей. Кроме того им предлагают оценить степень важности каждого показателя (его «вес» или «вклад»). Самим экспертам также приписывается уровень компетентности, соответствующий вкладу каждого из них в результирующее мнение группы.

Развитой методикой работы с экспертами является метод «Дельфи» . Основная идея этого метода состоит в том, что критика и аргументация благотворно влияют на эксперта, если при этом не затрагивается его самолюбие и обеспечиваются условия, исключающие персональную конфронтацию.

Необходимо особо подчеркнуть, что существует принципиальное различие в характере использования экспертных методов в экспертных системах и в поддержке принятия решений. Если в первом случае от экспертов требуется формализация способов принятия решений, то во втором — лишь само решение, как таковое.

Поскольку эксперты привлекаются для реализации именно тех функций, которые в настоящее время или вообще не обеспечиваются автоматизированными системами, или выполняются ими хуже, чем человеком, то перспективным направлением развития автоматизированных систем является максимальная автоматизация этих функций.

Человек всегда использовал помощников при принятии решений: это были и просто поставщики информации об объекте управления, и консультанты (советники), предлагающие варианты решений и анализирующие их последствия. Человек, принимающий решения, всегда принимал их в определенном информационном окружении: для военачальника — это штаб, для ректора — ученый совет, для министра — коллегия.

В наше время информационная инфраструктура принятия решений немыслима без автоматизированных систем итерактивной оценки решений и особенно систем поддержки решений (DDS — Decision Support Systems) , т.е. автоматизированных систем, которые специально предназначены для подготовки информации, необходимой человеку для принятия решения. Разработка систем поддержки решений ведется, в частности, в рамках интернационального проекта, осуществляемого под эгидой Международного института прикладного системного анализа в Лаксенбурге (Австрия).

Выбор в реальных ситуациях требует выполнения ряда операций, одни из которых более эффективно выполняет человек, а другие — машина. Эффективное объединение их достоинств при одновременной компенсации недостатков и воплощается в автоматизированных системах поддержки принятия решений.

Человек лучше, чем машина принимает решения в условиях неопределенности, но и ему для принятия верного решения необходима адекватная (полная и достоверная) информация, характеризующая предметную область. Однако известно, что человек плохо справляется с большими объемами «сырой» необработанной информации. Поэтому роль машины в поддержке принятия решений может заключаться в том, чтобы осуществить предварительную подготовку информации об объекте управления и неконтролируемых факторах (среде), помочь просмотреть последствия принятия тех или иных решений, а также в том, чтобы представить всю эту информацию в наглядном и удобном для принятия решений виде.

Таким образом, автоматизированные системы поддержки принятия решений компенсируют слабые стороны человека, освобождая его от рутинной предварительной обработки информации, и обеспечивают ему комфортную информационную среду, в которой он может лучше проявить свои сильные стороны. Эти системы ориентированы не на автоматизацию функций лица, принимающего решения (и, как следствие, отчуждение от него этих функций, а значит и ответственности за принятые решения, что часто вообще является неприемлемым), а на предоставлении ему помощи в поиске хорошего решения.

Современные роботы, снабженные системами технического зрения, способны хорошо видеть, чтобы работать с реальным миром. Они могут делать заключение о том, какого типа объекты присутствуют, в каких отношениях они находятся между собой, какие группы образуют.

Суть задачи распознавания – установить, обладают ли изучаемые объекты фиксированным конечным набором признаков, позволяющим отнести и ке определенному классу.

Замена человеческого эксперта или сложной экспертной системы более простой системой (автоматизация деятельности человека или упрощение сложных систем);

Построение обучающихся систем, которые умеют принимать решения без указания четких правил, а именно, систем, которые умеют сами синтезировать правила принятия решений на основе некоторого конечного количества «продемонстрированных» системе примеров правильных решений.

Задачи распознавания можно охарактеризовать следующим образом.

1.Это информационные задачи, состоящие из двух основных этапов: приведение исходных данных к виду, удобному для распознавания и собственно распознавание.

2. В эти задачах можно вводить понятие аналогии Ии подобия объектов и формулировать понятие близости объектов в качестве основания для зачисления объекта в определенный класс.

3. В этих задачах можно оперировать набором примеров, классификация которых известна и которые в виде формализованных описаний могут быть предъявлены алгоритму распознавания для настройки на задачу в процессе обучения.

4. Для этих задач трудно строить формальные теории и применять классические математические методы.

5. В этих задачах возможна «плохая» информация.

Типы задач распознавания:

Отнесение предъявленного объекта к одному из классов (обучение с учителем);

Автоматическая классификация – разбиение множества объектов (ситуаций) по их описанияю на систему непересекающихся классов;

Выбор набора информатиыных признаков при распощнавании;

Приведение исходных данных к виду, удобному для распознавания;

Динамическое распознавание и динамическая классификация;

Задачи прогнозирования.

Нечеткий сигнал

управления

Ошибка по положению

Нечеткий сигнал

управления

Образ – этоcтруктурированное описание объекта или явления, представленное вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих данный объект. Другими словами: образ - любой объект, для которого можно измерить набор определенных числовых признаков. Пример образа: буква, изображение, кардиограмма, и т.п.

Числовой признак (или просто признак). – это формула или иное описание способа сопоставления объекту некоторой числовой характеристики, которое действует в рамках конкретной задачи распознавания образов. Для каждого объекта может быть определено несколько различных признаков, то есть несколько числовых характеристик.

Пространство признаков .N-мерное пространство, определенное для данной задачи распознавания, гдеN– фиксированное число измеряемых признаков для любых объектов. Вектор из пространства признаков, соответствующий объекту задачи распознавания этоN-мерный вектор с компонентами (х1,х2, …, хN), которые являются значениями признаков данного объекта.

ОБЪЕКТ->Nпризнаков->M-мерный вектор признаков

Класс - неформализируемое (как правило) представление о возможности отнесения произвольного объекта из множества объектов задачи распознавания к определенной группе объектов. Для объектов одного класса предполагается наличие «схожести». Для задачи распознавания образов может быть определено произвольное количество классов, большее 1. Количество классов обозначается числомS.

В целом проблема распознавания образов состоит из двух частей: распознавания и обучении.

Распознавание образов заключается в классификации некоторой группы объектов на основе определенных требований. Объекты, относимые к одному классу образов, обладают общими свойствами. Требования, определяющие классификацию, могут быть различными, так как в различных ситуациях возникает необходимость в различных типах классификаций.

Например, при распознавании английских букв образуется 26 классов образов. Однако, чтобы отличить при распознавании английские буквы от китайских иероглифов, нужны лишь два класса образов.

Простейший подход к распознаванию образов заключается в сопоставлении с эталонами. В этом случае некоторое множество образов, по одному из каждого класса образов, хранится в памяти машины. Входной (распознаваемый) образ (неизвестного класса) сравнивается с эталоном каждого класса. Классификация основывается на заранее выбранном критерии соответствия или критерии подобия. Другими словами, если входной образ лучше соответствует эталону i-го класса образов, чем любому другому эталону, то входной образ классифицируется как принадлежащийi-му классу образов.

Недостаток этого подхода, т. е. сопоставления с эталоном, заключается в том, что в ряде случаев трудно выбрать подходящий эталон из каждого класса образов и установить необходимый критерий соответствия.

Более совершенный подход заключается в том, что классификация основывается на некотором множестве отобранных замеров, производимых на входных образах. Эти отобранные замеры, называемые «признаками», предполагаются инвариантными или малочувствительными по отношению к обычно встречающимся изменениям и искажениям и обладающими небольшой избыточностью.

Частный случай второго подхода «измерения признаков», при котором эталоны хранятся в виде измеренных признаков и в классификаторе используется специальный критерий классификации (сопоставление).

Признаки определяются разработчиками и должны быть инвариантны к ориентации, размеру и вариациям формы объектов.