Оценка эффективности процесса распознавония с использованием вероятностных ошибок
Автор: aiti.faculty • Январь 16, 2024 • Статья • 855 Слов (4 Страниц) • 101 Просмотры
А.В.Бакибаев,
e-mail: baki_adil@mail.ru,
ассистент кафедры «Вычислительная техника и программное обеспечение»,
КазАТУ им. С.Сейфуллина,
г. Астана
ОЦЕНКА ЭФФЕКТИВНОСТИ ПРОЦЕССА РАСПОЗНАВАНИЯ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ ОШИБОК
Аннотация: в статье говориться о том, как можно использовать ошибки 1 и 2 родов, которые возникают в задачах идентификации для более точного распознавания. Вводится такие понятия как полнота и точность. Назовем их метриками оценки качества классификатора[1]. Использование данных метрик, позволяет гораздо проще понять, являются ли изменения в алгоритме в лучшую сторону или нет.
Ключевые слова: классификатор, ошибка (1, 2) родов, выборка, точность, полнота, интегральный показатель.
В задачах обычно классы объектов неравнозначны, есть положительные примеры (основной класс) – лицо человека.
Отрицательные примеры (вторичный класс) – фон. Ошибка пропустить лицо, это совершенно не то же самое, что принять фон вместо лица. Для каждого классификатора можно посчитать долю ошибки 1 и 2 рода.
Ошибкой первого рода (type I error, misdetection) называется ситуация, когда объект заданного класса не распознаётся (пропускается) системой.
Ошибка второго рода (type II error, false alarm) происходит, когда объект заданного класса принимается за объект другого класса.
В нашем случае лучше чтобы ошибка 1 рода была больше, так как лучше пропустить и не распознать, чем распознать неправильно.
При анализе изображении важно оценивать ошибки, потому что соотношения примеров одного и второго классов могут быть различны.
Для оценки классификации обычно не напрямую используются ошибки 1 и 2 рода, а более понятные метрики как точность и полнота.
Взаимосвязь точности системы и полноты выборки
В задачах поиска изображений на основе признаков, которые содержатся в пользовательском запросе, необходимо найти объекты интереса класса С1, возможно, вместе с не слишком большим числом интересующих объектов класса С2. Производительность системы, обслуживающей такие запросы, как поиск определенных (нужных) изображений, характеризуется точностью и полнотой выборки.
Точность (Precision) равна числу найденных «нужных» изображений (истинные элементы класса С1), поделенное на общее число найденных изображений (истинные элементы класса С1 плюс ложные срабатывания, в действительности принадлежащие классу С2).
Полнота (Recall) выборки равна количеству найденных «нужных» изображений деленному на общее число найденных изображений в БД.
Например, предположим, что в БД хранится 200 изображений лиц преступников, которые необходимо распознать. Допустим, система находит 150 из 200 изображений лиц и 100 других изображений лиц не преступников. Точность этого поиска (классификации) будет составлять 150/250=60%, а полнота 150/200=75%. Система сможет достичь 100% полноты, при возврате всех изображении БД, но тогда ее точность будет чрезвычайно низкой. С другой стороны, при тщательно настроенном классификаторе (на низкий коэффициент ложных срабатываний), то точность будет высокой, но полнота выборки может быть низкой.
Для обеспечения возможности сравнения результатов на различных базах применяется относительно характерные качества обнаружения. Пусть N -количество объектов в тестовом наборе, FN -ложные пропуски, а ложные обнаружения FT, тогда можно определить число верных пропусков и число верных обнаружений:
TP=N-FN – число верных пропусков
TN=N-FP – число верных обнаружений
Применяя эти меры можно посчитать относительную долю ошибки первого и второго рода, и долю верно распознанных пропусков и обнаружений:
;; ;.[pic 1][pic 2][pic 3][pic 4]
...