Построение бинарных классификаторов. Введение

В данной серии заметок будет показан пример построения бинарных классификаторов в R с использованием пакета caret и ROC-кривой. Основная цель состоит в понимании шагов, которые нужно совершить, чтобы получить правильный конечный результат, а также методов оценки качества построенных классификаторов и способов их улучшения. При этом предполагается базовое понимание работы с R. Все вычисления можно скачать здесь.

В самом простейшем понимании бинарный классификатор – это конструкция, которая каждому объекту по совокупности его признаков ставит в соответствие один из двух ответов: “Да” или “Нет”. Необходимость в построении бинарных классификаторов появляется достаточно часто, например в задаче определения фрода (является ли совокупность действий пользователя фродом), в задаче определения ухода пользователя из проекта (ушел или нет пользователь в зависимости от его активности на проекте) и многих других.

Бинарные классификаторы умеют строить все классификационные алгоритмы, но их количество огромно и в R существует ещё большее количество их реализаций. При этом каждый пакет имеет свои особенности построения моделей, из-за чего заблудитьсяв этом многообразии очень легко и исследователь, к сожалению, зачастую склоняется к использованию одного-двух алгоритмов, которые для него привычнее и проще использовать. С целью решения этой проблемы, Max Kuhn разработал пакет [[http://topepo.github.io/caret/index.html|caret]], который унифицирует использование самых различных классификаторов, а также даёт достаточно мощные и универсальные методы для оценки и сравнения работы разных моделей.

Однако, прежде чем начать построение моделей, необходимо немного теории о том, что такое ROC-кривая и кросс-валидация и почему именно эти конструкции будут использованы при построении классификаторов. Те, кто знает, что это такое или кого интересуют конкретные примеры работы с R, могут пропустить [[http://blog.arkoniak.com/?p=270|следующую]] заметку и перейти сразу к [[http://blog.arkoniak.com/?p=280|построению классификатора]].

Tagged , , , , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *