Работа будет стостоять из таких этапов:
- Первичная обработка данных
- Разведывательный анализ данных (EDA)
- Отбор и преобразование признаков
- Задача классификации: рассмотрим несколько алгоритмов машинного обучения для построения прогностической модели
Задача классификации (classification) — задача, в которой мы пытаемся предсказать класс объекта. То есть, задача сводится к предсказанию класса объекта, который представлен несколькими категориями. Мы рассмотрим бинарную классификацию - наш целевой признак представлен двумя категориями:
- клиенты открывшие депозит
- клиенты не открывшие депозит
Задача классификации одна из моделей Машинного обучения (Machine Learning)
Машинное обучение (Machine Learning) - это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.
Всё машинное обучение держится на трёх очень важных столпах:
-
Набор данных(dataset) — это множество примеров (выборка), на котором происходит обучение модели. Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.
-
Признаки (features) — это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.
- Целевой признак (target feature) — признак, который мы хотим предсказать.
- Факторы (factors) — признаки, на основе которых строится алгоритм предсказания целевого признака.
Например, хотим предсказать цену недвижимости:
- цена — наш целевой признак,
- остальные (площадь, этаж, район) — факторы.
- Модель машинного обучения (ML-model) — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.
В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком.
Постановка проблемы - проведение маркетинговых кампаний и взаимодействие с клиентами это трудозатратно и дорого. Банкам хотелось бы уметь выбирать среди своих клиентов именно тех, которые с наибольшей вероятностью воспользуются тем, или иным предложением, и связываться именно с ними.
Цель проекта — построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, согласится ли он открыть депозит или нет.
Нам предоставили данные о последней маркетинговой кампании, которую проводил банк: задачей было привлечь клиентов для открытия депозита. Нужно проанализировать эти данные, выявить закономерность и найти решающие факторы, повлиявшие на то, что клиент вложил деньги именно в этот банк. Если удастся это сделать, то мы поможем банку и понять целевую аудиторию, что сэкономит время и инвестиции в рекламную кампанию.
Задачи проекта:
- Выявить решающие характеристики влияющие на открытие депозита в банке
- Построить модели машинного обучения, решающие задачу классификации клиентов
- Подобрать оптимальные параметры моделей с более высоким качеством прогноза
Изначальные данные можно скачать здесь.
Необходимо заранее создать папку data в директории, где лежит файл project_4.ipynb. Затем нужно сохранить файлы в формате .csv, скачанные по ссылкам предоставленным выше и положить эти файлы в папку data.
- Ярослав Москаленко