Skip to content

galleydata/Classification-model

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

Проект 4. Решение задачи классификации. Банковский кейс

Оглавление

  1. Описание проекта
  2. Описание данных
  3. Зависимости
  4. Установка проекта
  5. Использование проекта
  6. Авторы
  7. Выводы

Описание проекта

Работа будет стостоять из таких этапов:

  1. Первичная обработка данных
  2. Разведывательный анализ данных (EDA)
  3. Отбор и преобразование признаков
  4. Задача классификации: рассмотрим несколько алгоритмов машинного обучения для построения прогностической модели

Задача классификации (classification) — задача, в которой мы пытаемся предсказать класс объекта. То есть, задача сводится к предсказанию класса объекта, который представлен несколькими категориями. Мы рассмотрим бинарную классификацию - наш целевой признак представлен двумя категориями:

  • клиенты открывшие депозит
  • клиенты не открывшие депозит

Задача классификации одна из моделей Машинного обучения (Machine Learning)

Машинное обучение (Machine Learning) - это один из разделов науки об искусственном интеллекте. Машинное обучение заключается в построении моделей с помощью поиска закономерностей в данных и использовании их для того, чтобы спрогнозировать характеристики новых данных.

Всё машинное обучение держится на трёх очень важных столпах:

  1. Набор данных(dataset) — это множество примеров (выборка), на котором происходит обучение модели. Данные — это самая важная часть обучения. Хотим определять спам — нужны примеры спам-писем, предсказывать курс акций — нужна история цен, узнать интересы пользователя — нужны данные о его лайках и репостах.

  2. Признаки (features) — это свойства, характеристики, которыми описываются наши объекты. Для недвижимости это могут быть площадь, этаж, район; для автомобиля — пробег, мощность двигателя, цвет и т. д.

    • Целевой признак (target feature) — признак, который мы хотим предсказать.
    • Факторы (factors) — признаки, на основе которых строится алгоритм предсказания целевого признака.

Например, хотим предсказать цену недвижимости:

  • цена — наш целевой признак,
  • остальные (площадь, этаж, район) — факторы.
  1. Модель машинного обучения (ML-model) — это некоторый математически формализованный метод (алгоритм) описания зависимости в данных. Как правило, модель имеет настраиваемые (регулируемые) параметры.

В простом понимании модель — это математическая формула, которая связывает факторы с целевым признаком.

Описание данных

Постановка проблемы - проведение маркетинговых кампаний и взаимодействие с клиентами это трудозатратно и дорого. Банкам хотелось бы уметь выбирать среди своих клиентов именно тех, которые с наибольшей вероятностью воспользуются тем, или иным предложением, и связываться именно с ними.

Цель проекта — построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, согласится ли он открыть депозит или нет.

Нам предоставили данные о последней маркетинговой кампании, которую проводил банк: задачей было привлечь клиентов для открытия депозита. Нужно проанализировать эти данные, выявить закономерность и найти решающие факторы, повлиявшие на то, что клиент вложил деньги именно в этот банк. Если удастся это сделать, то мы поможем банку и понять целевую аудиторию, что сэкономит время и инвестиции в рекламную кампанию.

Задачи проекта:

  1. Выявить решающие характеристики влияющие на открытие депозита в банке
  2. Построить модели машинного обучения, решающие задачу классификации клиентов
  3. Подобрать оптимальные параметры моделей с более высоким качеством прогноза

Изначальные данные можно скачать здесь.

Необходимо заранее создать папку data в директории, где лежит файл project_4.ipynb. Затем нужно сохранить файлы в формате .csv, скачанные по ссылкам предоставленным выше и положить эти файлы в папку data.

Используемые зависимости

Установка проекта

git clone

Авторы

  • Ярослав Москаленко

Releases

No releases published

Packages

No packages published