Москва: ДМК Пресс, 2023. — 816 с. — ISBN 978-5-93700-177-1.
Настоящая книга является коллекцией избранных материалов из первого модуля Подписки – обновляемых в режиме реального времени материалов по применению классических методов машинного обучения в различных про мышленных задачах, которые автор делает вместе с коллегами и учениками.
Автор благодарит Дмитрия Ларько за помощь в подготовке раздела по кон струированию признаков в третьей части книги, Уилла Керсена за предостав ленные материалы к первому разделу пятой части книги.
Во втором томе мы разберем собственно процесс предварительной подго товки данных, обсудим некоторые метрики качества, рассмотрим ряд полез ных библиотек и фреймворков
Введение
План предварительной подготовки данныхВведение
Формирование выборки
Определение «окна выборки» и «окна созревания»
Определение зависимой переменной
Загрузка данных из CSV-файлов и баз данных SQL
Удаление бесполезных переменных, переменных «из будущего», переменных с юридическим риском.
Преобразование типов переменных и знакомство со шкалами переменных
Нормализация строковых значений
Обработка дублирующихся наблюдений
Обработка редких категорий
Появление новых категорий в новых данных
Импутация пропусков
Обработка выбросов
Описательные статистики
Нормальное распределение...
Конструирование признаков
Отбор признаков
Стандартизация
Собираем все вместе
Метрики для оценки качества моделиБинарная классификация
Регрессия
Другие полезные библиотеки и платформыБиблиотеки баейсовской оптимизации hyperopt, scikit-optimize и optuna
Docker
Библиотека H2O
Библиотека Dask
Google Colab