- Регистрация
- 13.03.2019
- Сообщения
- 48 482
Чему вы научитесь Процесс и модель машинного обучения Заполнение пропусков в данных Линейная регрессия и L1/L2 регуляризация Решающие деревья и ансамбли стекинга Корреляция и взаимная информация Метод главных компонент (PCA) Сингулярное разложение (SVD) Анализ независимых компонент (ICA) Многомерное шкалирование (MDS) t-SNE, UMAP, LargeVis Требования Продвинутый Python Основы математической статистики Описание Мы разберем задачу хакатона 2020 года по выделению факторов, в наибольшей степени влияющих на продолжительность жизни в России, с точки зрения фундаментальных и прикладных подходов к понижению размерности данных. В заключении построим ансамбль моделей для предсказания продолжительности жизни, базируясь на выделенных факторах. Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессии, решающие деревья и случайный лес. А также ансамбли машинного обучения. Во второй части на практике разберем: Очистку и предобработку данных - ETL Линейную регрессию для экстраполяции данных Линейную регрессию с регуляризацией для выделения факторов Информационные критерии понижения размерности В заключении создадим ансамбль стекинга из простых моделей понижения размерности. Продолжение описания Третья часть посвящена матричным методам: Метод главных компонент (PCA) Сингулярное разложение (SVD) Анализ независимых компонент (ICA) Положительно-определенные матрицы (NMF) Уточним решение задачи обучения без учителя через матричные методы. В четвертой части рассмотрим нелинейные подходы: Многомерное шкалирование (MDS). t-SNE UMAP LargeVis Стабилизируем ансамбль понижения размерности и используем его для предсказания продолжительности жизни в России, основываясь на наиболее важных макроэкономических показателях. Для кого этот курс: Аналитики Python, изучающие машинное обучение Программисты больших данных Исследователи больших данных |
Быстрая оплата RUB, UAH, KZT