- Регистрация
- 13.03.2019
- Сообщения
- 48 482
Юрий Кашницкий, Data Mining с помощью Python Видео лекций, презентации, ссылки по второму курсу данной серии "Мы постарались сделать программу так, чтобы в нее входили только самые основные навыки, необходимые в реальной работе. Здесь не будет длинной теории, только практически важные вещи." Юрий Кашницкий, преподаватель Высшей Школы Экономики, умеющий объяснять сложные вещи простым языком, познакомит слушателей сперва с основными инструментами, которые пригодятся начинающему Data Scientist'у, а после проведет курс по машинному обучению, в котором даст необходимые навыки для построения прогнозных моделей Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения. Данный курс освящает практическое применение алгоритмов обработки данных на примере решения одной из самых популярных задач платформы Kaggle, Titanic: Learning from Disaster (предсказание выживших в катастрофе пассажиров) Урок 1. Введение - Введение в машинное обучение, необходимые навыки - Задачи классификации, регрессии и кластеризации - Краткий обзор Kaggle - Открытие соревнования Kaggle Inclass - Знакомство с набором данных по автострахованию этого соревнования - Статистические распределения, нормализация признаков, приведение к нормальному распределению - Деревья решений - Применение дерева решений Scikit-learn к набору данных iris и данным из контеста Kaggle Inclass - Настройка параметров дерева, кросс-валидация Урок 2. Обзор инструментов - Работа с векторами и матрицами в библиотеке NumPy - Обзор библиотеки для научных выичслений SciPy - Тетрадки Jupyter (IPython) для презентации материала, содержащего код - Визуализация данных с Matplotlib - Чтение и обработка данных с библиотекой Pandas - Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" c помощью Pandas - Обзор библиотеки машинного обучения Scikit-learn Урок 3. Обучение с учителем. Классификация - Работа с признаками – отбор, преобразование, построение - Метрики качества алгоритмов машинного обучения (accuracy, precision, recall, F-score). ROC-кривая, AUC - Метод максимального правдоподобия - Логистическая регрессия Урок 4. Обучение с учителем. Ансамбли. Переобучение - Случайный лес (Random Forest) - Случайный лес на примере набора данных Titanic - Случайный лес на примере набора данных по автострахованию - Бустинг (boosting) и бэггинг (bagging) - Сравнение бустинга и бэггинга на наборах данных репозитория UCI - Стекинг. Демонстрация решения задачи категоризации продуктов Otto (вкратце) - Переобучение, кросс-валидация, регуляризация - Пример регуляризации для логистической регрессии Урок 5. Обучение без учителя - Обзор методов кластеризации, снижения размерности, поиска аномалий в данных - Кластеризации городов России по социально-экономическим показателям - Сингулярное разложение матрицы - Пример снижения размерности изображений, сжатие изображений - Снижение размерности как способ визуализации даных - Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" с помощью Python Урок 6. Продвинутые методы. API Scikit-learn - Нейронные сети, библиотеки nolearn и Lasagne NN - Библиотека XGBoost, сравнение с градиентным бустингом в Scikit-learn - Пример голосования между алгоритмами для повышения качества классификации - Смешивание (блендинг) алгоритмов на примере задачи Kaggle "Titanic: Learning from Disaster" - Стекинг. Пример для Titanic - Разработка собственного класса Scikit-learn Estimator для задачи по автострахованию Kaggle Inclass. kNN с подобранной метрикой. |
Быстрая оплата RUB, UAH, KZT