Администрирование и программирование [OTUS] Pазработчик BigData. 3 Часть из 5

VkurseMan

VkurseMan

Премиум клуб
Команда форума
Премиум клуб
27 Фев 2019
307
563
101
Голосов: 0
#1
Автор: OTUS
Название: Pазработчик BigData. 3 Часть из 5

Описание:



Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.

Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Занятие 19: Рекомендательные системы
Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)
ДЗ
Применение алгоритма рекомендаций для датасета фильмов.

Занятие 20: Временные ряды
Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

Занятие 21: Latent Dirichlet Allocation
ДЗ

Применение LDA для категоризации текстов.

Занятие 22: Алгоритмы на графах
Социальные сети

Занятие 23: Нейронные сети, обучение нейронных сетей
Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.
ДЗ
Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.

Занятие 24: Сверточный слои, каскады, визуализация признаков
Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.

Скачать:
 

О нас

Наша цель чтобы образование стало доступным и каждый бесплатно смог найти и скачать образовательный курс, изучив который – он стал лучше.

Vkurse.Info ежедневно выкладывает:
 

  • свежие обучающие курсы и инфопродукты от лучших онлайн-школ и инфобизнесменов;
  • вебинары, марафоны, мануалы, от популярных блогеров на тему здоровья и саморазвития;
  • видеоуроки, книги и гайды, обучения веб-дизайну, программированию, создания сайтов, бизнеса, продвижения в социальных сетях актуальных сегодня.


Мы регулярно публикую новые темы и свежие сливы складчин на форум, чтобы знания всегда были рядом, и Вы были в курсе.

 

Быстрая навигация

Меню пользователя