БЕЗ ГРУППЫ – НАЧНИТЕ В ЛЮБОЕ ВРЕМЯ
ПроДВИНУТАЯ ПРОГРАММА
ДЛЯ ДАТА-ИНЖНЕНЕРОВ


APACHE SPARK 3 ADVANCED

Глубокое погружение в работу Spark DataFrames под капотом: как реально ускорять обработку данных,
а не «крутить настройки». Вы научитесь эффективно работать с нестандартными внешними источниками
без готовых коннекторов и писать пользовательские функции, которые масштабируются, работают быстро
и применяются по проверенным продакшн-паттернам.
БЕЗ ГРУППЫ – НАЧНИТЕ В ЛЮБОЕ ВРЕМЯ
ПРОДВИНУТАЯ ПРОГРАММА
ДЛЯ ДАТА-ИНЖЕНЕРОВ

APACHE SPARK 3 ADVANCED
Глубокое погружение в работу Spark DataFrames под капотом: как реально ускорять обработку данных,
а не «крутить настройки». Вы научитесь эффективно работать с нестандартными внешними источниками
без готовых коннекторов и писать пользовательские функции, которые работают быстро и применяются по проверенным продакшн-паттернам.
ЗАПИСАТЬСЯ

видеолекции

по 3 часа

Можно пройти в своем темпе в любое время в течение 2-х месяцев. Материалы программы останутся у вас навсегда.
2 месяца практики
в рабочей инфраструктуре
4 лабы для отработки новых навыков и знаний, которые сможете сразу применять в работе.

помощь

координатора

На связи с вами будет координатор, который поможет разобраться с лабами и пройти программу успешно.

ВЫ НАУЧИТЕСЬ

  • работать с внутренними структурами Spark 3
  • использовать py4j для взаимодействия со структурами Spark 3 из Python в JVM
  • писать хорошие высокопроизводительные Scala UDF
  • писать нативные UDF на internal row
  • работать с планировщиками, запускать и синхронные действия на dataframe
  • выбирать оптимальные ресурсы для Spark 3 приложения
  • разрабатывать коннекторы к источникам с помощью static UPS и с помощью стримов

ВХОДНЫЕ ТРЕБОВАНИЯ

  • Опыт построения ETL и стриминг пайплайнов с помощью Spark
  • Базовые знания Python
  • Понимание архитектуры распределенных вычислений с использованием HDFS, YARN
  • Практический опыт разработки на Scala
  • Базовые навыки Linux
  • Знание основ TCP/IP
  • Понимание как работают распределенные базы данных
  • Опыт работы и использования библиотек Mongo

ЗАНЯТИЯ

ПРАКТИКА

В этой программе есть четыре лабораторных работы, которые необходимо выполнить самостоятельно в нашей инфраструктуре. Лабы проверяются автоматическими чекерами и количество попыток неограниченно. Координатор будет отвечать на ваши вопросы и всегда помогут по техническим вопросам.

Лабы объединены в пайплайн и за 4 недели вам нужно будет разработать коннектор к гибридному хранилищу, который для хранения данных использует одновременно Mongo и файловую систему. Вы будете самостоятельно разрабатывать статическую часть этого коннектора для работы со Static Dataframe API, стримовую часть и малую часть и добавлять туда Predicate Pushdown фильтры. Лабы проверяется автоматически, количество попыток не ограничено.

ВИДЕОЗАПИСИ ЭФИРОВ О ПРОГРАММЕ

ИНФРАСТРУКТУРА

GitHub
Все материалы занятий, инструкции к лабам и мануалы размещаются в закрытом репозитории программы
Личный кабинет
В нем вы сможете проверить правильность выполнения лаб, используя автоматические чекеры, а также отслеживать свою успеваемость для получения сертификата
ПРЕПОДАВАТЕЛЬ программы
Сергей Гришаев,
Senior Data Engineer, Wildberries

CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
CЕРТИФИКАТ
НА АНГЛИЙСКОМ
ЯЗЫКЕ
Мы выдаем сертификат только участникам, которые пройдут программу успешно и выполнят любые три лабы из четырех в срок.

Наш сертификат на английском языке и он подтверждает ваши навыки работы с Apache Spark для задач дата-инжиниринга на продвинутом уровне.

Сертификат можно будет добавить в свое резюме или в свой Linkedin-профиль, указав уникальный номер.
СТОИМОСТЬ УЧАСТИЯ
СТОИМОСТЬ УЧАСТИЯ

58 800₽ | $650

ОТЗЫВЫ ВЫПУСКНИКОВ

Станислав Никитин

Дата-инженер в Касперский

★★★★★

Цель была поглубже изучить Spark и понять, как он внутри работает чтобы и код оптимальнее писать и чтобы потом внутрь можно было залезть, доделать, улучшить и какие-то модули дописать, чем мы и занимались на курсе.

Понравилось, что было два вектора: первое – это общие интересные вещи, антипаттерны, оптимизация UDF функций. Второй трек – что касается лаб, надо было написать свой коннектор со всеми оптимизациями.
Иван Андреев

разработчик Big Data

★★★★★

В результате этой программы получил знания, драйв, проверил себя на прочность. Мне понравился занимательный материал, отличное проведение лекций и очень крутые задачки и чекер.

Материала на программе достаточно и Сергей Гришаев – отличный преподаватель. На все вопросы может ответить, всегда приходит на помощь и разъясняет трудные моменты.

Я в целом доволен вашей работой и подходами, задачами, знаниями и преподавателями. Огромное спасибо. Вы понимаете, и учащимся тоже надо понять, что освоение материалов именно должно быть интенсивным. Без полного погружения все это не откладывается на подкорке.
Николай Тимаков

Дата-инженер

★★★★★

Достиг целей, которые ставил на программу на все 100%! Узнал, как можно разрабатывать свои фильтры и коннекторы, больше узнал о том, как работает Spark "под капотом" и в целом поданная информация была полезна, материала по темам было достаточно. То, что все 4 задачи выложили сразу – тоже было плюсом.

Преподаватель Сергей Гришаев хорошо в целом ведет занятия, очень нравится его активность "вне занятий" – помощь в вопросах.

Тем, кто работает со Spark, программа даст глубокие знания и я его могу порекомендовать. Если человек просто работает на поверхности со спарком, то возможно столь глубокие знания будут излишни.
Иван Костров

Дата-инженер

★★★★★

До этого проходил начальную программу по Спарку, очень понравилось, захотел углубиться и взять ещё одну программу

Получил углублённое знание о принципах работы Спарка и его апи. Понравился детальный разбор всех вопросов и подача материала от преподавателя.

Понравился детальный разбор всех вопросов и подход преподавателя к обучению. Объема материала по темам было достаточно, а пройти программу успешно мне помешала загрузка на работе.

Программу могу рекомендовать, всё было на высшем уровне, на любой мой вопрос был дан ответ в кратчайшие сроки. При возникновении потребности в обучении обязательно вернусь в Newprolab.
Данил Кусакин
ДАТА-ИНЖЕНЕР

★★★★★

Высокое качество материала, идеальный баланс между теорией и практическими примерами.

Порадовали оперативные ответы в Телеграм. Главный результат обучения – понимание некоторых нюансов по Cпарку, о которых ранее не задумывался, так как не приходилось сталкиваться на практике.

На текущей работе лично мне не требуется столь глубокий уровень Спарка, так как пайплайны достаточно простые и не нагруженные. Для меня сейчас – это скорее теоретические знания, к которым можно будет обратиться в будущем. Лабы были сложные.
АНТОН ЮДИН
ДАТА-инженер

★★★★★

Это первая программа, которая захватывают разработку коннекторов, можно сказать что больше таких программ наверное нигде нет. Для меня такой точно первая.

Я пытался до этого разбираться с API коннекторов, но это довольно-таки сложная штука. Сам я бы еще очень долго с ними разбирался. Сейчас все гораздо проще стало.

Я стал лучше понимать внутреннюю логику Spark, как он работает и вообще про Spark узнал некоторые вещи, которые раньше не знал. Я и раньше не проходил некоторые собеседования, а теперь точно любые пройду. Большое спасибо!

ЧАСТЫЕ ВОПРОСЫ

Алексей ответит на ваши вопросы в Телеграме
Telegram