logo-hibrain

Практический курс Big Data онлайн

Лучшим студентам организуем собеседования в IT компаниях по окончании курса

  • Площадка:Big Data Team
  • Продолжительность:1 месяц
  • Дата:в удобное время
  • Стоимость:от 25000
Практический курс Big Data онлайн

О курсе

Курс разработан в соответствии с потребностями и ожиданиями слушателей. Мы учитываем опыт прошлых курсов и ситуацию в мире IT. Преподаватели являются практикующими специалистами и имеют большой опыт работы. Мы знаем об актуальных инструментах и обучаем тому, что применяем на практике. Рассказываем о сложных вещах простым и понятным языком. Курс состоит из более 40 академических часов аудиторных занятий с лучшими преподавателями-практиками и более 40 часов самостоятельной работы.

Мы изучаем:

course-info
  • analytics
    analytics
  • bigdata
    bigdata

Кому подойдет курс

  • Обучение рассчитано на всех причастных к BigData, тех, кто развивается в этом направлении и хочет новых знаний и ответов, для тех, кто хочет приобрести самую актуальную в мире на данный момент специализацию data scientist

Необходимые навыки

  • Необходимо уверенно пользоваться интернетом, с легкостью регистрироваться на сайтах и сервисах и устанавливать на свой компьютер различные программы.

Эксперты

Эксперты-практики BigData Team

  • Алексей Драль
    Алексей Драль
    Генеральный директор BigData Team, читает курсы: "Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop", "Hadoop экосистема, MapReduce и не только", "Оптимизация MapReduce вычислений", "SQL поверх больших данных (Hive)"
  • Артём Выборнов
    Артём Выборнов
    Head of Big Data Dev, Rambler Group, читает курс "Потоковая обработка данных (Kafka, Spark Streaming)"
  • Павел Клеменков
    Павел Клеменков
    Chief Data Scientist (Data Platform), NVIDIA, читает курсы: "Модель вычислений Spark: RDD", "Spark DataFrames, Spark SQL", "Модель вычислений Spark: RDD", "NoSQL поверх больших данных: HBase, Cassand

Карьера

Выпускники курсов HiBrain получают уникальную возможность применить новые знания: компании-партнёры проекта ждут наших слушателей на стажировки и предлагают трудоустройство.

    Программа курса

    Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса. Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell

    Hadoop Streaming. Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator)

    Приложения с несколькими Hadoop-задачами. Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs). Задачи с несколькими входами. Joins в Hadoop

    Архитектура Hive, виды таблиц, форматы хранения данных. Трансляция Hive-запросов в MapReduce-задачи. Сериализация и десериализация. Тюнинг Join'ов в Hive. Партиционирование, бакетирование, семплирование. User defined functions, Hive Streaming

    Схема выполнения задачи в Spark. Основные термины Spark (job, task, stage). Представление вычислений в виде графа. Spark Python API. Spark RDD API. Broadcast-сообщения и счетчики

    Взаимодействие Hive и Spark SQL. Отличия DF от RDD

    Spark on YARN. Типы stage в Spark. Оптимизация операции shuffle. Настройка Garbage Collection, тюнинг потребления памяти

    Подходы к Realtime-обработке. Гарантии обработки. Переход от одной гарантии к другой. Архитектуры "Лямбда" и "Каппа". Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream. Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей. Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация

    Отличия Key-value хранилищ от Реляционных БД. Архитектуры HBase и Cassandra. Их различия. Обеспечение надёжности и высокодоступности в Key-value хранилищах. Компактификация и её виды. CQLSH, HBase shell. Взаимодействие хранилищ (Cassandra и Hbase) со Spark и Hadoop

    course-program