Лучшим студентам организуем собеседования в IT компаниях по окончании курса
Курс разработан в соответствии с потребностями и ожиданиями слушателей. Мы учитываем опыт прошлых курсов и ситуацию в мире IT. Преподаватели являются практикующими специалистами и имеют большой опыт работы. Мы знаем об актуальных инструментах и обучаем тому, что применяем на практике. Рассказываем о сложных вещах простым и понятным языком. Курс состоит из более 40 академических часов аудиторных занятий с лучшими преподавателями-практиками и более 40 часов самостоятельной работы.
Мы изучаем:
Обучение рассчитано на всех причастных к BigData, тех, кто развивается в этом направлении и хочет новых знаний и ответов, для тех, кто хочет приобрести самую актуальную в мире на данный момент специализацию data scientist
Необходимо уверенно пользоваться интернетом, с легкостью регистрироваться на сайтах и сервисах и устанавливать на свой компьютер различные программы.
Эксперты-практики BigData Team
Выпускники курсов HiBrain получают уникальную возможность применить новые знания: компании-партнёры проекта ждут наших слушателей на стажировки и предлагают трудоустройство.
Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса. Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell
Hadoop Streaming. Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator)
Приложения с несколькими Hadoop-задачами. Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs). Задачи с несколькими входами. Joins в Hadoop
Архитектура Hive, виды таблиц, форматы хранения данных. Трансляция Hive-запросов в MapReduce-задачи. Сериализация и десериализация. Тюнинг Join'ов в Hive. Партиционирование, бакетирование, семплирование. User defined functions, Hive Streaming
Схема выполнения задачи в Spark. Основные термины Spark (job, task, stage). Представление вычислений в виде графа. Spark Python API. Spark RDD API. Broadcast-сообщения и счетчики
Взаимодействие Hive и Spark SQL. Отличия DF от RDD
Spark on YARN. Типы stage в Spark. Оптимизация операции shuffle. Настройка Garbage Collection, тюнинг потребления памяти
Подходы к Realtime-обработке. Гарантии обработки. Переход от одной гарантии к другой. Архитектуры "Лямбда" и "Каппа". Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream. Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей. Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация
Отличия Key-value хранилищ от Реляционных БД. Архитектуры HBase и Cassandra. Их различия. Обеспечение надёжности и высокодоступности в Key-value хранилищах. Компактификация и её виды. CQLSH, HBase shell. Взаимодействие хранилищ (Cassandra и Hbase) со Spark и Hadoop