Распределенная обработка информации (РОИ)

Весенний семестр 2021

9 лекций (18 часов), 27 практических работ (54 часа), экзамен

Экзамен

Материалы лекций

  • Лекция 1. Введение в BigData. Модели и инструменты обработки больших объемов данных.
  • Лекция 2. Модель MapReduce.
  • Лекция 3. Apache Hadoop. HDFS. YARN. Модель программирования.
  • Лекция 4. Оптимизация MapRduce-программ. Стратегии обработки текста. Пример «co-occurrence matrix». Составной тип ключа. Состояние задания и счетчики. Пример: подсчет биграмм.
  • Лекция 5. MapReduce-алгоритмы на графах
  • Лекция 6. MapReduce-алгоритмы построения инвертированных индексов

Практические работы

  • Работа 1. MapReduce: подсчет частоты слов
  • Работа 2. MapReduce: BiGram
  • Работы 3. MapReduce: анализ графов социальных сетей
  • Работа 4. MapReduce: инвертированный индекс