BIG DATA PARA INGENIERÍAS

Catálogo / Informática y Comunicaciones

Curso

BIG DATA PARA INGENIERÍAS

Hasta 100%
de la cuota FUNDAE
Teleformación
Modalidad
Con tutor
Seguimiento experto
SCORM
Acceso 24/7

Descripción

Este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS le ofrece una formación especializada en la materia dentro de la Familia Profesional de Informática y comunicaciones. Con este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS el alumno será capaz de desenvolverse dentro del Sector y conocer las tecnologías disponibles para realizar estrategias de Big Data para Ingenierías, realizar un desarrollo con Spark y Hadoop y analizar datos con Pig Hive e Impala.

80 horas · Scorm · con tutor. Formación bonificable para empresas vía FUNDAE.


Programa detallado

Unidad didáctica 1. Introducción

  • ¿Qué es Big Data?
  • Paradigmas de procesamiento en Big Data
  • Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).

Unidad didáctica 2. Batch processing

  • MapReduce
  • Entorno MapReduce
  • Función Map y función Reduce
  • Flujo de datos
  • Características de MapReduce
  • Uso de MarpReduce
  • Ventajas e inconvenientes de Map Reduce
  • Ejercicios y ejemplos con MapReduce
  • Hadoop
  • Entorno Hadoop
  • Almacenamiento: Hdfs
  • Características de hdfs
  • Apache Hadoop yarn
  • Funciones de Framework computacionales
  • Yarn: El gestor de recursos del cluster
  • Conceptos de Apache Spark
  • Ejecución de Computational Frameworks en yarn
  • Exploración de las aplicaciones de yarn Applications a través de la Web UIs y de Shell
  • Agregación de los logs de yarn
  • Configuración de Hadoop y registros de Daemon
  • Localizar configuraciones y aplicar cambios de configuración
  • Gestión de instancias de Role y añadir servicios
  • Configuración del servicio hdfs
  • Configuración de los logs de Hadoop Daemon
  • Configuración del servicio yarn
  • Obtención de datos en hdfs
  • Ingestión de datos desde fuentes de recursos externos con Flume
  • Ingestión de datos desde bases de datos relacionales con Sqoop
  • Rest Interfaces
  • Buenas prácticas para la importación de datos
  • Planificación de un cluster Hadoop
  • Consideraciones generales de planificación
  • Elección correcta de Hardware
  • Opciones de Virtualización
  • Consideraciones de red
  • Configuración de nodos
  • Instalación y configuración de Hive, Pig e Impala
  • Clientes Hadoop incluidos en Hue
  • ¿Qué es un cliente de Hadoop?
  • Instalación y configuración de clientes Hadoop
  • Instalación y configuración de Hue
  • Autorizaciones y autenticación Hue
  • Configuración avanzada de un cluster
  • Parámetros avanzados de configuración
  • Configuración de puertos Hadoop
  • Configuración de hdfs para la organización en rack
  • Configuración de hdfs para obtención de alta disponibilidad
  • Seguridad Hadoop
  • ¿Por qué es importante la seguridad en Hadoop?
  • Conceptos del sistema de seguridad de Hadoop
  • Qué es Kerberos y cómo funciona
  • Securización de un clúster Hadoop Cluster con Kerberos
  • Otros conceptos de seguridad
  • Gestión de recursos
  • Configuración de cgroups con Static Service Pools
  • El Fair Scheduler
  • Configuración de Dynamic Resource Pools
  • Configuraciones de cpu y memoria yarn
  • Impala Query Scheduling
  • Mantenimiento de un cluster
  • Chequeo del estado de hdfs
  • Copia de datos entre clústers
  • Añadir y eliminar de nodos en el clúster
  • Rebalanceo del Cluster
  • Directorio de Snapshots
  • Actualización del clúster
  • Solución de problemas y monitorización de un cluster
  • Sistema general de monitorización
  • Monitorización de clústers Hadoop
  • Solución de problemas habituales en el clúster de Hadoop
  • Errores habituales en la configuración

Unidad didáctica 3. Ciencia de datos

  • Data Science
  • Que hacen los data scientists, herramientas y procesos que utilizan
  • Aplicación de lo aprendido en módulo 2: Uso de Hue
  • Apache Spark
  • Cómo trabaja Apache Spark y que capacidades nos ofrece
  • Que formatos de ficheros populares puede usar Spark para almacenar datos
  • Que lenguajes de programación puedes utilizar para trabajar con Spark
  • Cómo empezar a utilizar PySpark y Sparklyr
  • Cómo comparar PySpark y Sparklyr
  • Machine Learning
  • ¿Qué es machine learning?
  • Algunos conceptos y términos importantes
  • Diferentes tipos de algoritmos
  • Librerías que se utilizan
  • Apache Spark MLlib
  • Que capacidades de machine learning nos proporciona MLlib
  • Cómo crear, validar y utilizar modelos de machine learning con MLlib
  • Ejecución de trabajos Apache Spark
  • Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
  • Cómo Spark utiliza la ejecución lenta
  • Cómo Spark divide los datos entre las particiones
  • Cómo ejecuta Spark operaciones limitadas y grandes
  • Cómo Spark ejecuta un trabajo en tareas y fases

Unidad didáctica 4. Desarrollo para spark y hadoop

  • Datasets y Dataframes
  • Operaciones en Dataframe
  • Trabajar con Dataframes y Schemas
  • Crear Dataframes a partir de Data Sources
  • Guardar DataFrames en Data Sources
  • DataFrame Schemas
  • Rapidez y lentitud de ejecución
  • Análisis de datos con consultas de DataFrame
  • Consultar DataFrames con el empleo de expresiones de columna
  • Agrupación y agregación de consultas
  • Unión de DataFrames
  • Rdd
  • Introducción rdd
  • Rdd Data Sources
  • Creando y guardando RDDs
  • Operaciones con RDDs
  • Transformación de datos con RDDs
  • Escritura y paso de funciones de transformación
  • Ejecuciones de transformación
  • Conversión entre RDDs y DataFrames
  • Agregación de datos con Pair RDDs
  • Key-Valué Pair RDDs
  • Mal-Reduce
  • Otras operaciones Pair rdd
  • Consulta y vistas de tablas con Spark SQL
  • Datasets y DataFrames
  • Creación de Datasets
  • Ejecución y guardado de Datasets
  • Operaciones de Dataset
  • Creación, configuración y ejecución de aplicaciones Spark
  • Creación de una aplicación Spark
  • Compilar y ejecutar la aplicación
  • Application Deployment Mode
  • La interfaz Spark Application Web ui
  • Configuración de las propiedades de la aplicación
  • Procesamiento distribuido
  • Apache Spark en un Clúster
  • Particiones rdd
  • Ejemplo: Particionamiento en consultas
  • Etapas y Tareas
  • Planificación de tareas de ejecución
  • Persistencia de datos distribuidos
  • Persistencia en Datasets y DataFrames
  • Persistencia en niveles de almacenamiento
  • Visualización de RDDs persistentes
  • Patrones comunes al procesar datos con Spark
  • Casos comunes de uso de Spark
  • Algoritmos de iteración en Apache Spark
  • Machine Learning
  • Spark Streaming: Introducción a DStreams
  • Vista general de Spark Streaming
  • DStreams
  • Desarrollo de aplicaciones en Streaming
  • Spark Streaming: Procesamiento de múltiples lotes
  • Operaciones Multi-Batch
  • Time Slicing
  • Operaciones de estado
  • Operaciones Sliding Window
  • Vista previa: Streaming estructurado
  • Apache Spark Streaming: Data Sources
  • Vista general de Streaming Data Source
  • Apache Flume y Apache Kafka Data Sources
  • Ejemplo: Uso de un Kafka Direct Data Source

Unidad didáctica 5. Análisis de datos

  • Introducción a Pig
  • ¿Qué es Pig?
  • Características de Pig
  • Casos de empleo de Pig
  • Interacción con Pig
  • Análisis de datos básico con Pig
  • Sintaxis Pig Latin
  • Carga de datos
  • Tipos simples de datos
  • Definición de campos
  • Datos de salida
  • Vistas y esquemas
  • Filtrado y ordenación de datos
  • Funciones habituales
  • Procesado de datos complejos con Pig
  • Formatos de almacenamiento
  • Tipos de datos complejos y anidados
  • Agrupaciones
  • Funciones predefinidas para datos complejos
  • Iteración de datos agrupados
  • Operaciones con multiconjuntos de datos con Pig
  • Técnicas para combinar conjuntos de datos
  • Unión de conjuntos de datos con Pig
  • Conjunto de operaciones
  • División de conjuntos de datos
  • Troubleshooting y optimización de Pig
  • Troubleshooting en Pig
  • Inicio de sesión
  • Empleo de ui web Hadoop
  • Muestreo de datos y depuración
  • Visión general del rendimiento
  • Comprensión del plan de ejecución
  • Consejos para mejorar el rendimiento de Jobs en Pig
  • Introducción a Hive e Impala
  • ¿Qué es Hive?
  • ¿Qué es Impala?
  • ¿Por qué utilizar Hive e Impala?
  • Schema y almacenamiento de datos
  • Comparación entre Hive y bases de datos tradicionales
  • Casos de uso
  • Consultas con Hive e Impala
  • Tablas y bases de datos
  • Sintaxis básica en consultas Hive e Impala
  • Tipos de datos
  • Empleo de Hue para ejecutar consultas
  • Empleo de Beeline (la Shell de Hive)
  • Empleo de la Shell de Impala
  • Administración de datos
  • Almacenamiento de datos
  • Creación de bases de datos y tablas
  • Carga de datos
  • Alteración de bases de datos y tablas
  • Simplificación de consultas con vistas
  • Almacenamiento de resultados de consultas
  • Almacenamiento y datos de rendimiento
  • Partición de tablas
  • Carga de datos en tablas particionadas
  • Cuándo utilizar el particionamiento
  • Elección de formato de almacenamiento
  • Gestión de metadatos
  • Control de acceso a datos
  • Análisis de datos relacional con Hive e Impala
  • Unión de conjuntos de datos
  • Funciones predefinidas habituales
  • Agregaciones y Windowing
  • Datos complejos con Hive e Impala
  • Datos complejos con Hive
  • Datos complejos con Impala
  • Análisis de texto con Hive e Impala
  • Empleo de expresiones regulares
  • Procesamiento de texto con SerDes en Hive
  • Análisis de los sentimientos y N•Grams
  • Optimización Hive
  • Rendimiento de las consultas
  • Bucketing
  • Indexación de datos
  • Hive en Spark
  • Optimización de Impala
  • Ejecución de consultas
  • Mejorar el rendimiento de Impala
  • Extendiendo Hive e Impala
  • Customizar SerDes y formatos de fichero en Hive
  • Transformación de datos con Scripts personalizados en Hive
  • Funciones definidas por el usuario
  • Consultas parametrizadas
  • Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?

¿Quieres formar a tu equipo en este curso?

Bonificable hasta el 100% de la cuota vía FUNDAE. Déjanos tu email y te enviamos la información de este curso junto con el crédito que tu empresa puede aprovechar.

o calcula primero cuánto crédito genera tu empresa →

Scroll to Top