Curso

Big data para ingenierías

Ref. EMP

Bonificable

hasta el 100%

Teleformación

Modalidad

Con tutor

Seguimiento experto

80 h

Duración

Descripción

Este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS le ofrece una formación especializada en la materia dentro de la Familia Profesional de Informática y comunicaciones. Con este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS el alumno será capaz de desenvolverse dentro del Sector y conocer las tecnologías disponibles para realizar estrategias de Big Data para Ingenierías, realizar un desarrollo con Spark y Hadoop y analizar datos con Pig Hive e Impala.

80 horas · Scorm · con tutor. Formación bonificable para empresas vía FUNDAE.

Programa detallado

1. Introducción

¿Qué es Big Data?
Paradigmas de procesamiento en Big Data
Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).

2. Batch processing

MapReduce
Entorno MapReduce
Función Map y función Reduce
Flujo de datos
Características de MapReduce
Uso de MarpReduce
Ventajas e inconvenientes de Map Reduce
Ejercicios y ejemplos con MapReduce
Hadoop
Entorno Hadoop
Almacenamiento: Hdfs
Características de hdfs
Apache Hadoop yarn
Funciones de Framework computacionales
Yarn: El gestor de recursos del cluster
Conceptos de Apache Spark
Ejecución de Computational Frameworks en yarn
Exploración de las aplicaciones de yarn Applications a través de la Web UIs y de Shell
Agregación de los logs de yarn
Configuración de Hadoop y registros de Daemon
Localizar configuraciones y aplicar cambios de configuración
Gestión de instancias de Role y añadir servicios
Configuración del servicio hdfs
Configuración de los logs de Hadoop Daemon
Configuración del servicio yarn
Obtención de datos en hdfs
Ingestión de datos desde fuentes de recursos externos con Flume
Ingestión de datos desde bases de datos relacionales con Sqoop
Rest Interfaces
Buenas prácticas para la importación de datos
Planificación de un cluster Hadoop
Consideraciones generales de planificación
Elección correcta de Hardware
Opciones de Virtualización
Consideraciones de red
Configuración de nodos
Instalación y configuración de Hive, Pig e Impala
Clientes Hadoop incluidos en Hue
¿Qué es un cliente de Hadoop?
Instalación y configuración de clientes Hadoop
Instalación y configuración de Hue
Autorizaciones y autenticación Hue
Configuración avanzada de un cluster
Parámetros avanzados de configuración
Configuración de puertos Hadoop
Configuración de hdfs para la organización en rack
Configuración de hdfs para obtención de alta disponibilidad
Seguridad Hadoop
¿Por qué es importante la seguridad en Hadoop?
Conceptos del sistema de seguridad de Hadoop
Qué es Kerberos y cómo funciona
Securización de un clúster Hadoop Cluster con Kerberos
Otros conceptos de seguridad
Gestión de recursos
Configuración de cgroups con Static Service Pools
El Fair Scheduler
Configuración de Dynamic Resource Pools
Configuraciones de cpu y memoria yarn
Impala Query Scheduling
Mantenimiento de un cluster
Chequeo del estado de hdfs
Copia de datos entre clústers
Añadir y eliminar de nodos en el clúster
Rebalanceo del Cluster
Directorio de Snapshots
Actualización del clúster
Solución de problemas y monitorización de un cluster
Sistema general de monitorización
Monitorización de clústers Hadoop
Solución de problemas habituales en el clúster de Hadoop
Errores habituales en la configuración

3. Ciencia de datos

Data Science
Que hacen los data scientists, herramientas y procesos que utilizan
Aplicación de lo aprendido en módulo 2: Uso de Hue
Apache Spark
Cómo trabaja Apache Spark y que capacidades nos ofrece
Que formatos de ficheros populares puede usar Spark para almacenar datos
Que lenguajes de programación puedes utilizar para trabajar con Spark
Cómo empezar a utilizar PySpark y Sparklyr
Cómo comparar PySpark y Sparklyr
Machine Learning
¿Qué es machine learning?
Algunos conceptos y términos importantes
Diferentes tipos de algoritmos
Librerías que se utilizan
Apache Spark MLlib
Que capacidades de machine learning nos proporciona MLlib
Cómo crear, validar y utilizar modelos de machine learning con MLlib
Ejecución de trabajos Apache Spark
Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
Cómo Spark utiliza la ejecución lenta
Cómo Spark divide los datos entre las particiones
Cómo ejecuta Spark operaciones limitadas y grandes
Cómo Spark ejecuta un trabajo en tareas y fases

4. Desarrollo para spark y hadoop

Datasets y Dataframes
Operaciones en Dataframe
Trabajar con Dataframes y Schemas
Crear Dataframes a partir de Data Sources
Guardar DataFrames en Data Sources
DataFrame Schemas
Rapidez y lentitud de ejecución
Análisis de datos con consultas de DataFrame
Consultar DataFrames con el empleo de expresiones de columna
Agrupación y agregación de consultas
Unión de DataFrames
Rdd
Introducción rdd
Rdd Data Sources
Creando y guardando RDDs
Operaciones con RDDs
Transformación de datos con RDDs
Escritura y paso de funciones de transformación
Ejecuciones de transformación
Conversión entre RDDs y DataFrames
Agregación de datos con Pair RDDs
Key-Valué Pair RDDs
Mal-Reduce
Otras operaciones Pair rdd
Consulta y vistas de tablas con Spark SQL
Datasets y DataFrames
Creación de Datasets
Ejecución y guardado de Datasets
Operaciones de Dataset
Creación, configuración y ejecución de aplicaciones Spark
Creación de una aplicación Spark
Compilar y ejecutar la aplicación
Application Deployment Mode
La interfaz Spark Application Web ui
Configuración de las propiedades de la aplicación
Procesamiento distribuido
Apache Spark en un Clúster
Particiones rdd
Ejemplo: Particionamiento en consultas
Etapas y Tareas
Planificación de tareas de ejecución
Persistencia de datos distribuidos
Persistencia en Datasets y DataFrames
Persistencia en niveles de almacenamiento
Visualización de RDDs persistentes
Patrones comunes al procesar datos con Spark
Casos comunes de uso de Spark
Algoritmos de iteración en Apache Spark
Machine Learning
Spark Streaming: Introducción a DStreams
Vista general de Spark Streaming
DStreams
Desarrollo de aplicaciones en Streaming
Spark Streaming: Procesamiento de múltiples lotes
Operaciones Multi-Batch
Time Slicing
Operaciones de estado
Operaciones Sliding Window
Vista previa: Streaming estructurado
Apache Spark Streaming: Data Sources
Vista general de Streaming Data Source
Apache Flume y Apache Kafka Data Sources
Ejemplo: Uso de un Kafka Direct Data Source

5. Análisis de datos

Introducción a Pig
¿Qué es Pig?
Características de Pig
Casos de empleo de Pig
Interacción con Pig
Análisis de datos básico con Pig
Sintaxis Pig Latin
Carga de datos
Tipos simples de datos
Definición de campos
Datos de salida
Vistas y esquemas
Filtrado y ordenación de datos
Funciones habituales
Procesado de datos complejos con Pig
Formatos de almacenamiento
Tipos de datos complejos y anidados
Agrupaciones
Funciones predefinidas para datos complejos
Iteración de datos agrupados
Operaciones con multiconjuntos de datos con Pig
Técnicas para combinar conjuntos de datos
Unión de conjuntos de datos con Pig
Conjunto de operaciones
División de conjuntos de datos
Troubleshooting y optimización de Pig
Troubleshooting en Pig
Inicio de sesión
Empleo de ui web Hadoop
Muestreo de datos y depuración
Visión general del rendimiento
Comprensión del plan de ejecución
Consejos para mejorar el rendimiento de Jobs en Pig
Introducción a Hive e Impala
¿Qué es Hive?
¿Qué es Impala?
¿Por qué utilizar Hive e Impala?
Schema y almacenamiento de datos
Comparación entre Hive y bases de datos tradicionales
Casos de uso
Consultas con Hive e Impala
Tablas y bases de datos
Sintaxis básica en consultas Hive e Impala
Tipos de datos
Empleo de Hue para ejecutar consultas
Empleo de Beeline (la Shell de Hive)
Empleo de la Shell de Impala
Administración de datos
Almacenamiento de datos
Creación de bases de datos y tablas
Carga de datos
Alteración de bases de datos y tablas
Simplificación de consultas con vistas
Almacenamiento de resultados de consultas
Almacenamiento y datos de rendimiento
Partición de tablas
Carga de datos en tablas particionadas
Cuándo utilizar el particionamiento
Elección de formato de almacenamiento
Gestión de metadatos
Control de acceso a datos
Análisis de datos relacional con Hive e Impala
Unión de conjuntos de datos
Funciones predefinidas habituales
Agregaciones y Windowing
Datos complejos con Hive e Impala
Datos complejos con Hive
Datos complejos con Impala
Análisis de texto con Hive e Impala
Empleo de expresiones regulares
Procesamiento de texto con SerDes en Hive
Análisis de los sentimientos y N•Grams
Optimización Hive
Rendimiento de las consultas
Bucketing
Indexación de datos
Hive en Spark
Optimización de Impala
Ejecución de consultas
Mejorar el rendimiento de Impala
Extendiendo Hive e Impala
Customizar SerDes y formatos de fichero en Hive
Transformación de datos con Scripts personalizados en Hive
Funciones definidas por el usuario
Consultas parametrizadas
Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?

¿Quieres formar a tu equipo en este curso?

Bonificable hasta el 100% de la cuota vía FUNDAE. Déjanos tu email y te enviamos la información de este curso junto con el crédito que tu empresa puede aprovechar.

o calcula primero cuánto crédito genera tu empresa →

Big data para ingenierías

Descripción

Programa detallado

¿Quieres formar a tu equipo en este curso?

🍪 Usamos cookies