BIG DATA PARA INGENIERÍAS
Descripción
Este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS le ofrece una formación especializada en la materia dentro de la Familia Profesional de Informática y comunicaciones. Con este CURSO IFCT165PO BIG DATA PARA INGENIERÍAS el alumno será capaz de desenvolverse dentro del Sector y conocer las tecnologías disponibles para realizar estrategias de Big Data para Ingenierías, realizar un desarrollo con Spark y Hadoop y analizar datos con Pig Hive e Impala.
80 horas · Scorm · con tutor. Formación bonificable para empresas vía FUNDAE.
Programa detallado
Unidad didáctica 1. Introducción
- ¿Qué es Big Data?
- Paradigmas de procesamiento en Big Data
- Las 8 V de Big Data (Volumen, Volatilidad, Variedad, Valor, Velocidad, Variabilidad, Veracidad, Validez).
Unidad didáctica 2. Batch processing
- MapReduce
- Entorno MapReduce
- Función Map y función Reduce
- Flujo de datos
- Características de MapReduce
- Uso de MarpReduce
- Ventajas e inconvenientes de Map Reduce
- Ejercicios y ejemplos con MapReduce
- Hadoop
- Entorno Hadoop
- Almacenamiento: Hdfs
- Características de hdfs
- Apache Hadoop yarn
- Funciones de Framework computacionales
- Yarn: El gestor de recursos del cluster
- Conceptos de Apache Spark
- Ejecución de Computational Frameworks en yarn
- Exploración de las aplicaciones de yarn Applications a través de la Web UIs y de Shell
- Agregación de los logs de yarn
- Configuración de Hadoop y registros de Daemon
- Localizar configuraciones y aplicar cambios de configuración
- Gestión de instancias de Role y añadir servicios
- Configuración del servicio hdfs
- Configuración de los logs de Hadoop Daemon
- Configuración del servicio yarn
- Obtención de datos en hdfs
- Ingestión de datos desde fuentes de recursos externos con Flume
- Ingestión de datos desde bases de datos relacionales con Sqoop
- Rest Interfaces
- Buenas prácticas para la importación de datos
- Planificación de un cluster Hadoop
- Consideraciones generales de planificación
- Elección correcta de Hardware
- Opciones de Virtualización
- Consideraciones de red
- Configuración de nodos
- Instalación y configuración de Hive, Pig e Impala
- Clientes Hadoop incluidos en Hue
- ¿Qué es un cliente de Hadoop?
- Instalación y configuración de clientes Hadoop
- Instalación y configuración de Hue
- Autorizaciones y autenticación Hue
- Configuración avanzada de un cluster
- Parámetros avanzados de configuración
- Configuración de puertos Hadoop
- Configuración de hdfs para la organización en rack
- Configuración de hdfs para obtención de alta disponibilidad
- Seguridad Hadoop
- ¿Por qué es importante la seguridad en Hadoop?
- Conceptos del sistema de seguridad de Hadoop
- Qué es Kerberos y cómo funciona
- Securización de un clúster Hadoop Cluster con Kerberos
- Otros conceptos de seguridad
- Gestión de recursos
- Configuración de cgroups con Static Service Pools
- El Fair Scheduler
- Configuración de Dynamic Resource Pools
- Configuraciones de cpu y memoria yarn
- Impala Query Scheduling
- Mantenimiento de un cluster
- Chequeo del estado de hdfs
- Copia de datos entre clústers
- Añadir y eliminar de nodos en el clúster
- Rebalanceo del Cluster
- Directorio de Snapshots
- Actualización del clúster
- Solución de problemas y monitorización de un cluster
- Sistema general de monitorización
- Monitorización de clústers Hadoop
- Solución de problemas habituales en el clúster de Hadoop
- Errores habituales en la configuración
Unidad didáctica 3. Ciencia de datos
- Data Science
- Que hacen los data scientists, herramientas y procesos que utilizan
- Aplicación de lo aprendido en módulo 2: Uso de Hue
- Apache Spark
- Cómo trabaja Apache Spark y que capacidades nos ofrece
- Que formatos de ficheros populares puede usar Spark para almacenar datos
- Que lenguajes de programación puedes utilizar para trabajar con Spark
- Cómo empezar a utilizar PySpark y Sparklyr
- Cómo comparar PySpark y Sparklyr
- Machine Learning
- ¿Qué es machine learning?
- Algunos conceptos y términos importantes
- Diferentes tipos de algoritmos
- Librerías que se utilizan
- Apache Spark MLlib
- Que capacidades de machine learning nos proporciona MLlib
- Cómo crear, validar y utilizar modelos de machine learning con MLlib
- Ejecución de trabajos Apache Spark
- Cómo un trabajo de Spark se compone de una secuencia de transformaciones seguida de una acción
- Cómo Spark utiliza la ejecución lenta
- Cómo Spark divide los datos entre las particiones
- Cómo ejecuta Spark operaciones limitadas y grandes
- Cómo Spark ejecuta un trabajo en tareas y fases
Unidad didáctica 4. Desarrollo para spark y hadoop
- Datasets y Dataframes
- Operaciones en Dataframe
- Trabajar con Dataframes y Schemas
- Crear Dataframes a partir de Data Sources
- Guardar DataFrames en Data Sources
- DataFrame Schemas
- Rapidez y lentitud de ejecución
- Análisis de datos con consultas de DataFrame
- Consultar DataFrames con el empleo de expresiones de columna
- Agrupación y agregación de consultas
- Unión de DataFrames
- Rdd
- Introducción rdd
- Rdd Data Sources
- Creando y guardando RDDs
- Operaciones con RDDs
- Transformación de datos con RDDs
- Escritura y paso de funciones de transformación
- Ejecuciones de transformación
- Conversión entre RDDs y DataFrames
- Agregación de datos con Pair RDDs
- Key-Valué Pair RDDs
- Mal-Reduce
- Otras operaciones Pair rdd
- Consulta y vistas de tablas con Spark SQL
- Datasets y DataFrames
- Creación de Datasets
- Ejecución y guardado de Datasets
- Operaciones de Dataset
- Creación, configuración y ejecución de aplicaciones Spark
- Creación de una aplicación Spark
- Compilar y ejecutar la aplicación
- Application Deployment Mode
- La interfaz Spark Application Web ui
- Configuración de las propiedades de la aplicación
- Procesamiento distribuido
- Apache Spark en un Clúster
- Particiones rdd
- Ejemplo: Particionamiento en consultas
- Etapas y Tareas
- Planificación de tareas de ejecución
- Persistencia de datos distribuidos
- Persistencia en Datasets y DataFrames
- Persistencia en niveles de almacenamiento
- Visualización de RDDs persistentes
- Patrones comunes al procesar datos con Spark
- Casos comunes de uso de Spark
- Algoritmos de iteración en Apache Spark
- Machine Learning
- Spark Streaming: Introducción a DStreams
- Vista general de Spark Streaming
- DStreams
- Desarrollo de aplicaciones en Streaming
- Spark Streaming: Procesamiento de múltiples lotes
- Operaciones Multi-Batch
- Time Slicing
- Operaciones de estado
- Operaciones Sliding Window
- Vista previa: Streaming estructurado
- Apache Spark Streaming: Data Sources
- Vista general de Streaming Data Source
- Apache Flume y Apache Kafka Data Sources
- Ejemplo: Uso de un Kafka Direct Data Source
Unidad didáctica 5. Análisis de datos
- Introducción a Pig
- ¿Qué es Pig?
- Características de Pig
- Casos de empleo de Pig
- Interacción con Pig
- Análisis de datos básico con Pig
- Sintaxis Pig Latin
- Carga de datos
- Tipos simples de datos
- Definición de campos
- Datos de salida
- Vistas y esquemas
- Filtrado y ordenación de datos
- Funciones habituales
- Procesado de datos complejos con Pig
- Formatos de almacenamiento
- Tipos de datos complejos y anidados
- Agrupaciones
- Funciones predefinidas para datos complejos
- Iteración de datos agrupados
- Operaciones con multiconjuntos de datos con Pig
- Técnicas para combinar conjuntos de datos
- Unión de conjuntos de datos con Pig
- Conjunto de operaciones
- División de conjuntos de datos
- Troubleshooting y optimización de Pig
- Troubleshooting en Pig
- Inicio de sesión
- Empleo de ui web Hadoop
- Muestreo de datos y depuración
- Visión general del rendimiento
- Comprensión del plan de ejecución
- Consejos para mejorar el rendimiento de Jobs en Pig
- Introducción a Hive e Impala
- ¿Qué es Hive?
- ¿Qué es Impala?
- ¿Por qué utilizar Hive e Impala?
- Schema y almacenamiento de datos
- Comparación entre Hive y bases de datos tradicionales
- Casos de uso
- Consultas con Hive e Impala
- Tablas y bases de datos
- Sintaxis básica en consultas Hive e Impala
- Tipos de datos
- Empleo de Hue para ejecutar consultas
- Empleo de Beeline (la Shell de Hive)
- Empleo de la Shell de Impala
- Administración de datos
- Almacenamiento de datos
- Creación de bases de datos y tablas
- Carga de datos
- Alteración de bases de datos y tablas
- Simplificación de consultas con vistas
- Almacenamiento de resultados de consultas
- Almacenamiento y datos de rendimiento
- Partición de tablas
- Carga de datos en tablas particionadas
- Cuándo utilizar el particionamiento
- Elección de formato de almacenamiento
- Gestión de metadatos
- Control de acceso a datos
- Análisis de datos relacional con Hive e Impala
- Unión de conjuntos de datos
- Funciones predefinidas habituales
- Agregaciones y Windowing
- Datos complejos con Hive e Impala
- Datos complejos con Hive
- Datos complejos con Impala
- Análisis de texto con Hive e Impala
- Empleo de expresiones regulares
- Procesamiento de texto con SerDes en Hive
- Análisis de los sentimientos y N•Grams
- Optimización Hive
- Rendimiento de las consultas
- Bucketing
- Indexación de datos
- Hive en Spark
- Optimización de Impala
- Ejecución de consultas
- Mejorar el rendimiento de Impala
- Extendiendo Hive e Impala
- Customizar SerDes y formatos de fichero en Hive
- Transformación de datos con Scripts personalizados en Hive
- Funciones definidas por el usuario
- Consultas parametrizadas
- Comparación entre MapReduce, Pig, Hive, Impala, y bases de datos relacionales. ¿Cuál elegir?
¿Quieres formar a tu equipo en este curso?
Bonificable hasta el 100% de la cuota vía FUNDAE. Déjanos tu email y te enviamos la información de este curso junto con el crédito que tu empresa puede aprovechar.
o calcula primero cuánto crédito genera tu empresa →
✓ ¡Recibido! Te enviamos la información de BIG DATA PARA INGENIERÍAS lo antes posible.