Área de la Empresa | Servicios |
Cargo Solicitado | Arquitecto de Software |
Puestos Vacantes | 1 |
Tipo de Contratación | Tiempo completo |
Nivel de Experiencia | De uno a tres años |
Salario máximo (USD) | |
Salario minimo (USD) | |
Vehículo | Indiferente |
País | Guatemala |
Departamento | Ciudad Guatemala |
Data Science con enfoque en arquitecturas de datos modernas
Objetivo del puesto
Apoyar la toma de decisiones estratégicas, mediante el análisis de grandes volúmenes de datos provenientes de distintas fuentes batch, desarrollando métricas clave, reportes automatizados, modelos descriptivos y predictivos, utilizando herramientas modernas de procesamiento distribuido y plataformas analíticas avanzadas.
Principales funciones:
• Desarrollar análisis exploratorios, inferenciales y predictivos sobre fuentes de datos estructuradas provenientes de arquitecturas batch.
• Extraer, transformar y analizar grandes volúmenes de datos utilizando motores distribuidos como Apache Spark.
• Consumir y procesar datos de arquitecturas batch tradicionales (archivos planos, bases de datos, parquet, etc.) o data lakes empresariales.
• Ejecutar trabajos Spark en entornos distribuidos gestionados por YARN y orquestados desde interfaces como Apache Livy y Hue.
• Utilizar cuadernos interactivos (Microsoft Fabric o Databricks) para análisis exploratorios, prototipos de modelos o entrega de reportes.
• Generar dashboards dinámicos con indicadores clave para las áreas de negocio.
• Aplicar metodologías de data wrangling y data profiling para limpieza, control de calidad y validación de fuentes de datos.
• Documentar procedimientos, modelos y definiciones de negocio utilizadas.
• Participar en la definición de buenas prácticas y flujos de trabajo en la arquitectura de datos organizacional.
Requisitos mínimos
Título universitario en Estadística Aplicada, Ingeniería en Sistemas, Ciencias de la Computación, Matemática Aplicada, Economía, Ingeniería Electrónica, Ingeniería Mecatrónica o afín.
Técnicos
1. Experiencia de al menos 2 años trabajando con procesamiento de datos batch en entornos distribuidos.
2. Dominio de SQL avanzado, optimización de consultas y modelado relacional.
3. Conocimiento práctico de Apache Spark (PySpark o Scala), preferiblemente sobre YARN.
4. Experiencia utilizando interfaces como Apache Livy y Hue para ejecución y monitoreo de trabajos.
5. Experiencia trabajando con formatos eficientes de almacenamiento como Parquet, ORC, Avro.
6. Dominio de Python orientado al análisis de datos (pandas, numpy, matplotlib, seaborn).
7. Participación en proyectos de modelos predictivos o clasificación usando Scikit-learn, MLlib u otras herramientas de machine learning.
8. Conocimiento de flujos ETL batch y patrones de arquitectura como Medallion Architecture (bronze/silver/gold layers).
9. Uso de herramientas de visualización como Power BI, Tableau o similares.
Deseables (Bonus)
• Experiencia en cuadernos interactivos como Microsoft Fabric Notebooks o Databricks Notebooks.
• Familiaridad con conceptos de arquitectura moderna como ADD Kappa, ADD Lambda, data lakehouse, orquestadores (como Azure Data Factory, Airflow),y capa semántica.
• Conocimiento básico en control de versiones con Git.
Administrador de Base de Datos (Opcional) |
Analista de Seguridad Informática (Opcional) |
Informática | Sistemas (Opcional) |
Universidad Completa | Graduado |
Completa Requerido |
Inglés (Opcional) |
Intermedio |
Por favor, ingresa tu correo electrónico
Por favor, ingresa un correo electrónico válido