Regresar a la búsqueda

Data Science

Infotree Global Solutions

Expira 06/07/2025
Ciudad Guatemala, Guatemala

Aplicar

Detalle de la Oferta

Área de la Empresa	Servicios
Cargo Solicitado	Arquitecto de Software
Puestos Vacantes	1
Tipo de Contratación	Tiempo completo
Nivel de Experiencia	De uno a tres años
Salario máximo (USD)
Salario minimo (USD)
Vehículo	Indiferente
País	Guatemala
Departamento	Ciudad Guatemala

Descripción de la Oferta

Data Science con enfoque en arquitecturas de datos modernas
Objetivo del puesto
Apoyar la toma de decisiones estratégicas, mediante el análisis de grandes volúmenes de datos provenientes de distintas fuentes batch, desarrollando métricas clave, reportes automatizados, modelos descriptivos y predictivos, utilizando herramientas modernas de procesamiento distribuido y plataformas analíticas avanzadas.

Principales funciones:

• Desarrollar análisis exploratorios, inferenciales y predictivos sobre fuentes de datos estructuradas provenientes de arquitecturas batch.
• Extraer, transformar y analizar grandes volúmenes de datos utilizando motores distribuidos como Apache Spark.
• Consumir y procesar datos de arquitecturas batch tradicionales (archivos planos, bases de datos, parquet, etc.) o data lakes empresariales.
• Ejecutar trabajos Spark en entornos distribuidos gestionados por YARN y orquestados desde interfaces como Apache Livy y Hue.
• Utilizar cuadernos interactivos (Microsoft Fabric o Databricks) para análisis exploratorios, prototipos de modelos o entrega de reportes.
• Generar dashboards dinámicos con indicadores clave para las áreas de negocio.
• Aplicar metodologías de data wrangling y data profiling para limpieza, control de calidad y validación de fuentes de datos.
• Documentar procedimientos, modelos y definiciones de negocio utilizadas.
• Participar en la definición de buenas prácticas y flujos de trabajo en la arquitectura de datos organizacional.

Requisitos mínimos

Título universitario en Estadística Aplicada, Ingeniería en Sistemas, Ciencias de la Computación, Matemática Aplicada, Economía, Ingeniería Electrónica, Ingeniería Mecatrónica o afín.

Técnicos

1. Experiencia de al menos 2 años trabajando con procesamiento de datos batch en entornos distribuidos.
2. Dominio de SQL avanzado, optimización de consultas y modelado relacional.
3. Conocimiento práctico de Apache Spark (PySpark o Scala), preferiblemente sobre YARN.
4. Experiencia utilizando interfaces como Apache Livy y Hue para ejecución y monitoreo de trabajos.
5. Experiencia trabajando con formatos eficientes de almacenamiento como Parquet, ORC, Avro.
6. Dominio de Python orientado al análisis de datos (pandas, numpy, matplotlib, seaborn).
7. Participación en proyectos de modelos predictivos o clasificación usando Scikit-learn, MLlib u otras herramientas de machine learning.
8. Conocimiento de flujos ETL batch y patrones de arquitectura como Medallion Architecture (bronze/silver/gold layers).
9. Uso de herramientas de visualización como Power BI, Tableau o similares.

Deseables (Bonus)
• Experiencia en cuadernos interactivos como Microsoft Fabric Notebooks o Databricks Notebooks.
• Familiaridad con conceptos de arquitectura moderna como ADD Kappa, ADD Lambda, data lakehouse, orquestadores (como Azure Data Factory, Airflow),y capa semántica.
• Conocimiento básico en control de versiones con Git.