Pipeline de datos

🎥 CineChile Fichas técnicas
🎞 IMDb Datasets públicos
🔗 Matching Cruce de datos
Género Inferencia
📊 Análisis Visualizaciones

Fuentes de datos

Investigación original (2005–2015)

335 películas chilenas financiadas con fondos CORFO y FONDART. Los datos fueron recopilados manualmente desde CineChile.cl y complementados con IMDb. Se registraron los 15 roles técnicos y artísticos para cada película.

CineChile.cl

Base de datos del cine chileno. Se extrae la ficha técnica completa de cada película registrada, incluyendo título, año y equipo técnico/artístico.

IMDb Datasets

Se utilizan los datasets públicos de IMDb (title.basics, title.akas, title.principals, name.basics, title.ratings) para obtener películas chilenas, su crew/cast y ratings. Se filtran por región CL en title.akas.

Roles analizados

Se analizan los mismos 15 roles del proyecto original, organizados por categoría:

# Rol Categoría
1DirecciónLiderazgo creativo
2GuiónLiderazgo creativo
3ProducciónProducción
4Producción EjecutivaProducción
5Producción AsociadaProducción
6Jefatura de ProducciónProducción
7Dirección de FotografíaTécnico
8ArteTécnico
9Asistente de DirecciónTécnico
10MontajePost-producción
11MúsicaPost-producción
12SonidoPost-producción
13MaquillajeArte & Vestuario
14VestuarioArte & Vestuario
15ElencoActuación

Inferencia de género

Método

El género se infiere utilizando múltiples fuentes, en orden de prioridad:

  1. Categoría IMDb: Para elenco, IMDb distingue entre "actor" y "actress", lo que permite clasificación directa.
  2. Overrides chilenos: Base de nombres hispanos comunes con género conocido (ej: Javiera → femenino, Rodrigo → masculino).
  3. gender-guesser: Biblioteca Python que infiere género por nombre de pila usando bases de datos internacionales.
  4. Desconocido: Los casos ambiguos se marcan como "desconocido" y se excluyen del cálculo de porcentajes.

Limitaciones

La inferencia de género por nombre tiene limitaciones inherentes:

  • Los nombres ambiguos o poco comunes pueden clasificarse incorrectamente
  • No contempla identidades no binarias — el método es binario por limitación de las fuentes
  • Los casos "desconocido" se excluyen del cálculo de porcentajes para no distorsionar los resultados

Índice de igualdad (Gauge)

El índice compuesto es un promedio ponderado del porcentaje de participación femenina en cada rol. Los roles de liderazgo (Dirección, Producción, Guión) tienen mayor peso en el cálculo.

El índice va de 0% (100% masculino) a 100% (100% femenino). 50% representa paridad perfecta.

Actualización automática

El sistema se actualiza diariamente de forma automática, revisando CineChile e IMDb por películas chilenas nuevas, procesando el género de personas nuevas y recalculando las estadísticas.