📊 Proyectos

1 Trigo pampeano

El cultivo de trigo en la provincia de La Pampa contribuye con el 3% de la producción a nivel Nacional. Es fundamental ubicar la fecha de floración en condiciones óptimas de crecimiento para la formación de los granos ya que el retraso de la fecha de siembra óptima genera caídas en el potencial de rendimiento.

En La Pampa, la fecha de floración está fundamentalmente condicionada por la fecha de la última helada, las elevadas temperaturas durante el llenado de granos, las precipitaciones y el cociente fototermal, colocando como fecha de floración óptima entre el 27 y 31 de octubre.

En función de la fecha de floración y conociendo el requerimiento térmico de las variedades hasta floración se puede estimar la fecha óptima de siembra.

En el año 2021 se realizó un ensayo en la EEA INTA Anguil para evaluar las variaciones del rendimiento de las variedades ante un cambio en la fecha de siembra óptima. Los datos se encuentran en el archivo trigo.csv que tiene las siguientes columnas:

  • dias: fecha de la siembra en días desde el 1 de junio.
  • rendimiento: Rendimiento en kilogramos por hectárea.
  • variedad: Variedad de trigo.

Considere los siguientes puntos para el análisis:

  • Visualice la distribución del día de siembra.
  • ¿Cuál de las dos variedades presenta un mayor rinde?
  • Visualice la relación entre día de siembra y el rinde para las diferentes variedades.
  • Agrupe los días de siembras en decenas. Para eso utilice el método cut.
  • Compare el rinde promedio por decena. Obtenga una tabla resumen o un gráfico que crea conveniente.
  • En base a la información disponible, ¿qué variedad conviene cultivar?

2 Engordes en feedlot

El archivo feedlot.csv contiene información proveniente de un estudio de engorde realizado en un feedlot. Se estudiaron terneros de un año de edad en distintos rodeos. Cada animal fue alimentado con una de tres dietas con bajo, medio o alto contenido energético. Para cada animal se tiene el peso inicial y el peso final (que se registró en el momento del sacrificio). El archivo contiene las siguientes variables:

  • rodeo: Identificador del rodeo al que pertenece el animal.
  • dieta: Tipo de dieta que siguió el animal.
  • peso_inicial: Peso inicial del ternero (en libras).
  • peso_final: Peso final del ternero (en libras).

Además, se conoce de qué raza son los terneros de los diferentes rodeos:

Rodeo Raza
A Charolesa x Hereford
B Angus x Hereford
C Charolesa x Hereford
D Angus
E Brangus
F Brangus
G Charolesa x Hereford

Realice las siguientes actividades:

  • Convierta el peso de libras a kilogramos. Guarde el resultado en otra columna.
  • Elabore un gráfico que le permita ver la relación entre el peso inicial y el peso final.
  • Replique el gráfico anterior coloreando los puntos según dieta.
  • Replique nuevamente el gráfico anterior, pero coloree los puntos según raza.
  • Calcular la ganancia de peso para cada animal.
  • ¿Qué raza es la que más peso ganó en promedio?
  • Ahora divida la ganancia de peso por el peso inicial y determine nuevamente qué raza es la que ganó más peso en promedio y compare ambos análisis.

3 Interacción genotipo ambiente

Un grupo de investigadores del Reino Unido están interesados en estudiar la interacción genotipo ambiente en el cultivo de papas. Cuentan con información de diversas variedades de papas cultivadas en varias ubicaciones del Reino Unido. Los datos se encuentran en el archivo papas.csv y este contiene las siguientes columnas:

  • variedad: Nombre de la variedad de papa.
  • ubicacion: Nombre del lugar donde se cultivó la papa.
  • rendimiento: Rendimiento de la papa en toneladas por hectárea.

Responda las siguientes preguntas:

  • ¿Cuántas observaciones hay en total? ¿Hay datos faltantes?
  • ¿Cuántas ubicaciones hay en el conjunto de datos? ¿Y cuántos genotipos?
  • ¿Cuántos registros hay por genotipo? ¿Y por ubicación? ¿Y por genotipo y ubicación?
  • ¿Qué ubicación presenta los peores rendimientos?
  • ¿Qué ubicación y variedad presenta el mejor rinde?

De ser posible, utilice algún gráfico para resumir hallazgos de interés.

4 Colisiones entre aeronaves y fauna

Entre 1990 y 1997 se registraron en Estados Unidos miles de colisiones entre aeronaves y aves u otros animales silvestres. En este ejercicio interesa estudiar en qué contextos ocurren estos eventos y qué factores parecen estar asociados con su frecuencia o gravedad.

Los datos provistos se encuentran en el archivo datos/birds.csv.

variable descripción
opid Código de tres letras del operador.
operator Nombre de la aerolínea u operador.
atype Modelo de aeronave.
remarks Observaciones textuales sobre el incidente.
phase_of_flt Fase del vuelo en que ocurrió la colisión.
ac_mass Categoría de masa de la aeronave.
num_engs Cantidad de motores.
date Fecha del incidente.
time_of_day Momento del día.
state Estado de EE.UU. donde ocurrió el incidente.
height Altura sobre el suelo, en pies.
speed Velocidad indicada, en nudos.
effect Efecto del incidente sobre el vuelo.
sky Condición de nubosidad.
species Especie o tipo de ave/animal involucrado.
birds_seen Cantidad de animales observados.
birds_struck Cantidad de animales impactados.

Responda las siguientes preguntas:

  • ¿Cuántas observaciones hay en el conjunto de datos? ¿Hay valores faltantes? ¿Qué tipos de columnas aparecen?
  • ¿Cómo evoluciona la cantidad de incidentes a lo largo del tiempo?
  • ¿En qué fases del vuelo se registran más colisiones?
  • ¿Existen diferencias claras entre los incidentes ocurridos de día, de noche, al amanecer o al atardecer?
  • ¿Qué especies o grupos de especies aparecen con mayor frecuencia en los reportes?
  • Analice la relación entre la cantidad de animales observados y la cantidad de animales impactados.
  • ¿Qué estados registran mayor cantidad de incidentes? Si lo considera conveniente, compare también valores relativos o concentre el análisis en algunos estados.
  • Explore si ciertos efectos sobre el vuelo parecen más frecuentes en determinadas fases del vuelo, alturas o velocidades.
  • Incorpore al menos una visualización que resuma un hallazgo relevante.

Si lo considera conveniente, complemente el trabajo con algún análisis o gráfico adicional.

Los datos de este ejercicio fueron publicados por OpenIntro y pueden encontrarse en este enlace.

5 Sarampión y rubéola en el mundo

Los casos de sarampión y rubéola muestran trayectorias muy diferentes según la región y el período considerado. En este ejercicio interesa analizar cómo evolucionan estos casos en distintos países y regiones, tanto en términos absolutos como relativos.

Los datos provistos se encuentran en la carpeta datos/measles, donde se incluyen dos conjuntos: cases_month.csv, con registros mensuales por país, y cases_year.csv, con registros anuales.

Estos dos archivos forman parte del mismo problema y contienen información complementaria. En cada consigna deberá evaluar cuál de los dos resulta más adecuado para el análisis.

Variables en cases_month.csv

variable descripción
region Región de la OMS.
country Nombre del país.
iso3 Código ISO de tres letras del país.
year Año del registro.
month Mes del registro.
measles_suspect Casos sospechosos de sarampión.
measles_clinical Casos clínicamente compatibles con sarampión.
measles_epi_linked Casos de sarampión vinculados epidemiológicamente.
measles_lab_confirmed Casos de sarampión confirmados por laboratorio.
measles_total Total de casos de sarampión.
rubella_clinical Casos clínicamente compatibles con rubéola.
rubella_epi_linked Casos de rubéola vinculados epidemiológicamente.
rubella_lab_confirmed Casos de rubéola confirmados por laboratorio.
rubella_total Total de casos de rubéola.
discarded Casos descartados.

Variables en cases_year.csv

variable descripción
region Región de la OMS.
country Nombre del país.
iso3 Código ISO de tres letras del país.
year Año del registro.
total_population Población total del país.
annualized_population_most_recent_year_only Población anualizada para 2025.
total_suspected_measles_rubella_cases Casos sospechosos de sarampión o rubéola.
measles_total Total de casos de sarampión.
measles_lab_confirmed Casos de sarampión confirmados por laboratorio.
measles_epi_linked Casos de sarampión vinculados epidemiológicamente.
measles_clinical Casos clínicamente compatibles con sarampión.
measles_incidence_rate_per_1000000_total_population Tasa de sarampión por millón de habitantes.
rubella_total Total de casos de rubéola.
rubella_lab_confirmed Casos de rubéola confirmados por laboratorio.
rubella_epi_linked Casos de rubéola vinculados epidemiológicamente.
rubella_clinical Casos clínicamente compatibles con rubéola.
rubella_incidence_rate_per_1000000_total_population Tasa de rubéola por millón de habitantes.
discarded_cases Casos descartados.
discarded_non_measles_rubella_cases_per_100000_total_population Casos descartados por millón de habitantes.

Responda las siguientes preguntas:

  • ¿Cuántos países y regiones aparecen en los datos? ¿Hay valores faltantes?
  • Obtenga la cantidad total de casos de sarampión por año y describa su evolución.
  • Compare la evolución anual de los casos de sarampión y rubéola.
  • ¿Qué regiones o países registran sistemáticamente mayor cantidad de casos de sarampión?
  • Analice si existen patrones estacionales en los casos mensuales de sarampión.
  • Compare algunos países o regiones usando tasas de incidencia en lugar de cantidades absolutas.
  • Explore la relación entre los casos confirmados por laboratorio y los casos totales de sarampión.
  • Si lo considera conveniente, complemente el análisis con alguna visualización adicional que ayude a resumir los principales hallazgos.

Los datos de este ejercicio fueron publicados por la iniciativa TidyTuesday y pueden encontrarse en este enlace.

6 Lenguas de África

África presenta una enorme diversidad lingüística, distribuida de manera muy desigual entre países y familias de lenguas. En este ejercicio interesa reconstruir una estructura de datos a partir de archivos JSON por país y, desde allí, analizar la distribución de lenguas, familias lingüísticas y cantidad de hablantes nativos.

Los datos provistos se encuentran en la carpeta datos/africa_lenguajes. Dentro de esa carpeta hay una subcarpeta por país, nombrada en español, y dentro de cada una se incluye un archivo datos.json.

Cada archivo datos.json contiene una lista de registros correspondientes a las lenguas habladas en ese país. Cada registro incluye las siguientes variables:

  • language: nombre del idioma.
  • family: familia lingüística a la que pertenece el idioma.
  • native_speakers: cantidad de hablantes nativos.

El nombre del país no aparece dentro de cada objeto del JSON porque esa información está dada por la carpeta que contiene al archivo. Una primera parte importante del trabajo consistirá en leer estos archivos JSON, combinarlos si resulta necesario y construir a partir de ellos las estructuras de datos que considere convenientes para el análisis.

Responda las siguientes preguntas:

  • Recorra la carpeta datos/africa_lenguajes, lea los archivos datos.json y construya a partir de ellos una estructura de datos o una tabla que le resulte útil para el análisis.
  • ¿Cuántos países quedaron representados en los datos? ¿Cuántas lenguas aparecen en total? ¿Hay valores faltantes?
  • ¿Qué país de África presenta la mayor cantidad de lenguas registradas?
  • ¿Qué familias lingüísticas concentran mayor cantidad de hablantes nativos?
  • ¿Qué lenguas aparecen en más de un país?
  • Compare algunos países en función de la cantidad de lenguas registradas o de la cantidad total de hablantes nativos.
  • Incorpore al menos una visualización que resuma un hallazgo relevante.

Si lo considera conveniente, complemente el trabajo con algún análisis o gráfico adicional.

Los datos de este ejercicio fueron publicados por la iniciativa TidyTuesday y pueden encontrarse en este enlace.

7 Campaña agropecuaria

Los datos provistos se encuentran en la carpeta datos/rindes y están organizados en tres conjuntos de datos que contienen registros obtenidos en un campo dividido en varios lotes:

  • lotes.parquet: información sobre los lotes del campo.
  • rindes.parquet: información sobre los cultivos y rindes registrados en cada campaña.
  • lluvias.parquet: información sobre las precipitaciones registradas en cada lote y campaña.

Las columnas de estos conjuntos de datos son las siguientes:

En lotes.parquet:

  • lote: Número que identifica a un lote dentro del campo.
  • hectáreas: Tamaño del lote en hectáreas.

En rindes.parquet:

  • campaña: Indica a qué campaña pertenece el registro.
  • lote: Número que identifica a un lote dentro del campo.
  • qq/ha: Rinde por hectárea registrado en el lote.
  • producto: Producto cultivado en el lote en esa campaña.

En lluvias.parquet:

  • lote: Número que identifica a un lote dentro del campo.
  • campaña: Indica a qué campaña pertenece el registro.
  • lluvia: Cantidad de precipitaciones registradas entre octubre y marzo en ese lote.

Lea los datos provistos y explore la cantidad de filas, los tipos de las columnas, y verifique que no se cuentan con datos perdidos. Luego, desarrolle una Jupyter Notebook con el código necesario para responder las siguientes preguntas:

  • ¿Cuál es el tamaño del campo? ¿Cuántos lotes hay en el campo? ¿De qué tamaño son?
  • ¿Para cuántas campañas se tienen registros? ¿Cuáles son?
  • ¿Qué cultivos se trabajaron en estas campañas?
  • ¿Cuántas hectáreas de cada cultivo se sembraron en todo el periodo analizado?
  • ¿Cuál fue el rinde promedio por hectárea para cada cultivo?
  • Obtenga la cantidad total de quintales cosechados de cada cultivo por campaña.
  • ¿En qué año obtuvo el mejor rinde cada cultivo?
  • ¿Qué lote registró la mayor cantidad de lluvias en una temporada? ¿En qué año sucedió?
  • Calcule el promedio de lluvia por campaña.
  • Visualice la relación entre la cantidad de lluvia caída y el rinde de cada producto.
  • Visualice la cantidad total quintales cosechados por cultivo y por campaña.

Si lo cree necesario, complemente el trabajo realizando algún análisis que crea conveniente para extraer información de estos datos.