📊 Proyectos

1 Trigo pampeano

El cultivo de trigo en la provincia de La Pampa contribuye con el 3% de la producción a nivel Nacional. Es fundamental ubicar la fecha de floración en condiciones óptimas de crecimiento para la formación de los granos ya que el retraso de la fecha de siembra óptima genera caídas en el potencial de rendimiento.

En La Pampa, la fecha de floración está fundamentalmente condicionada por la fecha de la última helada, las elevadas temperaturas durante el llenado de granos, las precipitaciones y el cociente fototermal, colocando como fecha de floración óptima entre el 27 y 31 de octubre.

En función de la fecha de floración y conociendo el requerimiento térmico de las variedades hasta floración se puede estimar la fecha óptima de siembra.

En el año 2021 se realizó un ensayo en la EEA INTA Anguil para evaluar las variaciones del rendimiento de las variedades ante un cambio en la fecha de siembra óptima. Los datos se encuentran en el archivo trigo.csv que tiene las siguientes columnas:

dias: fecha de la siembra en días desde el 1 de junio.
rendimiento: Rendimiento en kilogramos por hectárea.
variedad: Variedad de trigo.

Considere los siguientes puntos para el análisis:

Visualice la distribución del día de siembra.
¿Cuál de las dos variedades presenta un mayor rinde?
Visualice la relación entre día de siembra y el rinde para las diferentes variedades.
Agrupe los días de siembras en decenas. Para eso utilice el método cut.
Compare el rinde promedio por decena. Obtenga una tabla resumen o un gráfico que crea conveniente.
En base a la información disponible, ¿qué variedad conviene cultivar?

2 Engordes en feedlot

El archivo feedlot.csv contiene información proveniente de un estudio de engorde realizado en un feedlot. Se estudiaron terneros de un año de edad en distintos rodeos. Cada animal fue alimentado con una de tres dietas con bajo, medio o alto contenido energético. Para cada animal se tiene el peso inicial y el peso final (que se registró en el momento del sacrificio). El archivo contiene las siguientes variables:

rodeo: Identificador del rodeo al que pertenece el animal.
dieta: Tipo de dieta que siguió el animal.
peso_inicial: Peso inicial del ternero (en libras).
peso_final: Peso final del ternero (en libras).

Además, se conoce de qué raza son los terneros de los diferentes rodeos:

Rodeo	Raza
A	Charolesa x Hereford
B	Angus x Hereford
C	Charolesa x Hereford
D	Angus
E	Brangus
F	Brangus
G	Charolesa x Hereford

Realice las siguientes actividades:

Convierta el peso de libras a kilogramos. Guarde el resultado en otra columna.
Elabore un gráfico que le permita ver la relación entre el peso inicial y el peso final.
Replique el gráfico anterior coloreando los puntos según dieta.
Replique nuevamente el gráfico anterior, pero coloree los puntos según raza.
Calcular la ganancia de peso para cada animal.
¿Qué raza es la que más peso ganó en promedio?
Ahora divida la ganancia de peso por el peso inicial y determine nuevamente qué raza es la que ganó más peso en promedio y compare ambos análisis.

3 Interacción genotipo ambiente

Un grupo de investigadores del Reino Unido están interesados en estudiar la interacción genotipo ambiente en el cultivo de papas. Cuentan con información de diversas variedades de papas cultivadas en varias ubicaciones del Reino Unido. Los datos se encuentran en el archivo papas.csv y este contiene las siguientes columnas:

variedad: Nombre de la variedad de papa.
ubicacion: Nombre del lugar donde se cultivó la papa.
rendimiento: Rendimiento de la papa en toneladas por hectárea.

Responda las siguientes preguntas:

¿Cuántas observaciones hay en total? ¿Hay datos faltantes?
¿Cuántas ubicaciones hay en el conjunto de datos? ¿Y cuántos genotipos?
¿Cuántos registros hay por genotipo? ¿Y por ubicación? ¿Y por genotipo y ubicación?
¿Qué ubicación presenta los peores rendimientos?
¿Qué ubicación y variedad presenta el mejor rinde?

De ser posible, utilice algún gráfico para resumir hallazgos de interés.

4 Colisiones entre aeronaves y fauna

Entre 1990 y 1997 se registraron en Estados Unidos miles de colisiones entre aeronaves y aves u otros animales silvestres. En este ejercicio interesa estudiar en qué contextos ocurren estos eventos y qué factores parecen estar asociados con su frecuencia o gravedad.

Los datos provistos se encuentran en el archivo datos/birds.csv.

variable	descripción
`opid`	Código de tres letras del operador.
`operator`	Nombre de la aerolínea u operador.
`atype`	Modelo de aeronave.
`remarks`	Observaciones textuales sobre el incidente.
`phase_of_flt`	Fase del vuelo en que ocurrió la colisión.
`ac_mass`	Categoría de masa de la aeronave.
`num_engs`	Cantidad de motores.
`date`	Fecha del incidente.
`time_of_day`	Momento del día.
`state`	Estado de EE.UU. donde ocurrió el incidente.
`height`	Altura sobre el suelo, en pies.
`speed`	Velocidad indicada, en nudos.
`effect`	Efecto del incidente sobre el vuelo.
`sky`	Condición de nubosidad.
`species`	Especie o tipo de ave/animal involucrado.
`birds_seen`	Cantidad de animales observados.
`birds_struck`	Cantidad de animales impactados.

Responda las siguientes preguntas:

¿Cuántas observaciones hay en el conjunto de datos? ¿Hay valores faltantes? ¿Qué tipos de columnas aparecen?
¿Cómo evoluciona la cantidad de incidentes a lo largo del tiempo?
¿En qué fases del vuelo se registran más colisiones?
¿Existen diferencias claras entre los incidentes ocurridos de día, de noche, al amanecer o al atardecer?
¿Qué especies o grupos de especies aparecen con mayor frecuencia en los reportes?
Analice la relación entre la cantidad de animales observados y la cantidad de animales impactados.
¿Qué estados registran mayor cantidad de incidentes? Si lo considera conveniente, compare también valores relativos o concentre el análisis en algunos estados.
Explore si ciertos efectos sobre el vuelo parecen más frecuentes en determinadas fases del vuelo, alturas o velocidades.
Incorpore al menos una visualización que resuma un hallazgo relevante.

Si lo considera conveniente, complemente el trabajo con algún análisis o gráfico adicional.

Los datos de este ejercicio fueron publicados por OpenIntro y pueden encontrarse en este enlace.

5 Sarampión y rubéola en el mundo

Los casos de sarampión y rubéola muestran trayectorias muy diferentes según la región y el período considerado. En este ejercicio interesa analizar cómo evolucionan estos casos en distintos países y regiones, tanto en términos absolutos como relativos.

Los datos provistos se encuentran en la carpeta datos/measles, donde se incluyen dos conjuntos: cases_month.csv, con registros mensuales por país, y cases_year.csv, con registros anuales.

Estos dos archivos forman parte del mismo problema y contienen información complementaria. En cada consigna deberá evaluar cuál de los dos resulta más adecuado para el análisis.

Variables en `cases_month.csv`

variable	descripción
`region`	Región de la OMS.
`country`	Nombre del país.
`iso3`	Código ISO de tres letras del país.
`year`	Año del registro.
`month`	Mes del registro.
`measles_suspect`	Casos sospechosos de sarampión.
`measles_clinical`	Casos clínicamente compatibles con sarampión.
`measles_epi_linked`	Casos de sarampión vinculados epidemiológicamente.
`measles_lab_confirmed`	Casos de sarampión confirmados por laboratorio.
`measles_total`	Total de casos de sarampión.
`rubella_clinical`	Casos clínicamente compatibles con rubéola.
`rubella_epi_linked`	Casos de rubéola vinculados epidemiológicamente.
`rubella_lab_confirmed`	Casos de rubéola confirmados por laboratorio.
`rubella_total`	Total de casos de rubéola.
`discarded`	Casos descartados.

Variables en `cases_year.csv`

variable	descripción
`region`	Región de la OMS.
`country`	Nombre del país.
`iso3`	Código ISO de tres letras del país.
`year`	Año del registro.
`total_population`	Población total del país.
`annualized_population_most_recent_year_only`	Población anualizada para 2025.
`total_suspected_measles_rubella_cases`	Casos sospechosos de sarampión o rubéola.
`measles_total`	Total de casos de sarampión.
`measles_lab_confirmed`	Casos de sarampión confirmados por laboratorio.
`measles_epi_linked`	Casos de sarampión vinculados epidemiológicamente.
`measles_clinical`	Casos clínicamente compatibles con sarampión.
`measles_incidence_rate_per_1000000_total_population`	Tasa de sarampión por millón de habitantes.
`rubella_total`	Total de casos de rubéola.
`rubella_lab_confirmed`	Casos de rubéola confirmados por laboratorio.
`rubella_epi_linked`	Casos de rubéola vinculados epidemiológicamente.
`rubella_clinical`	Casos clínicamente compatibles con rubéola.
`rubella_incidence_rate_per_1000000_total_population`	Tasa de rubéola por millón de habitantes.
`discarded_cases`	Casos descartados.
`discarded_non_measles_rubella_cases_per_100000_total_population`	Casos descartados por millón de habitantes.

Responda las siguientes preguntas:

¿Cuántos países y regiones aparecen en los datos? ¿Hay valores faltantes?
Obtenga la cantidad total de casos de sarampión por año y describa su evolución.
Compare la evolución anual de los casos de sarampión y rubéola.
¿Qué regiones o países registran sistemáticamente mayor cantidad de casos de sarampión?
Analice si existen patrones estacionales en los casos mensuales de sarampión.
Compare algunos países o regiones usando tasas de incidencia en lugar de cantidades absolutas.
Explore la relación entre los casos confirmados por laboratorio y los casos totales de sarampión.
Si lo considera conveniente, complemente el análisis con alguna visualización adicional que ayude a resumir los principales hallazgos.

Los datos de este ejercicio fueron publicados por la iniciativa TidyTuesday y pueden encontrarse en este enlace.

6 Lenguas de África

África presenta una enorme diversidad lingüística, distribuida de manera muy desigual entre países y familias de lenguas. En este ejercicio interesa reconstruir una estructura de datos a partir de archivos JSON por país y, desde allí, analizar la distribución de lenguas, familias lingüísticas y cantidad de hablantes nativos.

Los datos provistos se encuentran en la carpeta datos/africa_lenguajes. Dentro de esa carpeta hay una subcarpeta por país, nombrada en español, y dentro de cada una se incluye un archivo datos.json.

Cada archivo datos.json contiene una lista de registros correspondientes a las lenguas habladas en ese país. Cada registro incluye las siguientes variables:

language: nombre del idioma.
family: familia lingüística a la que pertenece el idioma.
native_speakers: cantidad de hablantes nativos.

El nombre del país no aparece dentro de cada objeto del JSON porque esa información está dada por la carpeta que contiene al archivo. Una primera parte importante del trabajo consistirá en leer estos archivos JSON, combinarlos si resulta necesario y construir a partir de ellos las estructuras de datos que considere convenientes para el análisis.

Responda las siguientes preguntas:

Recorra la carpeta datos/africa_lenguajes, lea los archivos datos.json y construya a partir de ellos una estructura de datos o una tabla que le resulte útil para el análisis.
¿Cuántos países quedaron representados en los datos? ¿Cuántas lenguas aparecen en total? ¿Hay valores faltantes?
¿Qué país de África presenta la mayor cantidad de lenguas registradas?
¿Qué familias lingüísticas concentran mayor cantidad de hablantes nativos?
¿Qué lenguas aparecen en más de un país?
Compare algunos países en función de la cantidad de lenguas registradas o de la cantidad total de hablantes nativos.
Incorpore al menos una visualización que resuma un hallazgo relevante.

Si lo considera conveniente, complemente el trabajo con algún análisis o gráfico adicional.

Los datos de este ejercicio fueron publicados por la iniciativa TidyTuesday y pueden encontrarse en este enlace.

7 Campaña agropecuaria

Los datos provistos se encuentran en la carpeta datos/rindes y están organizados en tres conjuntos de datos que contienen registros obtenidos en un campo dividido en varios lotes:

lotes.parquet: información sobre los lotes del campo.
rindes.parquet: información sobre los cultivos y rindes registrados en cada campaña.
lluvias.parquet: información sobre las precipitaciones registradas en cada lote y campaña.

Las columnas de estos conjuntos de datos son las siguientes:

En lotes.parquet:

lote: Número que identifica a un lote dentro del campo.
hectáreas: Tamaño del lote en hectáreas.

En rindes.parquet:

campaña: Indica a qué campaña pertenece el registro.
lote: Número que identifica a un lote dentro del campo.
qq/ha: Rinde por hectárea registrado en el lote.
producto: Producto cultivado en el lote en esa campaña.

En lluvias.parquet:

lote: Número que identifica a un lote dentro del campo.
campaña: Indica a qué campaña pertenece el registro.
lluvia: Cantidad de precipitaciones registradas entre octubre y marzo en ese lote.

Lea los datos provistos y explore la cantidad de filas, los tipos de las columnas, y verifique que no se cuentan con datos perdidos. Luego, desarrolle una Jupyter Notebook con el código necesario para responder las siguientes preguntas:

¿Cuál es el tamaño del campo? ¿Cuántos lotes hay en el campo? ¿De qué tamaño son?
¿Para cuántas campañas se tienen registros? ¿Cuáles son?
¿Qué cultivos se trabajaron en estas campañas?
¿Cuántas hectáreas de cada cultivo se sembraron en todo el periodo analizado?
¿Cuál fue el rinde promedio por hectárea para cada cultivo?
Obtenga la cantidad total de quintales cosechados de cada cultivo por campaña.
¿En qué año obtuvo el mejor rinde cada cultivo?
¿Qué lote registró la mayor cantidad de lluvias en una temporada? ¿En qué año sucedió?
Calcule el promedio de lluvia por campaña.
Visualice la relación entre la cantidad de lluvia caída y el rinde de cada producto.
Visualice la cantidad total quintales cosechados por cultivo y por campaña.

Si lo cree necesario, complemente el trabajo realizando algún análisis que crea conveniente para extraer información de estos datos.

1 Trigo pampeano

2 Engordes en feedlot

3 Interacción genotipo ambiente

4 Colisiones entre aeronaves y fauna

5 Sarampión y rubéola en el mundo

Variables en cases_month.csv

Variables en cases_year.csv

6 Lenguas de África

7 Campaña agropecuaria

Variables en `cases_month.csv`

Variables en `cases_year.csv`