24 de marzo de 2025
Ubicación del DataSet: https://www.kaggle.com/c/titanic/data
El DataSet se utilizará para construir sus modelos de aprendizaje automático. Se proporcionará el resultado (ground truth) de cada pasajero. Su modelo se basará en “propiedades” como el sexo y la clase de los pasajeros. El conjunto de pruebas se utilizará para comprobar el rendimiento del modelo con datos no observados. Para el conjunto de prueba, no se proporcionará el ground truth para cada pasajero. Se predecirán los resultados. Para cada pasajero del conjunto de prueba. Se utilizará el modelo que se ha entrenado para predecir si sobrevivieron o no al hundimiento del Titanic.
pclass: Un indicador indirecto del estatus socioeconómico (SES)
age: La edad es fraccionaria si es inferior a 1. Si la edad es estimada, es en forma de xx.5.
sibsp: El conjunto de datos define las relaciones familiares de esta manera:
parch: El conjunto de datos define las relaciones familiares de la siguiente manera:
Algunos niños viajaron sólo con una niñera, por lo que parch es 0 para ellos.
Se creará un nuevo “Notebook”, el entorno de trabajo proporcionado por kaggle con las bibliotecas necesarias instaladas.
Se importarán los DataSets necesarios a dicho entorno.
En el Notebook se muestra un script en Python con varias librerías importadas por defecto:
np
): Biblioteca para trabajar con matrices y funciones matemáticas avanzadas.pd
): Biblioteca para manipulación y análisis de datos en DataFrames.Se itera por cada fichero en el directorio donde se almacenan los DataSets y se muestran los archivos.
train.csv: Contiene los datos de entrenamiento, con la variable objetivo Survived:
test.csv: Contiene los datos de prueba, sin la variable Survived, que será el conjunto sobre el cual se harán las predicciones.
Se definirán diferentes variables con dichos archivos CSV. Se importarán las librerías necesarias para entrenar el modelo y trabajar con diferentes estructuras de datos, como DataFrames.
Examinado el archivo train.csv, se puede encontrar una columna con el sexo de cada pasajero.
A modo de ejemplo de cómo se puede operar con estos datos, se puede tratar de obtener la proporción de pasajeros en función de este parámetro.
Un DataFrame es una estructura de datos bidimensional y etiquetada, similar a una hoja de cálculo o una tabla SQL, que organiza los datos en filas y columnas, donde cada columna puede contener datos de tipos diferentes; es ampliamente utilizado en Pandas para análisis, manipulación y visualización de datos, así como en aprendizaje automático, gracias a su flexibilidad y a la amplia gama de funciones que ofrece para trabajar con datos tabulares de manera eficiente.
Esto tendrá la siguiente forma en el ejemplo:
De la misma forma, pero para el conjunto de prueba:
Se utilizará un modelo basado en la aleatoriedad estadística: Random Forest. Para su configuración, se deben definir los siguientes parámetros:
n_estimators: Controla el número de árboles de decisión que se construirán en el bosque aleatorio (Random Forest).
max_depth: Controla la profundidad máxima de cada árbol de decisión individual en el bosque.
max_depth
puede llevar a underfitting (modelo demasiado simple).max_depth
puede llevar a overfitting (modelo demasiado ajustado a los datos de entrenamiento).random_state: Controla la semilla utilizada por el generador de números aleatorios.
random_state
, se asegura que cada ejecución del código produzca el mismo modelo, siempre que los datos de entrada sean los mismos.Finalmente, estas predicciones se almacenarán en un nuevo CSV.
Estará disponible para su descarga en Kaggle.