https://www.youtube.com/watch?v=5tpeUpoG8dY
• Usar un conjunto de datos de mínimo 2000 registros.
• Desarrollar un análisis exploratorio de datos y preprocesamiento.
• Entrenamiento de una red neuronal y modelo machine learning.
Realizar un análisis completo de un conjunto de datos de asteroides para identificar posibles riesgos de impacto con la Tierra, utilizando técnicas de análisis exploratorio, preprocesamiento y uso de redes neuronales. El trabajo se divide en tres componentes principales:
- Formulación de preguntas de investigación.
- Creación de hipótesis basadas en un problema específico.
- Análisis inicial del conjunto de datos seleccionado.
- Limpieza de datos.
- Transformación de variables.
- Reducción de datos cuando sea necesario.
- Discretización de datos según corresponda.
- Implementación de modelo de regresión lineal o logística
- Selección y cálculo de métricas de evaluación
- Análisis del rendimiento del modelo
Contiene datos sobre posibles impactos de asteroides con la Tierra.
https://www.kaggle.com/datasets/nasa/asteroid-impacts
A. Realizar un análisis exploratorio al conjunto de datos entregado, para ello debe crear diferentes preguntas e hipótesis a resolver en los datos partiendo de un problema que cada grupo debe plantear.
B. Después de realizar el análisis exploratorio, debe hacer el preprocesamiento de los datos según como considere: limpieza, transformación, reducción de datos o discretización de los datos. Para esto, puede usar pandas.
C. Luego de hacer el preprocesamiento y tener el conjunto de datos final, debe crear un modelo de Machine Learning de regresión lineal, puede usar scikit learn. Este modelo puede ser de predicción o regresión logística para clasificación. Debe buscar la forma de evaluar si el modelo está bien o no con métricas que permitan determinar si el modelo aprende o no.
Ítem | Puntos |
---|---|
Análisis exploratorio en notebook | 10 pts |
Preprocesamiento de los datos | 15 pts |
Entrenamiento del Modelo de Machine Learning con redes neuronales | 15 pts |
Evaluación del modelo 75% Accuracy | 10 pts |
Total | 50 pts |
User: | David Gutierrez Chaves |
---|---|
Code: | 506222728 |
Subject: | Big Data Electiva-I |
Institution: | Fundación Universitaria Konrad Lorenz |
Institutional email | david.gutierrec@konradlorenz.edu.co |
https://github.com/dg2c4