En el archivo Baseball.xlsx hay 45 observaciones aleatorias que corresponden a jugadores de la Major League Baseball (MLB). Para cada uno se registran:
X1 = tasa de bateo, calculada como hits/veces al bate.
X2 = carreras anotadas/veces al bate.
X3 = dobles/veces al bate.
X4 = triples/veces al bate.
X5 = jonrones/times at bat.
X6 = ponches/times at bat.
Para este grupo de variables se solicita el siguiente trabajo:
- Realizar un análisis descriptivo de los datos.
- Realice un intervalo de confianza del 97 % para la media de cada variable en estudio. Analice lo obtenido.
- Pruebe, a un nível de 0.05, que el promedio de bateo es inferior a 0.300.
- Estudie si la tasa de ponches y de jonrones son iguales
- Realizar una prueba de bondad de ajuste para determinar si la variable X1 tiene distribución normal.
- Realizar un gráfico de dispersión y una matriz de correlación de las variables.
- Haga un muestreo para dividir los datos en dos subconjuntos, uno con 80 % y 20 % de los datos.
- Con el subconjunto del 80 % de los datos, halle un modelo lineal que explique mejor la variable X1. Incluya todas las pruebas necesarias para llegar a este modelo, así como un análisis de residuos del modelo final.
- Con los datos del 20 % restante, haga una predicción de la variable X1 (con el mejor modelo) y haga un resumen estadístico de los residuos de predicción (valor observado vs. predicción del modelo) para concluir con relación al poder predictivo del modelo.
- Cree una variable cualitativa para dividir la tasa de bateo en tres grupos: los bateadores que tienen menos de 0.200, los que tienen entre 0.200 y 0.300, y los que tienen más de 0.300. Haga un an´alisis de varianza para estudiar si los promedios de tasas de las otras variables son iguales.
La estructura que debe tener el informe es:
- Portada con resumen (en la misma hoja).
- Planteamiento del problema (incluyendo los objetivos del trabajo), descripción de la base de datos y la metodología a emplear.
- Desarrollo (donde se realizan las asignaciones).
- Conclusiones y recomendaciones.
- Bibliografía.
- Anexos (+ códigos en R).
En la portada se debe encontrar el título del proyecto, el resumen y la identificación de los autores. Una de las partes más importantes del informe es el resumen; en este se deben plantear los objetivos del proyecto y una breve descripción de la base de datos y de la metodología empleada. También se deben encontrar los resultados del proyecto (o por lo menos, los más substanciales), y se debe aclarar las implicaciones de estos resultados, las conclusiones y recomendaciones (simplificadas) que hace el analista.
El cuerpo principal del informe, debe comenzar con el planteamiento del problema, y luego describir la base de datos y la metodología que se empleará durante la resolución del mismo. Se deben usar tablas y gráficos para facilitar la lectura del informe y obtener la atención del cliente; las tablas y gráficas deben estar comentadas, no se permiten tablas o gráficas a las que no se hacen referencia. Debido a que el informe no debe tener más de diez (10) páginas (desde la portada a la bibliografía), se debe resumir la información en tablas o diagramas y se deben seleccionar los gráficos más relevantes.
En las conclusiones se presentan los resultados obtenidos conjuntamente con las implicaciones que tienen esos resultados (sin profundizar en terrenos del área en el que se desenvuelve el cliente, a menos de que se esté seguro del impacto de las implicaciones). Recuerde que este es un trabajo parecido al de asesoría y que el cliente es el que toma las decisiones, el analista sólo plantea alternativas y puede sugerir alguna de las soluciones al problema.
Presentación de resultados:
- Presente sus resultados en tablas ordenadas e interprete.
- Identifique en los diagramas de caja si hay datos atípicos, cómo es la distribución de los datos, si es sesgada a la derecha, etc.
- Los gráficos tiene que tener su título y los nombres de los ejes (todo en español).
Es INACEPTABLE
- No se aceptará presentación de resultados con manuscritos escaneados.
- Se anulará la evaluación de aquellos que compartan fotografías tomadas desde la pantalla de la computadora.
- No se aceptará un copy y paste de los resultados.
- No se aceptarán títulos de las gráficas generados por degecto en el programa.
NOTA: recuerde que existen normas para la elaboración de trabajos propias de la USB, es recomendable revisar las mismas para la escritura del proyecto. Por ejemplo, es muy común cometer errores en la bibliografía. Recuerde que el autor debe ser mencionado en el texto, y posteriormente señaalar la referencia en la bibliografía.
Ejemplo:
“Para Gelman y otros (2014), el muestreador de Gibbs es un m´etodo de gran utilidad en problemas donde el espacio de parámetros es multidimensional.”
“En este trabajo se aplicó el programa R Development Core Team (2015).”
“Según Gil, J. (s/f), los métodos...”
En la bibliografía
Gleman, A., Carlin, J., Stern, H. y Rubien, D. (2004). Bayesian data analysis. Second Edition. Chapman & Hall/ CRC.
Gil, J. (s/f). Modelos de medici´on: desarrollos actuales, supuestos, ventajas e inconvenientes. Universidad de Sevilla. [Revista en L´ınea]. Disponible: http://innoevalua.us.es/files/irt.pdf [Consulta: 2015, Diciembre, 09].