Estadística 1 - trabajo final

Maestría en Generación y Análisis de Información Estadística - UNTREF

Estudiante

Andrea Gomez Vargas

Published

August 2, 2024

1 Primera parte: Evaluación conceptual y teórica

Paquetes de trabajo:

Code
library(gt)
library(gtExtras)
library(kableExtra)
library(tidyverse)
library(expss)
library(haven)
library(readxl)
library(rstatix)
library(ggpubr)
library(patchwork)

1.1 Consigne las definiciones de Población, muestra y unidad de análisis

  • Población: es el conjunto completo de todos los elementos (puntuaciones, personas, mediciones, etcétera) que se someten a estudio. El conjunto es completo porque incluye a todos los sujetos que se estudiarán.1

  • Muestra: es un subconjunto de miembros seleccionados de una población. Adicionalmente, esta muestra será aleatoria si los individuos o elementos han sido seleccionados al azar mediante una técnica de muestreo aleatorio determinada.2

  • Unidad de Análisis: o la unidad de estudio u objeto/sujeto de estudio (los elementos que van a ser estudiados), mientras que la unidad de recolección es la fuente proveedora de la información requerida, son los elementos que funcionan como informantes

1.2 Consigne, defina y ejemplifique los niveles de medición de Stevens

Tabla 1: niveles de medición
Nivel Definición Ejemplo
Nominal Se caracteriza por datos que consisten exclusivamente en nombres, etiquetas o categorías. Los datos no se pueden acomodar en un esquema de orden (como del más bajo al más alto). Estado civil | Color de ojos
Ordinal Las categorías están ordenadas, pero no hay diferencias o estas carecen de significado. Nivel educativo | Grado militar
De intervalo Las diferencias tienen un significado, pero no hay punto de partida cero natural, y las razones no tienen significado. temperaturas en grados Fahrenheit o Celsius
De razón Hay un punto de partida cero natural y las razones tienen significado. Altura | Peso

1.3 Consigne las principales propiedades de la distribución normal

La distribución normal, también conocida como distribución gaussiana o curva de campana, es una de las distribuciones de probabilidad más importantes en estadística.


{X \sim N(\mu,\sigma)}

donde:

  • (X) es la variable aleatoria
  • (\mu) es la media (promedio) de la distribución.
  • (\sigma) es la desviación estándar, que mide la dispersión de los datos.

Esta distribución tiene las siguientes características clave:

  • Simetría: Es simétrica alrededor de la media (\mu), lo que significa que las colas izquierda y derecha de la distribución son idénticas.

  • Unimodal: Tiene un solo pico en la media (\mu) (punto por el que pasa el eje de simetría).

  • Forma de Campana: La función de densidad de probabilidad forma una curva en forma de campana.

  • Regla Empírica: Aproximadamente el 68% de los datos caen dentro de una desviación estándar de la media, el 95% dentro de dos desviaciones estándar y el 99.7% dentro de tres desviaciones estándar.

  • El área bajo la curva es igual a 1

  • La desviación estándar (\sigma) es la distancia entre el eje de simetría y el punto donde cambia la curvatura.

1.4 Concepto y elementos constitutivos de las pruebas de hipótesis

En estadística, una hipótesis es una afirmación o aseveración acerca de una propiedad de una población. Una prueba de hipótesis (o prueba de significancia) es un procedimiento para someter a prueba una afirmación acerca de una propiedad de una población.3

El funcionamiento de esta técnica inferencial se basa en la realización de una afirmación acerca de un parámetro de una o más poblaciones (hipótesis) y en el estudio de la compatibilidad entre esta afirmación y lo observado en la muestra. En principio, cuanto mayor sea la discrepancia entre la hipótesis realizada y la información proporcionada por la muestra observada, mayor será la evidencia en contra de dicha hipótesis.

  • Hipótesis a evaluar:

    • La hipótesis nula (denotada con H_0) es la afirmación de que el valor de un parámetro poblacional (como una proporción, media o desviación estándar) es igual a un valor establecido. (El término nula se usa para indicar ningún cambio, ningún efecto o ninguna diferencia). La siguiente es una hipótesis nula típica del tipo considerado en este capítulo: H_0: p = 0.5. La hipótesis nula se prueba en forma directa, en el sentido de que suponemos (o fingimos) que es verdadera, y llegamos a una conclusión para rechazarla o no.

    • La hipótesis alternativa (denotada con H_1 o H_a o H_A) es la afirmación de que el parámetro tiene un valor que, de alguna manera, difiere de la hipótesis nula. Para los métodos de este capítulo, la forma simbólica de la hipótesis alternativa debe emplear alguno de estos símbolos: <, >, o bien, Z.

  • Posibles errores a cometer:

    • Error tipo I: Rechazar {H_0} cuando es verdadera

    • Error tipo I: Aceptar {H_0} cuando es falsa

  • Nivel de significación: Probabilidad de error tipo I (\alpha). Se fija a priori (usualmente 0,05 o 0,01)

  • Probabilidad de error tipo II (\beta): Depende del tamaño de la muestra y no se fija a priori.

  • Potencia del test: Se calcula como uno menos la probabilidad de error tipo II. Se puede calcular el tamaño de muestra para obtener una potencia determinada.

  • Estadistica de prueba: se calcula con la informacion muestral. Se conoce su distribucion bajo el supuesto de que {H_0} es verdadera.

  • Región de rechazo de un test: es el conjunto de valores del estadístico de prueba para los cuales se rechaza la hipotesis nula {H_0}

  • Región de aceptación de un test: es el conjunto de valores del estadístico de prueba para los cuales no se rechaza la hipotesis nula {H_0}

  • Regla de decisión: se fija el valor maximo de error tipo I que se esta dispuesto a cometer (\alpha). Se calcula la probabilidad de rechazar {H_0} cuando es verdadera usando la informacion de la muestra (p-value). Si este valor es menor o igual a \alpha rechazo la hipotesis nula, en caso contrario no la rechazo.

2 Segunda parte: Evaluación práctica

Se ha realizado una encuesta a jóvenes españoles en el año 2000. Se muestran a continuación las 16 preguntas que contenía el cuestionario.

2.1 Para cada una de las preguntas definir:

  1. Las variables que contienen información a analizar estadísticamente.

  2. Identificar, para cada una de ellas el nivel de medición y las modalidades/categorías que la integran.

Tabla 2: variables cuestionario
Pregunta Variables Categorías Nivel de medición
OCIO

¿Cuál es la actividad que mas te gusta hacer fuera de tu casa cuando dispones de tiempo libre?

actividad tiempo libre

  • Beber, ir de copas, bailar (1)
  • Hacer deportes (2)
  • Viajes, excursiones (3)
  • Ir al cine, al teatro (4)
  • Ir a museos, ir a conciertos (5)
  • Leer (6)
  • Otra (7)

NOMINAL

¿Cuántas horas libres tienes a la semana para tu ocio o diversión?

horas libres semanales para ocio

HORAS

DE INTÉRVALO

¿Cuántas horas semanales dedicas a ver televisión?

horas semanales dedicadas a ver tv

HORAS

DE INTÉRVALO

FAMILIA

¿Cómo dirías que ha sido tu infancia, la definirías como……?

grado de felicidad en la infancia

  • La etapa más feliz de tu vida 1
  • Una etapa más feliz que otras 2
  • Una etapa igual de feliz que otras 3
  • Una etapa menos feliz que otras 4
  • La etapa menos feliz de tu vida 5

ORDINAL

¿cuál es el grado de dedicación en las siguientes tareas de tu hogar?

Grado de dedicación en las tareas del hogar

tareas del hogar: - Hacer la cama - Limpiar la casa - Cuidar de los hijos o hermanos pequeños.

grado de dedicación: 1. No suelo hacerlo nunca 2. Solo lo hago en ocasiones 3. Comparto esta tarea con otra/s personas 4. Recae en mi toda la responsabilidad y suelo hacerlo siempre

ORDINAL

¿Cuántos hijos crees que llegarás a tener?

cantidad de hijos que creé va a tener

0,1,2,3,4,5

INTÉRVALO

¿Cuántos hijos te gustaría llegar a tener?

cantidad de hijos que le gustaría llegar a tener

0,1,2,3,4,5

INTÉRVALO

¿En cual de las siguientes situaciones te encuentras?

situación vincular/afectiva

  • Tienes novio/a formal 1
  • Ahora no tienes novio/a formal 2
  • Hasta ahora solo has tenido relaciones afectivas pasajeras 3
  • Nunca has tenido una relación especial con un chico/a 4

NOMINAL

CULTURA

¿En que centro realizaste la totalidad o la mayor parte de tus estudios?

lugar de estudios

  • En un centro estatal, público
  • En un centro privado, no religioso
  • En un centro privado, religioso

NOMINAL

¿Cuántos libros has leído en los últimos 12 meses?

cantidad de libros leidos en 12 meses

libros

INTÉRVALO

ACTITUDES

¿Cómo te definirías en materia religiosa?

autodefinición religiosa

  • Católico practicante 1
  • Católico no practicante 2
  • Creyente de otra religión 3
  • No creyente 4
  • Indiferente 5

NOMINAL

Cuando se habla de política se utilizan normalmente las expresiones izquierda y derecha ¿ En que casilla te ubicarías?

inclinación política

grado de inclinación política de 1 a 10, siendo 1 más inclinado hacia la izquierda y 10 más inclinado a la derecha

INTÉRVALO

INGRESOS

¿Qué cantidad aproximadamente de dinero (en miles de pesetas) ingresas al mes por cada uno de los conceptos siguientes?

rango de ingreso mensual por tipo de ingreso

  • Ingresos personales
  • Ingresos de tu pareja
  • Aportaciones familiares
  • Otros

INTÉRVALO

Actualmente entre todos los miembros de tu hogar y por todos los conceptos ¿ De cuántos ingresos netos (sin descuentos) se dispone por término medio en tu hogar al mes?

rango de ingresos mensual de todos los miembros del hogar

  • Menos o igual a 50.000 pts (01)
  • De 50.000 a 100.000 pts (02)
  • De 100.001 a 150.000 pts (03)
  • De 150.001 a 200.000 pts (04)
  • De 200.001 a 300.000 pts (05)
  • De 300.001 a 400.000 pts (06)
  • De 400.001 a 500.000 pts( 07)
  • De 500.001 a 750.000 pts (08)
  • De 750.001 a 1 millón de pts (09)
  • Más de 1 millón de pts (10)

ORDINAL

DATOS

Sexo

sexo

  • Hombre (1)
  • Mujer (2)

NOMINAL

¿Cuántos años cumpliste en tu último cumpleaños?

edad

17,18,… 29

INTÉRVALO

3 Tercera parte: Análisis estadístico descriptivo

En esta actividad se trabajará con el archivo de datos “cuestionario.xlsx”.

3.1 Importar los datos a R.

Code
cuestionario <- read_excel("EVALUACION/cuestionario.xlsx")

3.2 Utilizando la función table() y sus funciones anexas, calcular

3.2.1 Las tablas de frecuencias absolutas para las variables ocio, genero, colegio, amor, religión

3.2.1.1 Ocio

Code
addmargins(table(cuestionario$ocio)) %>% kbl()
Var1 Freq
1 195
2 166
3 109
4 169
5 32
6 18
Sum 689

3.2.1.2 Género

Code
addmargins(table(cuestionario$genero)) %>% kbl()
Var1 Freq
1 346
2 371
Sum 717

3.2.1.3 Colegio

Code
addmargins(table(cuestionario$colegio)) %>% kbl()
Var1 Freq
1 475
2 59
3 180
Sum 714

3.2.1.4 Amor

Code
addmargins(table(cuestionario$amor)) %>% kbl()
Var1 Freq
1 294
2 138
3 149
4 68
Sum 649

3.2.1.5 Religión

Code
addmargins(table(cuestionario$religion)) %>% kbl()
Var1 Freq
1 177
2 317
3 12
4 108
5 99
99999 4
Sum 717

3.2.2 Las tablas de frecuencias relativas para las variables ocio, genero, colegio, amor, religión

3.2.2.1 Ocio

Code
kbl(round(prop.table(table(cuestionario$ocio))*100,2))
Var1 Freq
1 28.30
2 24.09
3 15.82
4 24.53
5 4.64
6 2.61

3.2.2.2 género

Code
kbl(round(prop.table(table(cuestionario$genero))*100,2))
Var1 Freq
1 48.26
2 51.74

3.2.2.3 colegio

Code
kbl(round(prop.table(table(cuestionario$colegio))*100,2))
Var1 Freq
1 66.53
2 8.26
3 25.21

3.2.2.4 amor

Code
kbl(round(prop.table(table(cuestionario$amor))*100,2))
Var1 Freq
1 45.30
2 21.26
3 22.96
4 10.48

3.2.2.5 religión

Code
kbl(round(prop.table(table(cuestionario$religion))*100,2))
Var1 Freq
1 24.69
2 44.21
3 1.67
4 15.06
5 13.81
99999 0.56

3.3 Realizar gráficos de barras para cada una de las variables anteriores

a.  Con la frecuencia relativa
b.  Con la frecuencia porcentual

3.3.1 Gráfico 1: frecuencia absoluta y porcentual por variable género

Code
par(mfrow = c(1, 2))

g1 <- barplot(table(cuestionario$genero),
        main="frecuencia absoluta por género",
        xlab="género",
        ylab="casos",
        border="#386641",
        col="#386641",
        density=100,
        ylim= c(0, 400))

text(x = g1, 
     y = table(cuestionario$genero), 
     label = table(cuestionario$genero), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p1 <- round(prop.table(table(cuestionario$genero))*100,2)

g2 <- barplot(p1,
        main="frecuencia porcentual por género",
        xlab="género",
        ylab="porcentaje",
        border="#003554",
        col="#003554",
        density=80,
ylim =  c(0,60))

text(x = g2, 
     y = p1,
     label = p1,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.3.2 Gráfico 2: frecuencia absoluta y porcentual por variable ocio

Code
par(mfrow = c(1, 2))

g3 <- barplot(table(cuestionario$ocio),
        main="frecuencia absoluta por actividad tiempo libre",
        xlab="ocio",
        ylab="casos",
        border="#386641",
        col="#386641",
        density=100,
        ylim =  c(0,250))


text(x = g3, 
     y = table(cuestionario$ocio), 
     label = table(cuestionario$ocio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p2 <- round(prop.table(table(cuestionario$ocio))*100,2)

g4 <- barplot(p2,
        main="frecuencia porcentual por actividad tiempo libre",
        xlab="ocio",
        ylab="porcentaje",
        border="#003554",
        col="#003554",
        density=80, 
        ylim =  c(0,35))

text(x = g4, 
     y = p2, 
     label = p2, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.3.3 Gráfico 3: frecuencia absoluta y porcentual por variable amor

Code
par(mfrow = c(1, 2))

g5 <- barplot(table(cuestionario$amor),
        main="frecuencia absoluta por situación vincular/afectiva",
        xlab="amor",
        ylab="casos",
        border="#386641",
        col="#386641",
        density=100,
        ylim=c(0, 350))

text(x = g5, 
     y = table(cuestionario$amor), 
     label = table(cuestionario$amor), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p3 <- round(prop.table(table(cuestionario$amor))*100,2)

g6 <- barplot(p3,
        main="frecuencia porcentual por situación vincular/afectivar",
        xlab="amor",
        ylab="porcentaje",
        border="#003554",
        col="#003554",
        density=80, 
        ylim=c(0, 50))

text(x = g6, 
     y = p3, 
     label = p3, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.3.4 Gráfico 4: frecuencia absoluta y porcentual por variable colegio

Code
par(mfrow = c(1, 2))

g7 <- barplot(table(cuestionario$colegio),
        main="frecuencia absoluta por lugar de estudios",
        xlab="colegio",
        ylab="casos",
        border="#386641",
        col="#386641",
        density=100,
        ylim =  c(0,600))

text(x = g7, 
     y = table(cuestionario$colegio), 
     label = table(cuestionario$colegio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p4 <- round(prop.table(table(cuestionario$colegio))*100,2)

g8 <- barplot(p4,
        main="frecuencia porcentual lugar de estudios",
        xlab="colegio",
        ylab="porcentaje",
        border="#003554",
        col="#003554",
        density=80,
        ylim =  c(0,80))

text(x = g8, 
     y = p4, 
     label = p4, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.3.5 Gráfico 5: frecuencia absoluta y porcentual por variable religión

Code
par(mfrow = c(1, 2))

g9 <- barplot(table(cuestionario$religion),
        main="frecuencia absoluta por autodefinición religiosa",
        xlab="religion",
        ylab="casos",
        border="#386641",
        col="#386641",
        density=100,
ylim = c(0,350))

text(x = g9, 
     y = table(cuestionario$religion), 
     label = table(cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p5 <- round(prop.table(table(cuestionario$religion))*100,2)

g10 <- barplot(p5,
        main="frecuencia porcentual por autodefinición religiosa",
        xlab="religion",
        ylab="porcentaje",
        border="#003554",
        col="#003554",
        density=80,
ylim = c(0,50))

text(x = g10, 
     y = p5, 
     label = p5, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.4 Calcular las tablas de contingencia para los siguientes cruces de variables

3.4.1 Ocio y genero

Code
# absoluta
addmargins(table(cuestionario$ocio, cuestionario$genero)) %>% kbl()
# relativa
kbl(round(prop.table(table(cuestionario$ocio, cuestionario$genero))*100,2))
1 2 Sum
1 84 111 195
2 130 36 166
3 38 71 109
4 52 117 169
5 23 9 32
6 6 12 18
Sum 333 356 689
1 2
12.19 16.11
18.87 5.22
5.52 10.30
7.55 16.98
3.34 1.31
0.87 1.74

3.4.2 Ocio y colegio

Code
# absoluta
addmargins(table(cuestionario$ocio, cuestionario$colegio)) %>% kbl()
# relativa
kbl(round(prop.table(table(cuestionario$ocio, cuestionario$colegio))*100,2))
1 2 3 Sum
1 135 11 48 194
2 112 19 34 165
3 70 12 27 109
4 106 13 49 168
5 23 1 8 32
6 11 1 6 18
Sum 457 57 172 686
1 2 3
19.68 1.60 7.00
16.33 2.77 4.96
10.20 1.75 3.94
15.45 1.90 7.14
3.35 0.15 1.17
1.60 0.15 0.87

3.4.3 Amor y religión

Code
# absoluta
addmargins(table(cuestionario$amor, cuestionario$religion)) %>% kbl()
1 2 3 4 5 99999 Sum
1 70 149 2 40 32 1 294
2 32 64 3 17 21 1 138
3 40 63 3 22 21 0 149
4 21 24 1 13 9 0 68
Sum 163 300 9 92 83 2 649
Code
# relativa
kbl(round(prop.table(table(cuestionario$amor, cuestionario$religion))*100,2))
1 2 3 4 5 99999
10.79 22.96 0.31 6.16 4.93 0.15
4.93 9.86 0.46 2.62 3.24 0.15
6.16 9.71 0.46 3.39 3.24 0.00
3.24 3.70 0.15 2.00 1.39 0.00

3.4.4 Colegio y religión

Code
# absoluta
addmargins(table(cuestionario$colegio, cuestionario$religion)) %>% kbl()
1 2 3 4 5 99999 Sum
1 114 225 7 64 62 3 475
2 13 15 3 18 10 0 59
3 49 75 2 26 27 1 180
Sum 176 315 12 108 99 4 714
Code
# relativa
kbl(round(prop.table(table(cuestionario$colegio, cuestionario$religion))*100,2))
1 2 3 4 5 99999
15.97 31.51 0.98 8.96 8.68 0.42
1.82 2.10 0.42 2.52 1.40 0.00
6.86 10.50 0.28 3.64 3.78 0.14

3.5 Gráficos para los cruces de variables anteriores

3.5.1 Gráfico 6: Ocio y genero

Code
paleta7 <- c("#f7a3b7","#ef476f", "#f78c6b", "#ffd166","#06d6a0","#118ab2", "#073b4c")
  
ocio <- c("Beber, ir de copas,\nbailar", "Hacer deportes", "Viajes, excursiones", "Ir al cine, al teatro", "Ir a museos,\nir a conciertos", "Leer")

g_a1 <- barplot(
        table(cuestionario$ocio, cuestionario$genero),
        beside = T,
        main="frecuencia absoluta actividad tiempo libre según género",
        xlab="género",
        ylab="casos",
        border=paleta7,
        col= paleta7,
        #density=100,
        ylim= c(0, 150)
        )

legend("topright",
        legend = ocio,
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a1, 
     y = table(cuestionario$ocio, cuestionario$genero), 
     label = table(cuestionario$ocio, cuestionario$genero), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p11 <- round(prop.table(table(cuestionario$ocio, cuestionario$genero))*100,2)

g_a2 <- barplot(p11,
                beside = T,
        main="frecuencia porcentual actividad tiempo libre según género",
        xlab="género",
        ylab="porcentaje",
        border= paleta7,
        col= paleta7,
        density=90,
ylim =  c(0,25))

legend("topright",
        legend = ocio,
        fill = paleta7,
        cex=0.6,
       density = 90,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a2, 
     y = p11,
     label = p11,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.5.2 Gráfico 7: Ocio y colegio

Code
paleta7 <- c("#f7a3b7","#ef476f", "#f78c6b", "#ffd166","#06d6a0","#118ab2", "#073b4c")
ocio <- c("Beber, ir de copas,\nbailar", "Hacer deportes", "Viajes, excursiones", "Ir al cine, al teatro", "Ir a museos,\nir a conciertos", "Leer")

g_a3 <- barplot(
        table(cuestionario$ocio,cuestionario$colegio),
        beside = T,
        main="frecuencia absoluta actividad tiempo libre según lugar de estudios",
        xlab="colegio",
        ylab="casos",
        border=paleta7,
        col= paleta7,
        #density=100,
        ylim= c(0, 150)
        )

legend("topright",
        legend = ocio,
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a3, 
     y = table(cuestionario$ocio, cuestionario$colegio), 
     label = table(cuestionario$ocio,cuestionario$colegio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p22 <- round(prop.table(table(cuestionario$ocio, cuestionario$colegio))*100,2)

g_a4 <- barplot(p22,
                beside = T,
        main="frecuencia porcentual actividad tiempo libre según lugar de estudios",
        xlab="colegio",
        ylab="porcentaje",
        border= paleta7,
        col= paleta7,
        density=90,
ylim =  c(0,25))

legend("topright",
        density = 90,
        legend = ocio,
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a4, 
     y = p22,
     label = p22,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.5.3 Gráfico 8: Amor y religión

Code
paleta4 <- c("#218380","#8f2d56", "#d81159", "#ffbc42")

insideout <- c("Tienes novio/a formal", "Ahora no tienes novio/a formal", "Hasta ahora solo has tenido relaciones afectivas pasajeras", "Nunca has tenido una relación especial con un chico/a")

g_a5 <- barplot(
        table(cuestionario$amor, cuestionario$religion),
        beside = T,
        main="frecuencia absoluta situación vincular/afectiva según autodefinición religiosa",
        xlab="autodefinición religiosa",
        ylab="casos",
        border=paleta4,
        col= paleta4,
        #density=100,
        ylim= c(0,200)
        )

legend("topright",
        legend = insideout,
        fill = paleta4,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a5, 
     y = table(cuestionario$amor, cuestionario$religion), 
     label = table(cuestionario$amor, cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p33 <- round(prop.table(table(cuestionario$amor, cuestionario$religion))*100,2)

g_a6 <- barplot(p33,
                beside = T,
        main="frecuencia porcentual situación vincular/afectiva según autodefinición religiosa",
        xlab="autodefinición religiosa",
        ylab="porcentaje",
        border= paleta4,
        col= paleta4,
        density=90,
ylim =  c(0,25))

legend("topright",
        density = 90,
        legend = insideout,
        fill = paleta4,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a6, 
     y = p33,
     label = p33,
     pos = 3, 
     cex = 0.6, 
     col = "black")

3.5.4 Gráfico 9: Colegio y religión

Code
paleta3 <- c("#26547c","#ef476f", "#ffd166")
estudio <- c("centro estatal, público", "centro privado, no religioso","centro privado, religioso" )

g_a7 <- barplot(
        table(cuestionario$colegio, cuestionario$religion),
        beside = T,
        main="frecuencia absoluta autodefinición religiosa  según lugar de estudios",
        xlab="autodefinición religiosa",
        ylab="casos",
        border=paleta3,
        col= paleta3,
        #density=100,
        ylim= c(0,300)
        )

legend("topright",
        legend = estudio,
        fill = paleta3,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a7, 
     y = table(cuestionario$colegio, cuestionario$religion), 
     label = table(cuestionario$colegio, cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
# relativa
p44 <- round(prop.table(table(cuestionario$colegio, cuestionario$religion))*100,2)

g_a8 <- barplot(p44,
                beside = T,
        main="frecuencia porcentual autodefinición religiosa según lugar de estudio",
        xlab="autodefinición religiosa",
        ylab="porcentaje",
        border= paleta3,
        col= paleta3,
        density=90,
ylim =  c(0,40))

legend("topright",
        density = 90,
        legend = estudio,
        fill = paleta3,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a8, 
     y = p44,
     label = p44,
     pos = 3, 
     cex = 0.7, 
     col = "black")

3.6 {expss}

3.7 etiquetas a variables y sus categorías

Code
cuestionario <- expss::apply_labels(cuestionario,
                             ocio = "Actividad tiempo libre",
                             genero = "Género",
                             colegio = "Lugar de estudios",
                             religion = "Autodefinición religiosa",
                             amor = "Situación vincular/afectiva") 
Code
cuestionario <- expss::apply_labels(cuestionario,
                             ocio = c("Beber,ir de copas,bailar"= 1,
                                      "Hacer deportes" = 2,
                                      "Viajes,excursiones" = 3,
                                      "Ir al cine, al teatro" = 4, 
                                      "Ir a museos, ir a conciertos" = 5, 
                                      "Leer" = 6),
                             genero = c("Hombre" = 1, "Mujer" = 2),
                             colegio = c("En un centro estatal, público" = 1, 
                                         "En un centro privado, no religioso" = 2,
                                         "En un centro privado, religioso" = 3),
                             religion = c("Católico practicante" = 1,
                                          "Católico no practicante" = 2,
                                          "Creyente de otra religión" = 3,
                                          "No creyente" = 4, 
                                          "Indiferente" = 5),
                             amor = c("Tienes novio/a formal" = 1,
                                      "Ahora no tienes novio/a formal" = 2,
                                      "Hasta ahora solo has tenido relaciones afectivas pasajeras" = 3,
                                      "Nunca has tenido una relación especial con un chico/a" = 4))

3.8 función fre() y sus funciones anexas, calcular:

Las tablas de frecuencias absolutas y relativas para las variables ocio, genero, colegio, amor, religión

3.8.1 Ocio

Code
fre(cuestionario$ocio)
Actividad tiempo libre  Count   Valid percent   Percent   Responses, %   Cumulative responses, % 
 Beber,ir de copas,bailar  195 28.3 27.2 28.3 28.3
 Hacer deportes  166 24.1 23.2 24.1 52.4
 Viajes,excursiones  109 15.8 15.2 15.8 68.2
 Ir al cine, al teatro  169 24.5 23.6 24.5 92.7
 Ir a museos, ir a conciertos  32 4.6 4.5 4.6 97.4
 Leer  18 2.6 2.5 2.6 100.0
 #Total  689 100 96.1 100
 <NA>  28 3.9

3.8.2 Género

Code
fre(cuestionario$genero)
Género  Count   Valid percent   Percent   Responses, %   Cumulative responses, % 
 Hombre  346 48.3 48.3 48.3 48.3
 Mujer  371 51.7 51.7 51.7 100.0
 #Total  717 100 100 100
 <NA>  0 0.0

3.8.3 Colegio

Code
fre(cuestionario$colegio)
Lugar de estudios  Count   Valid percent   Percent   Responses, %   Cumulative responses, % 
 En un centro estatal, público  475 66.5 66.2 66.5 66.5
 En un centro privado, no religioso  59 8.3 8.2 8.3 74.8
 En un centro privado, religioso  180 25.2 25.1 25.2 100.0
 #Total  714 100 99.6 100
 <NA>  3 0.4

3.8.4 Amor

Code
fre(cuestionario$amor)
Situación vincular/afectiva  Count   Valid percent   Percent   Responses, %   Cumulative responses, % 
 Tienes novio/a formal  294 45.3 41.0 45.3 45.3
 Ahora no tienes novio/a formal  138 21.3 19.2 21.3 66.6
 Hasta ahora solo has tenido relaciones afectivas pasajeras  149 23.0 20.8 23.0 89.5
 Nunca has tenido una relación especial con un chico/a  68 10.5 9.5 10.5 100.0
 #Total  649 100 90.5 100
 <NA>  68 9.5

3.8.5 Religión

Code
fre(cuestionario$religion)
Autodefinición religiosa  Count   Valid percent   Percent   Responses, %   Cumulative responses, % 
 Católico practicante  177 24.7 24.7 24.7 24.7
 Católico no practicante  317 44.2 44.2 44.2 68.9
 Creyente de otra religión  12 1.7 1.7 1.7 70.6
 No creyente  108 15.1 15.1 15.1 85.6
 Indiferente  99 13.8 13.8 13.8 99.4
 99999  4 0.6 0.6 0.6 100.0
 #Total  717 100 100 100
 <NA>  0 0.0

3.9 Gráficos con etiquetas {expss} para cada una de las variables anteriores

3.9.1 Gráfico 10: frecuencia absoluta y porcentual por variable género

Code
par(mfrow = c(1, 2))

g1 <- barplot(table(cuestionario$genero),
        main="frecuencia absoluta por género",
        xlab="género",
        ylab="casos",
        border="#006d77",
        col="#006d77",
        density=100,
        ylim= c(0, 400))

text(x = g1, 
     y = table(cuestionario$genero), 
     label = table(cuestionario$genero), 
     pos = 3, 
     cex = 0.8, 
     col = "black")


p1 <- round(prop.table(table(cuestionario$genero))*100,2)

g2 <- barplot(p1,
        main="frecuencia porcentual por género",
        xlab="género",
        ylab="porcentaje",
        border="#83c5be",
        col="#83c5be",
        density=80,
ylim =  c(0,60))

text(x = g2, 
     y = p1,
     label = p1,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.9.2 Gráfico 11: frecuencia absoluta y porcentual por variable ocio

Code
g3 <- barplot(table(cuestionario$ocio),
        main="frecuencia absoluta por actividad tiempo libre",
        xlab="ocio",
        ylab="casos",
        border="#006d77",
        col="#006d77",
        density=100,
        ylim =  c(0,250),
        cex.names = 0.6)


text(x = g3, 
     y = table(cuestionario$ocio), 
     label = table(cuestionario$ocio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p2 <- round(prop.table(table(cuestionario$ocio))*100,2)

g4 <- barplot(p2,
        main="frecuencia porcentual por actividad tiempo libre",
        xlab="ocio",
        ylab="porcentaje",
        border="#83c5be",
        col="#83c5be",
        density=80,
        cex.names = 0.6,
        ylim =  c(0,35))

text(x = g4, 
     y = p2, 
     label = p2, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.9.3 Gráfico 12: frecuencia absoluta y porcentual por variable amor

Code
g5 <- barplot(table(cuestionario$amor),
        main="frecuencia absoluta por situación vincular/afectiva",
        xlab="situación",
        ylab="casos",
        border="#006d77",
        col="#006d77",
        density=100,
        cex.names = 0.6,
        ylim=c(0, 350))

text(x = g5, 
     y = table(cuestionario$amor), 
     label = table(cuestionario$amor), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p3 <- round(prop.table(table(cuestionario$amor))*100,2)

g6 <- barplot(p3,
        main="frecuencia porcentual por situación vincular/afectiva",
        xlab="situación",
        ylab="porcentaje",
        border="#83c5be",
        col="#83c5be",
        density=80,
        cex.names = 0.6,
        ylim=c(0, 50))

text(x = g6, 
     y = p3, 
     label = p3, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.9.4 Gráfico 13: frecuencia absoluta y porcentual por variable colegio

Code
g7 <- barplot(table(cuestionario$colegio),
        main="frecuencia absoluta por lugar de estudios",
        xlab="lugar",
        ylab="casos",
        border="#006d77",
        col="#006d77",
        density=100,
        cex.names = 0.6,
        ylim =  c(0,600))

text(x = g7, 
     y = table(cuestionario$colegio), 
     label = table(cuestionario$colegio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p4 <- round(prop.table(table(cuestionario$colegio))*100,2)

g8 <- barplot(p4,
        main="frecuencia porcentual por lugar de estudios",
        xlab="lugar",
        ylab="porcentaje",
        border="#83c5be",
        col="#83c5be",
        density=80,
        cex.names = 0.6,
        ylim =  c(0,80))

text(x = g8, 
     y = p4, 
     label = p4, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.9.5 Gráfico 14: frecuencia absoluta y porcentual por variable religión

Code
g9 <- barplot(table(cuestionario$religion),
        main="frecuencia absoluta por autodefinición religiosa",
        xlab="religion",
        ylab="casos",
        border="#006d77",
        col="#006d77",
        density=100,
        cex.names = 0.6,
        ylim = c(0,350))

text(x = g9, 
     y = table(cuestionario$religion), 
     label = table(cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p5 <- round(prop.table(table(cuestionario$religion))*100,2)

g10 <- barplot(p5,
        main="frecuencia porcentual por autodefinición religiosa",
        xlab="religion",
        ylab="porcentaje",
        border="#83c5be",
        col="#83c5be",
        density=80,
        cex.names = 0.6,
        ylim = c(0,50))

text(x = g10, 
     y = p5, 
     label = p5, 
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.10 función cro() & cro_rpct()

3.10.1 Ocio y genero

Code
# absoluta
cro(cuestionario$ocio, cuestionario$genero)
# relativa

cro_rpct(cuestionario$ocio, cuestionario$genero,
         total_label = c("Total"),
         total_statistic = c("u_rpct"))
 Género 
 Hombre   Mujer 
 Actividad tiempo libre 
   Beber,ir de copas,bailar  84 111
   Hacer deportes  130 36
   Viajes,excursiones  38 71
   Ir al cine, al teatro  52 117
   Ir a museos, ir a conciertos  23 9
   Leer  6 12
   #Total cases  333 356
 Género 
 Hombre   Mujer 
 Actividad tiempo libre 
   Beber,ir de copas,bailar  43.1 56.9
   Hacer deportes  78.3 21.7
   Viajes,excursiones  34.9 65.1
   Ir al cine, al teatro  30.8 69.2
   Ir a museos, ir a conciertos  71.9 28.1
   Leer  33.3 66.7
   #Total  48.3 51.7

3.10.2 Ocio y colegio

Code
# absoluta
cro(cuestionario$ocio, cuestionario$colegio)
# relativa
cro_rpct(cuestionario$ocio, cuestionario$colegio,
         total_label = c("Total"),
         total_statistic = c("u_rpct"))
 Lugar de estudios 
 En un centro estatal, público   En un centro privado, no religioso   En un centro privado, religioso 
 Actividad tiempo libre 
   Beber,ir de copas,bailar  135 11 48
   Hacer deportes  112 19 34
   Viajes,excursiones  70 12 27
   Ir al cine, al teatro  106 13 49
   Ir a museos, ir a conciertos  23 1 8
   Leer  11 1 6
   #Total cases  457 57 172
 Lugar de estudios 
 En un centro estatal, público   En un centro privado, no religioso   En un centro privado, religioso 
 Actividad tiempo libre 
   Beber,ir de copas,bailar  69.6 5.7 24.7
   Hacer deportes  67.9 11.5 20.6
   Viajes,excursiones  64.2 11.0 24.8
   Ir al cine, al teatro  63.1 7.7 29.2
   Ir a museos, ir a conciertos  71.9 3.1 25.0
   Leer  61.1 5.6 33.3
   #Total  66.6 8.3 25.1

3.10.3 Amor y religión

Code
# absoluta
cro(cuestionario$amor, cuestionario$religion)
 Autodefinición religiosa 
 Católico practicante   Católico no practicante   Creyente de otra religión   No creyente   Indiferente   99999 
 Situación vincular/afectiva 
   Tienes novio/a formal  70 149 2 40 32 1
   Ahora no tienes novio/a formal  32 64 3 17 21 1
   Hasta ahora solo has tenido relaciones afectivas pasajeras  40 63 3 22 21
   Nunca has tenido una relación especial con un chico/a  21 24 1 13 9
   #Total cases  163 300 9 92 83 2
Code
# relativa
cro_rpct(cuestionario$amor, cuestionario$religion,
         total_label = c("Total"),
         total_statistic = c("u_rpct"))
 Autodefinición religiosa 
 Católico practicante   Católico no practicante   Creyente de otra religión   No creyente   Indiferente   99999 
 Situación vincular/afectiva 
   Tienes novio/a formal  23.8 50.7 0.7 13.6 10.9 0.3
   Ahora no tienes novio/a formal  23.2 46.4 2.2 12.3 15.2 0.7
   Hasta ahora solo has tenido relaciones afectivas pasajeras  26.8 42.3 2.0 14.8 14.1
   Nunca has tenido una relación especial con un chico/a  30.9 35.3 1.5 19.1 13.2
   #Total  25.1 46.2 1.4 14.2 12.8 0.3

3.10.4 Colegio y religión

Code
# absoluta
cro(cuestionario$colegio, cuestionario$religion)
 Autodefinición religiosa 
 Católico practicante   Católico no practicante   Creyente de otra religión   No creyente   Indiferente   99999 
 Lugar de estudios 
   En un centro estatal, público  114 225 7 64 62 3
   En un centro privado, no religioso  13 15 3 18 10
   En un centro privado, religioso  49 75 2 26 27 1
   #Total cases  176 315 12 108 99 4
Code
# relativa

cro_rpct(cuestionario$colegio, cuestionario$religion,
         total_label = c("Total"),
         total_statistic = c("u_rpct"))
 Autodefinición religiosa 
 Católico practicante   Católico no practicante   Creyente de otra religión   No creyente   Indiferente   99999 
 Lugar de estudios 
   En un centro estatal, público  24.0 47.4 1.5 13.5 13.1 0.6
   En un centro privado, no religioso  22.0 25.4 5.1 30.5 16.9
   En un centro privado, religioso  27.2 41.7 1.1 14.4 15.0 0.6
   #Total  24.6 44.1 1.7 15.1 13.9 0.6

3.11 Gráficos bivariados con etiquetas {expss} para cada una de las variables anteriores

3.11.1 Gráfico 15: Ocio y genero

Code
g_a1 <- barplot(
        table(cuestionario$ocio, cuestionario$genero),
        beside = T,
        main="frecuencia absoluta actividad tiempo libre según género",
        xlab="género",
        ylab="casos",
        border=paleta7,
        col= paleta7,
        #density=100,
        ylim= c(0, 150)
        )

legend("topright",
        legend = ocio, 
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a1, 
     y = table(cuestionario$ocio, cuestionario$genero), 
     label = table(cuestionario$ocio, cuestionario$genero), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p11 <- round(prop.table(table(cuestionario$ocio, cuestionario$genero))*100,2)

g_a2 <- barplot(p11,
                beside = T,
        main="frecuencia porcentual actividad tiempo libre según género",
        xlab="género",
        ylab="porcentaje",
        border= paleta7,
        col= paleta7,
        density=90,
ylim =  c(0,25))

legend("topright",
        legend = ocio, 
        fill = paleta7,
        cex=0.6,
       density = 90,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a2, 
     y = p11,
     label = p11,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.11.2 Gráfico 16: Ocio y colegio

Code
g_a3 <- barplot(
        table(cuestionario$ocio,cuestionario$colegio),
        beside = T,
        main="frecuencia absoluta actividad tiempo libre según lugar de estudios",
        xlab="lugar",
        ylab="casos",
        border=paleta7,
        col= paleta7,
        cex.names = 0.6,
        #density=100,
        ylim= c(0, 150)
        )

legend("topright",
        legend = ocio, 
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a3, 
     y = table(cuestionario$ocio, cuestionario$colegio), 
     label = table(cuestionario$ocio,cuestionario$colegio), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p22 <- round(prop.table(table(cuestionario$ocio, cuestionario$colegio))*100,2)

g_a4 <- barplot(p22,
                beside = T,
        main="frecuencia porcentual actividad tiempo libre según lugar de estudios",
        xlab="lugar",
        ylab="porcentaje",
        border= paleta7,
        col= paleta7,
        density=90,
        cex.names = 0.6,
ylim =  c(0,25))

legend("topright",
        density = 90,
        legend = ocio,
        fill = paleta7,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a4, 
     y = p22,
     label = p22,
     pos = 3, 
     cex = 0.8, 
     col = "black")

3.11.3 Gráfico 17: Amor y religión

Code
g_a5 <- barplot(
        table(cuestionario$amor, cuestionario$religion),
        beside = T,
        main="frecuencia absoluta situación vincular/afectiva según \nautodefinición religiosa",
        xlab="autodefinición religiosa",
        ylab="casos",
        border=paleta4,
        col= paleta4,
        cex.names = 0.6,
        #density=100,
        ylim= c(0,200)
        )

legend("topright",
        legend = insideout,
        fill = paleta4,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a5, 
     y = table(cuestionario$amor, cuestionario$religion), 
     label = table(cuestionario$amor, cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
p33 <- round(prop.table(table(cuestionario$amor, cuestionario$religion))*100,2)

g_a6 <- barplot(p33,
                beside = T,
        main="frecuencia porcentual situación vincular/afectiva según \nautodefinición religiosa",
        xlab="autodefinición religiosa",
        ylab="porcentaje",
        border= paleta4,
        col= paleta4,
        density=90,
        cex.names = 0.6,
ylim =  c(0,25))

legend("topright",
        density = 90,
        legend = insideout,
        fill = paleta4,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a6, 
     y = p33,
     label = p33,
     pos = 3, 
     cex = 0.6, 
     col = "black")

3.11.4 Gráfico 18: Colegio y religión

Code
g_a7 <- barplot(
        table(cuestionario$colegio, cuestionario$religion),
        beside = T,
        main="frecuencia absoluta autodefinición religiosa según lugar de estudios",
        xlab="autodefinición religiosa",
        ylab="casos",
        border=paleta3,
        col= paleta3,
        cex.names = 0.6,
        #density=100,
        ylim= c(0,300)
        )

legend("topright",
        legend = estudio,
        fill = paleta3,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0) )

text(x = g_a7, 
     y = table(cuestionario$colegio, cuestionario$religion), 
     label = table(cuestionario$colegio, cuestionario$religion), 
     pos = 3, 
     cex = 0.8, 
     col = "black")

Code
# relativa
p44 <- round(prop.table(table(cuestionario$colegio, cuestionario$religion))*100,2)

g_a8 <- barplot(p44,
                beside = T,
        main="frecuencia porcentual autodefinición religiosa  según lugar de estudio",
        xlab="autodefinición religiosa",
        ylab="porcentaje",
        border= paleta3,
        col= paleta3,
        density=90,
        cex.names = 0.6,
        ylim =  c(0,40))

legend("topright",
        density = 90,
        legend = estudio,
        fill = paleta3,
        cex=0.6,
        xpd = TRUE,
        inset = c(-0.05,0)
       )

text(x = g_a8, 
     y = p44,
     label = p44,
     pos = 3, 
     cex = 0.7, 
     col = "black")

3.12 Análisis descriptivo

3.12.1 Medidas de tendencia central

Code
cuestionario %>%
  get_summary_stats(horas,tv,hijos1,hijos2,libros, ingreso1, ingreso2,ingreso3,edad, type="common")
variable n min max median iqr mean sd se ci
horas 690 1 49 20 18.00 21.049 11.494 0.438 0.859
tv 709 1 44 10 9.00 11.048 6.997 0.263 0.516
hijos1 644 0 5 2 0.00 2.067 0.871 0.034 0.067
hijos2 695 0 5 2 1.00 2.396 1.037 0.039 0.077
libros 640 1 40 5 7.00 7.467 7.165 0.283 0.556
ingreso1 652 0 450 0 35.25 27.630 51.232 2.006 3.940
ingreso2 652 0 380 0 0.00 7.529 37.780 1.480 2.905
ingreso3 652 0 250 12 21.00 19.018 24.876 0.974 1.913
edad 717 17 29 22 4.00 22.057 2.788 0.104 0.204

3.12.2 variables cuantitativas

3.12.2.1 horas

Code
boxplot(cuestionario$horas, na.action = NULL,
        xlab = "Horas",
        main="Horas semanales destinadas al tiempo libre", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#ef798a")

De las horas semanales destinadas al tiempo libre, el valor máximo destinado de horas es de 49 con un mediana de 20 horas y una media de 21.

3.12.2.2 tv

Code
boxplot(cuestionario$tv, 
        na.action = NULL,
        xlab = "Horas",
        main="horas semanales dedicadas a ver televisión", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#2a9d8f")

De las horas semanales dedicadas a ver televisión, la mediana es de 10 horas semanales y una media de 11 con un valor extremo de dedicación de 44 horas y un valor mínimo de 1.

3.12.2.3 hijos1

Code
par(mfrow = c(1, 2))

cuestionario$Cantidad = 1
ag <- aggregate(Cantidad ~ hijos1, cuestionario, sum)

barplot(ag$Cantidad ~ ag$hijos1, 
     main="cantidad de hijos que \ncreé va a tener", 
     xlab="cantidad hijos",
     ylab= " ",
     col="#52b69a",
     ylim= c(0, 400),
     las=1)

boxplot(cuestionario$hijos1, 
        na.action = NULL,
        xlab = "cantidad hijos",
        main="cantidad de hijos que \ncreé va a tener", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#52b69a")

De los encuestados, la mediana de respuesta de cuantos hijos creeé que va a tener es 2, compartiendo la misma media y con un valor máximo de 5.

3.12.2.4 hijos2

Code
boxplot(cuestionario$hijos2, na.action = NULL,
        xlab = "cantidad",
        main="cantidad de hijos que le gustaría llegar a tener", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#588157")

De los encuestados, la mediana de respuesta de cuantos hijos que le gustaría llegar a tener es 2, compartiendo una media similar de 2.3 y con un valor máximo de 5.

3.12.2.5 libros

Code
boxplot(cuestionario$libros, na.action = NULL,
        xlab = "cantidad",
        main = "cantidad de libros leidos en 12 meses", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#457b9d")

De la cantidad de libros leídos en 12 meses, la cantidad máxima superior al quartil es de 40 por año y valor mínmo es de 1 libro por año, la mediana es de 5 libros por año y el promedio de la muestra por 7 libros al año

3.12.2.6 ingreso1

Code
boxplot(cuestionario$ingreso1, na.action = NULL,
        xlab = "ingreso",
        main="ingresos personales", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#fe7f2d")

Del tipo de ingreso personal la mediana de la muestra es 0 y la media corresponde a un 27.630, con varios outliers llegando a un valor máximo de 450.

3.12.2.7 ingreso2

Code
boxplot(cuestionario$ingreso2, na.action = NULL,
        xlab = "ingreso",
        main="ingreso por la pareja", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#fe7f2d")

Del tipo de ingreso de la pareja la mediana de la muestra es 0, más del 95% de respuesta se ubica en este valor, es decir no recibe ingreso por la pareja. Y la media corresponde a un 7.529, inferior al tipo de ingreso personal, con varios outliers llegando a un valor máximo de 380.

3.12.2.8 ingreso3

Code
boxplot(cuestionario$ingreso3, na.action = NULL,
        xlab = "ingreso",
        main="ingreso por aportaciones familiares", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col= "#fe7f2d")

Del tipo de ingreso por aportaciones familiares, el valor máximo de ingreso es de 250 con una mediana de 12 y mediana de 19.01, de los valores extremos los rangos vacilan entre más de 50 a 250.

3.12.2.9 edad

Code
boxplot(cuestionario$edad, na.action = NULL,
        xlab = "edad",
        main="edad cumplida", 
        ann = T, 
        horizontal = TRUE,
        varwidth = F, outline=T, col="#ef798a")

El rango de edad de años cumplidos en el último año, la edad mínima es de 17 y la máxima de 29, con una mediana de 22 años de los encuestados

4 Cuarta parte: Contrastes de hipótesis

Utilizando los datos del archivo cuestionario y técnicas paramétricas y no paramétricas,

4.1 Situación 1

Determinar con un nivel de significación del 5%: si el promedio de horas libres a la semana para ocio o diversión en los hombres es mayor a la de las mujeres. Concluir en términos del problema y determinar cuál es el test más adecuado.

  • Chequear que la distribucion de la variable es normal
Code
library(ggpubr)
library(rstatix)


shapiro_test(cuestionario$horas)
variable statistic p.value
cuestionario$horas 0.9534078 0
Code
cuestionario %>%
  group_by(genero) %>%
  shapiro_test(horas)
genero variable statistic p
1 horas 0.9669287 8e-07
2 horas 0.9331564 0e+00
Code
ggqqplot(cuestionario, "horas")

Code
ggqqplot(cuestionario, "horas", facet.by = "genero")

La variable no es normal. Se rechaza el test de normalidad y en el qqplot se observa que los puntos caen por fuera de la recta normal

  • testeo de homocedasticidad de varianzas
Code
car::leveneTest(cuestionario$horas ~ as.factor(cuestionario$genero))
Df F value Pr(>F)
group 1 3.670516 0.0557972
688 NA NA

Como el p-value es mayor a 0.05 no rechazo la hipotesis de igualdad de varianzas. Como la variable no proviene de una poblacion normal no puedo usar un t-test como chequee que se cumpla el suspuesto de homocedasticidad puedo usar el test de mann- whitney para testear la igualdad de promedios entre los grupos

Code
cuestionario %>% wilcox_test(horas ~ genero)
.y. group1 group2 n1 n2 statistic p
horas Hombre Mujer 330 360 63629.5 0.105

Como pv > 0.05 no rechazo la hipotesis nula de igualdad de medias con un nivel de significacion del 5%. Es decir, con un alfa de 0.05 no rechazo la hipotesis de que el promedio de horas de ocio de los hombres es igual al promedio de horas de las mujeres

4.2 Situación 2

Determinar si hay diferencias en la cantidad promedio de libros leídos si tenemos en cuenta la asistencia de los jóvenes a colegio estatal o privado. Utilizar un nivel de significación del 5%. Concluir en términos del problema y determinar cuál es el test más adecuado.

  • Reclasifico la variable colegio en estatal o privado
Code
cuestionario$colegio2 <- ifelse(cuestionario$colegio %in% 1, "Estatal", "Privado")

table(cuestionario$colegio, cuestionario$colegio2) %>% kbl()
Estatal Privado
En un centro estatal, público 475 0
En un centro privado, no religioso 0 59
En un centro privado, religioso 0 180
  • Chequear que la distribucion de la variable es normal
Code
shapiro_test(cuestionario$libros)
variable statistic p.value
cuestionario$libros 0.7741123 0
Code
cuestionario %>%
  group_by(genero) %>%
  shapiro_test(libros)
genero variable statistic p
1 libros 0.7876037 0
2 libros 0.7611297 0
Code
ggqqplot(cuestionario, "libros")

Code
ggqqplot(cuestionario, "libros", facet.by = "colegio2")

La variable no es normal. Se rechaza el test de normalidad y en el qqplot se observa que los puntos caen por fuera de la recta normal

  • testeo de homocedasticidad de varianzas
Code
car::leveneTest(cuestionario$libros ~ as.factor(cuestionario$colegio2))
Df F value Pr(>F)
group 1 0.8593412 0.3542737
638 NA NA

Como el p-value es mayor a 0.05 no rechazo la hipotesis de igualdad de varianzas. Como la variable no proviene de una poblacion normal no puedo usar un t-test, tengo que usar el test de mann- whitney

Code
cuestionario %>% wilcox_test(libros ~ colegio2)
.y. group1 group2 n1 n2 statistic p
libros Estatal Privado 429 211 41593.5 0.094

Como pv > 0.05 no rechazo la hipotesis nula de igualdad de medias con un nivel de significacion del 5%. Es decir, con un alfa de 0.05 no rechazo la hipotesis de que el promedio de libros leidos (excluyendo los libros de texto) de los alumnos de escuelas publicas es igual al promedio de libros leidos de los alumnos de escuela privada