Buscar este blog

lunes, 8 de febrero de 2021

Muestreo estadístico

El concepto estadístico de muestra (y de muestreo) es sumamente importante para analizar datos y para trabajar en el campo de la ciencia de datos.

El conjunto completo de datos  sin procesar que se puede tener disponible (no siempre es posible) para una prueba o experimento se conoce como población. Por diversas razones, no siempre (yo diría que en contadas ocasiones) es posible observar (o medir alguna propiedad) en toda la población. Por esa razón, en estadística se platea tomar una muestra (osea una pequeña parte de la población), realizar algunos cálculos sobre ese conjunto (llamado muestra) de datos y, utilizando la probabilidad y algunas suposiciones, se puede con cierto grado de certeza  comprender las tendencias de toda la población o predecir eventos futuros.

El número total de habitantes de un país podría ser una población. También, el número total de personas que estudien y trabajan en una universidad puede decirse que es una población. La población podría ser solo los estudiantes o solo los profesores de esa universidad. Es decir, hay que definir claramente cúal es la población a estudiar o en estudio.

Digamos, por ejemplo, que queremos comprender la prevalencia (cuanto hay) de una enfermedad como el cáncer de hígado en toda la población de Guatemala. Por razones prácticas, no es posible evaluar a toda la población (personas con cáncer de hígado en toda Guatemala, por ejemplo algunos ya habrán muerto). En cambio, se puede seleccionar un grupo de pacientes (una muestra) aleatoria (al azar, mas sobre esto en otros posteos) y medir cuantos tienen cáncer de hígado) entre ellos. Suponiendo que nuestra muestra “representa bien”  la población (de Guatemala), podemos lograr una medida bastante acertada de lo que se quiere evaluar (la prevalencia).

Conceptos estadisticos básicos en la ciencia de datos


La estadística es un campo amplio y complejo. Este artículo (y los que siguen) pretenden ser una breve introducción (MUY SIMPLE) a algunas de los conceptos estadísticos más utilizadas en la ciencia de datos. 

La estadística es "una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación y presentación de de datos numéricos". Agregue la programación y el aprendizaje automático a la mezcla y tendrá una descripción bastante buena de las habilidades básicas para la ciencia de datos.

A menudo, los cursos de ciencia de datos asumen un conocimiento previo de estos conceptos estadístico básicos o comienzan con descripciones que son demasiado complejas y difíciles de comprender. Espero que este artículo sirva de recordatorio para una selección de técnicas estadísticas básicas utilizadas en la ciencia de datos antes de pasar a temas más avanzados.


Los conceptos básicos que iremos explicando (de a uno) en los posteos siguientes son:

1. Muestreo estadístico (link)

2. Estadística descriptiva (link)

3. Probabilidad (link)

4. Distribuciones estadísticas

5. Sesgo

6. Varianza

7. Compromiso sesgo/varianza

8. Correlación 

Existe muchos otros conceptos estadísticos pero estos son básicos para poder trabajar en el campo de la Ciencia de Datos


USANDO FUNCION case_when en lugar de condicional IF/ELSE

Este tutorial le mostrará cómo usar la función case_when en R para implementar lógica condicional en lugar de  i f / else ó if / elif / els...