El concepto estadístico de muestra (y de muestreo) es sumamente importante para analizar datos y para trabajar en el campo de la ciencia de datos.
El conjunto completo de datos sin procesar que se puede tener disponible (no
siempre es posible) para una prueba o experimento se conoce como población. Por
diversas razones, no siempre (yo diría que en contadas ocasiones) es posible
observar (o medir alguna propiedad) en toda la población. Por esa razón, en
estadística se platea tomar una muestra (osea una pequeña parte de la
población), realizar algunos cálculos sobre ese conjunto (llamado muestra) de
datos y, utilizando la probabilidad y algunas suposiciones, se puede con cierto
grado de certeza comprender las
tendencias de toda la población o predecir eventos futuros.
El número total de habitantes de un país podría ser una
población. También, el número total de personas que estudien y trabajan en una
universidad puede decirse que es una población. La población podría ser solo
los estudiantes o solo los profesores de esa universidad. Es decir, hay que
definir claramente cúal es la población a estudiar o en estudio.
Digamos, por ejemplo, que queremos comprender la prevalencia
(cuanto hay) de una enfermedad como el cáncer de hígado en toda la población de
Guatemala. Por razones prácticas, no es posible evaluar a toda la población
(personas con cáncer de hígado en toda Guatemala, por ejemplo algunos ya habrán
muerto). En cambio, se puede seleccionar un grupo de pacientes (una muestra)
aleatoria (al azar, mas sobre esto en otros posteos) y medir cuantos tienen cáncer
de hígado) entre ellos. Suponiendo que nuestra muestra “representa bien” la población (de Guatemala), podemos lograr
una medida bastante acertada de lo que se quiere evaluar (la prevalencia).

No hay comentarios:
Publicar un comentario