Ciencia de Datos: febrero 2021

sábado, 13 de febrero de 2021

Diccionarios en Python

En Python un Diccionario es una estructura de datos con características especiales que nos permite almacenar cualquier tipo de datos (enteros, cadenas, listas e incluso otras funciones). Estos diccionarios permiten identificar cada elemento por una clave (Key).

Para definir un diccionario, se encierra el listado de valores entre llaves. Las parejas de clave y valor se separan con comas, y la clave y el valor se separan con dos puntos.

diccionario = {'nombre' : 'Rafa', 'edad' : 25, 'cursos': ['Python','P5','JavaScript'] }

Se acceder al elemento de un Diccionario mediante la clave de este elemento, como veremos a continuación:

print diccionario['nombre'] #Rafa

print diccionario['edad']#25

print diccionario['cursos'] #['Python','P5','JavaScript']

En la variable diccionario de arriba ‘cursos’ es una lista (compuesta de 'Python','P5','JavaScript') . Para acceder a cada uno de los cursos entro de la lista usamos índices:

print diccionario['cursos'][0]#Python

print diccionario['cursos'][1]#P5

print diccionario['cursos'][2]#JavaScript

Para recorrer todo el Diccionario, podemos hacer uso de la estructura for:

for key in diccionario:

print key, ":", diccionario[key]

lunes, 8 de febrero de 2021

Sesgo

#Sesgo #bias (en ingles)

Como se ha comentado anteriormente (link) ,en estadística se usan muestras de datos para hacer estimaciones sobre el conjunto de datos completo (población).

El sesgo es la tendencia de un modelo estadístico o predictivo a sobrestimar o subestimar un parámetro. A menudo, esto se debe al método utilizado para obtener la muestra o la forma en que se miden los errores. Hay varios tipos de sesgos que se encuentran comúnmente en las estadísticas. Aquí hay una breve descripción de dos de ellos.

Sesgo de selección: esto ocurre cuando la muestra se selecciona de forma no aleatoria. En la ciencia de datos, un ejemplo puede ser detener una prueba antes de que termine o seleccionar datos (manualmente) para entrenar un modelo de aprendizaje automático que podría enmascarar los efectos reales.

Sesgo de confirmación: esto ocurre cuando la persona que realiza el análisis tiene una suposición predeterminada sobre los datos. En esta situación, puede haber una tendencia a dedicar más tiempo a examinar las variables que probablemente apoyen este supuesto.

Correlacion

La correlación es una técnica estadística que cuantifica las relaciones entre dos variables. Se supone que la correlación es lineal (formando una línea cuando se muestra en un gráfico) y se expresa como un número entre +1 y -1, esto se conoce como el coeficiente de correlación.

Un coeficiente de correlación de +1 denota una correlación perfectamente positiva (cuando el valor de una variable aumenta, el valor de la segunda variable también aumenta), un coeficiente de 0 denota que no hay correlación y un coeficiente de -1 denota una correlación negativa perfecta.

EN el grafico de abajo puede verse como los datos aparecen en un grafico según el nivel de correlación (R.= coeficiente de correlación)

Cuando R es cercano a cero no parece haber asociación entre las variables por lo que los datos aparecen como una nube de puntos dispersa. mientras que cuando R se acerca a 1 o -1, los datos se "acomodan" alrededor de una línea recta (de pendiente positiva para R = 1 o pendiente negativa para R = -1)

PROBABILIDAD

La probabilidad, en términos simples, es un calculo, una propiedad que evalúa la posibilidad de que ocurra un evento (de que pase algo, cualquier cosa, por ejemplo: que llueva, que caiga granizo, que sea un día soleado, que salga cara cuando se lanza una moneda, que se acierte en la lotería, etc). En estadística, un evento es el resultado de un experimento, por ejemplo, el lanzamiento de un dado.

La probabilidad de un solo evento se calcula dividiendo el número de eventos por el número total de resultados posibles. En el caso de, digamos, tirar un seis en un dado de 12 caras, hay 12 resultados posibles. Entonces, la probabilidad de sacar un seis es 1/12, a veces esto también se expresa como un porcentaje (1/12 = 8,33%)

Los eventos pueden ser independientes o dependientes. Con eventos dependientes, un evento anterior influye en el evento posterior. Supongamos que tenemos una bolsa de bolitas rojas y azules y se quiere determinar la probabilidad de elegir al azar una bolita roja. Si cada vez que sacamos una bolita de la bolsa, la probabilidad de elegir la bolita roja cambiaría debido al efecto de eventos anteriores (por que al sacar una bolita del grupo quedan cada vez menos bolitas en la bolsa)

Los eventos independientes no se ven afectados por eventos anteriores. En el caso de la bolsa de bolitas si cada vez que seleccionamos una la volvemos a meter en la bolsa. La probabilidad de seleccionar una bolita roja seguiría siendo la misma cada vez. (es decir, como volvemos a poner la bolita sacada en la bolsa el numero total de bolitas es siempre el mismo). Si un evento es independiente o no es importante, ya que la forma en que calculamos la probabilidad de múltiples eventos cambia según el tipo.

La probabilidad de múltiples eventos independientes se calcula simplemente multiplicando la probabilidad de cada evento. En el ejemplo de la tirada de dados, digamos que queríamos calcular la probabilidad de sacar un 6 tres veces. Esto tendría el siguiente aspecto:

1/12 * 1/12 * 1/12 = 3/1728 = 0,016853 (1,68%)

El cálculo es diferente para los eventos dependientes, también conocido como probabilidad condicional. Si tomamos de las bolitas, imagina que tenemos una bolsa con solo dos colores rojo y azul, y sabemos que la bolsa contiene 3 rojas y 2 azules y queremos calcular la probabilidad de elegir dos rojas seguidos. En la primera elección, la probabilidad de elegir una roja es 3/5 = 0,6. En la segunda selección, hemos eliminado una bolita, que resultó ser roja, por lo que nuestro segundo cálculo de probabilidad es 2/4 = 0.5. La probabilidad de elegir dos rojas seguidos es, por tanto, 0,6 * 0,5 = 0,3.

Estadística descriptiva

La estadística descriptiva, como su nombre sugiere, es el campo de la estadística que nos permite describir los datos. En otras palabras, nos permite entender las características subyacentes. No predice nada, no hace suposiciones ni infiere nada, simplemente proporciona una descripción de la muestra de datos que tenemos.

Las estadísticas descriptivas se derivan de cálculos, a menudo denominados parámetros. Estos incluyen:

Media: el valor central, comúnmente llamado promedio.

Mediana: el valor medio si ordenamos los datos de menor a mayor y lo dividimos exactamente por la mitad.

Moda: el valor que ocurre con más frecuencia.

Estos son solo algunos de los parámetros que se pueden usar para describir una muestra de datos. Existen muchos más.

Muestreo estadístico

El concepto estadístico de muestra (y de muestreo) es sumamente importante para analizar datos y para trabajar en el campo de la ciencia de datos.

El conjunto completo de datos sin procesar que se puede tener disponible (no siempre es posible) para una prueba o experimento se conoce como población. Por diversas razones, no siempre (yo diría que en contadas ocasiones) es posible observar (o medir alguna propiedad) en toda la población. Por esa razón, en estadística se platea tomar una muestra (osea una pequeña parte de la población), realizar algunos cálculos sobre ese conjunto (llamado muestra) de datos y, utilizando la probabilidad y algunas suposiciones, se puede con cierto grado de certeza comprender las tendencias de toda la población o predecir eventos futuros.

El número total de habitantes de un país podría ser una población. También, el número total de personas que estudien y trabajan en una universidad puede decirse que es una población. La población podría ser solo los estudiantes o solo los profesores de esa universidad. Es decir, hay que definir claramente cúal es la población a estudiar o en estudio.

Digamos, por ejemplo, que queremos comprender la prevalencia (cuanto hay) de una enfermedad como el cáncer de hígado en toda la población de Guatemala. Por razones prácticas, no es posible evaluar a toda la población (personas con cáncer de hígado en toda Guatemala, por ejemplo algunos ya habrán muerto). En cambio, se puede seleccionar un grupo de pacientes (una muestra) aleatoria (al azar, mas sobre esto en otros posteos) y medir cuantos tienen cáncer de hígado) entre ellos. Suponiendo que nuestra muestra “representa bien” la población (de Guatemala), podemos lograr una medida bastante acertada de lo que se quiere evaluar (la prevalencia).

Conceptos estadisticos básicos en la ciencia de datos

La estadística es un campo amplio y complejo. Este artículo (y los que siguen) pretenden ser una breve introducción (MUY SIMPLE) a algunas de los conceptos estadísticos más utilizadas en la ciencia de datos.

La estadística es "una rama de las matemáticas que se ocupa de la recopilación, análisis, interpretación y presentación de de datos numéricos". Agregue la programación y el aprendizaje automático a la mezcla y tendrá una descripción bastante buena de las habilidades básicas para la ciencia de datos.

A menudo, los cursos de ciencia de datos asumen un conocimiento previo de estos conceptos estadístico básicos o comienzan con descripciones que son demasiado complejas y difíciles de comprender. Espero que este artículo sirva de recordatorio para una selección de técnicas estadísticas básicas utilizadas en la ciencia de datos antes de pasar a temas más avanzados.

Los conceptos básicos que iremos explicando (de a uno) en los posteos siguientes son:

1. Muestreo estadístico (link)

2. Estadística descriptiva (link)

3. Probabilidad (link)

4. Distribuciones estadísticas

5. Sesgo

6. Varianza

7. Compromiso sesgo/varianza

8. Correlación

Existe muchos otros conceptos estadísticos pero estos son básicos para poder trabajar en el campo de la Ciencia de Datos

Ciencia de Datos

Buscar este blog