Python Data Science

 Aqui você irá encontrar algumas funções e trechos de códigos úteis para ciência de dados utilizando Python.


População x Amostra

A população é o conjunto de dados que estamos usando para fazer a análise estatística.

A amostra é uma parte da população. Muitas vezes são utilizadas amostras porque a população inteira é composta de milhões (ou até bilhões) de elementos.


min()

min(lista_de_valores): retorna o menor valor da lista


max()

max(lista_de_valores): retorna o maior valor da lista


Medidas de tendência central


De alguma forma, são considerados os valores médios de um conjunto, representando todo o conjunto.

O Python possui uma biblioteca chamada statistics que fornece diversas funções de cálculo.

Mean: média dos valores

Exemplo:

import statistics

conjunto = [1, 2, 4, 5, 5]

mean = statistics.mean(conjunto) # 3.4


Median: o “valor do meio” do conjunto (considerando que o conjunto está devidamente ordenados)

Exemplo:

conjunto = [1, 2, 4, 5, 5]

median = statistics.median(conjunto) # 4


Mode: o valor mais frequente do conjunto

Exemplo:

conjunto = [1, 2, 4, 5, 5]

mode = statistics.mode(conjunto) # 5


Medidas de dispersão/variabilidade

Ajudam a identificar quão dispersa é a população/amostra.


Variância: ajuda a identificar se o conjunto possui muitos outliers (pontos distantes da média)

Passos:

  1. Calcule a média (mean)

  2. Subtraia a média de cada valor (resultando em um conjunto do mesmo tamanho do usado para calcular a média)

  3. Eleve os elementos resultantes ao quadrado (deixando apenas com valores positivos)

  4. Calcule a média desses elementos. O resultado será a variância

Exemplo:

Conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]

  1. Média = 3.5

  2. Novo conjunto = [-2.5, -0.5, 0.5, -1.5, 2.5, 1.5, -0.5, 0.5, 1.5, -1.5]

  3. Novo conjunto ao quadrado=[6.25,0.25,0.25,2.25,6.25,2.25,0.25, 0.25, 2.25, 2.25]

  4. Variância = 2.25

Python:

import statistics as stats

conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]
variance = stats.pvariance(conjunto)


Standard Deviation: é a raiz quadrada da variância. Diminui o peso dos outliers. Deve ser utilizada quando é preciso um valor de dispersão que esteja na mesma unidade de medida do conjunto (como a variância eleva os valores ao quadrado, a unidade de medida da variância vai ser a unidade de medida do conjunto ao quadrado).

Python:

import statistics as stats

conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]
variance = stats.pstdev(conjunto)


Comentários

Postagens mais visitadas deste blog

Como criar um jogo usando Python

Biblioteca Python: Random