Python Data Science
Aqui você irá encontrar algumas funções e trechos de códigos úteis para ciência de dados utilizando Python.
População x Amostra
A população é o conjunto de dados que estamos usando para fazer a análise estatística.
A amostra é uma parte da população. Muitas vezes são utilizadas amostras porque a população inteira é composta de milhões (ou até bilhões) de elementos.
min()
max()
Medidas de tendência central
De alguma forma, são considerados os valores médios de um conjunto, representando todo o conjunto.
O Python possui uma biblioteca chamada statistics que fornece diversas funções de cálculo.
Mean: média dos valores
Exemplo:
import statistics
conjunto = [1, 2, 4, 5, 5]
mean = statistics.mean(conjunto) # 3.4
Median: o “valor do meio” do conjunto (considerando que o conjunto está devidamente ordenados)
Exemplo:
conjunto = [1, 2, 4, 5, 5]
median = statistics.median(conjunto) # 4
Mode: o valor mais frequente do conjunto
Exemplo:
conjunto = [1, 2, 4, 5, 5]
mode = statistics.mode(conjunto) # 5
Medidas de dispersão/variabilidade
Ajudam a identificar quão dispersa é a população/amostra.
Variância: ajuda a identificar se o conjunto possui muitos outliers (pontos distantes da média)
Passos:
Calcule a média (mean)
Subtraia a média de cada valor (resultando em um conjunto do mesmo tamanho do usado para calcular a média)
Eleve os elementos resultantes ao quadrado (deixando apenas com valores positivos)
Calcule a média desses elementos. O resultado será a variância
Exemplo:
Conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]
Média = 3.5
Novo conjunto = [-2.5, -0.5, 0.5, -1.5, 2.5, 1.5, -0.5, 0.5, 1.5, -1.5]
Novo conjunto ao quadrado=[6.25,0.25,0.25,2.25,6.25,2.25,0.25, 0.25, 2.25, 2.25]
Variância = 2.25
Python:
conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]
variance = stats.pvariance(conjunto)
Standard Deviation: é a raiz quadrada da variância. Diminui o peso dos outliers. Deve ser utilizada quando é preciso um valor de dispersão que esteja na mesma unidade de medida do conjunto (como a variância eleva os valores ao quadrado, a unidade de medida da variância vai ser a unidade de medida do conjunto ao quadrado).
Python:
conjunto = [1, 3, 4, 2, 6, 5, 3, 4, 5, 2]
variance = stats.pstdev(conjunto)
Comentários
Postar um comentário