Estatística necessária para Data Science

Uma dúvida pertinente que todo mundo tem quando está ingressando no mundo da análise de dados, é se precisa dominar estatística. Não só como dominar essa área, um bom Cientista de Dados precisa ter a perspicácia na tomada de decisão. É necessário que esse profissional interprete os dados recebidos para tomar as decisões certas, por conta disso, a estatística oferece muitas ferramentas e recursos para os Cientistas de Dados.

Antes de prosseguirmos para os assuntos de estatística, vou abordar alguns conceitos fundamentais de Data Science.

O que um Cientista de Dados faz?

Ultimamente, um dos assuntos que mais ouvimos falar é sobre Data Science e como se tornar um renomeado Cientista de Dados. A primeira coisa que penso ao ouvir o termo “Data Science” ou “Análise de Dados” é um conjunto de números aleatórios, gráficos e tabelas gigantes, e realmente é isso mesmo.

O profissional de Data Science utiliza os dados para encontrar soluções e identificar tendências. É necessário que ele saiba interagir com os dados e a partir disso, criar hipóteses concretas.

A popularidade repentina dessa área é atribuída em como as empresas estão utilizando os dados para ativo estratégico e vantagem competitiva. Nós convivemos com isso o tempo inteiro, quando recebemos alguma propaganda similar ao que havíamos pesquisado ou recomendações de músicas e séries. A mineração de dados tem aplicação no aprimoramento do relacionamento com o cliente e a extração de conhecimentos úteis a partir dele.

Compreensão dos dados

É necessário que todo Cientista de Dados saiba quais informações está manipulando e procurar a melhor forma de compreende-las é um dos seus maiores desafios.

Vamos entender primeiro o conceito de dados estruturados. Os dados estruturados são organizados em linhas e colunas, geralmente são encontrados em planilhas, arrays e tabelas. Já os dados não estruturados referem-se aos elementos que não podem ser organizados em linhas e colunas, como imagens, documentos e e-mails.

Algumas tarefas que podem ser seguidas para o tratamento e a preparação dos dados que todo profissional da área deve saber.

  • Interação: Ler e escrever formatos variados de arquivos;
  • Preparação: Limpar, manipular, combinar e normalizar as informações para a análise;
  • Transformação: Aplicar operações matemáticas e estatísticas em grupos de conjuntos de elementos;
  • Modelagem e Processamento: Conectar seus dados a modelos estatísticos e algoritmos de aprendizado de máquina;
  • Apresentação: Criar visualizações gráficas interativas ou estatísticas, ou até mesmo sínteses textuais;

A importância da estatística para Data Science

O termo “estatística” pode ser dividido em dois grupos diferentes na análise de dados. Pode ser usado apenas como um termo genérico, em que precisamos calcular valores numéricos de interesse a partir de nossos elementos, como, por exemplo, analisar a distribuição de salários no Brasil. Essas análises frequentemente incluem cálculo de média, mediana, moda e assim por diante. Esse tipo de abordagem está mais voltado para uma estatística consolidada, que vemos com muita frequência e que nos fornece a estrutura básica teórica e prática para Data Science.

Essas estatísticas devem ser escolhidas com cautela, de acordo com a análise que deve ser feita. Por exemplo, vamos analisar o salário de cargos de diretores no Brasil.

Fonte: https://www.salario.com.br/estatisticas/profissoes-melhores-salarios-brasil/

Podemos calcular alguns valores da tabela.

Imagem desenvolvida pelo autor

Podemos notar que a média salarial dos diretores é R$ 20.171,36.

Agora, vamos analisar essa tabela.

Fonte: https://www.salario.com.br/estatisticas/profissoes-melhores-salarios-brasil/

Note que foi adicionado um novo cargo de diretor de cinema, com o salário de R$ 300.440,47. Vamos chamar esse valor de outlier (valor atípico ou fora do padrão), pois não segue o padrão dos outros salários.

Vamos calcular a média novamente.

Imagem desenvolvida pelo autor

O valor da média subiu para R$ 43.527,12. Esse aumento se deve apenas a um valor adicionado. Em tais casos, a média nos diz relativamente pouco sobre os salários. Para termos um valor mais próximo da média dos salários recebidos pelos diretores, poderíamos calcular a mediana, ao invés da média aritmética.

Esse exemplo pode parecer óbvio, pois já estamos acostumados a ouvir sobre “renda mediana”, mas o mesmo raciocínio se aplica a qualquer cálculo de estatística. É necessário entender a distribuição dos dados e se a estratégia escolhida é apropriada.

Muitas pessoas podem pensar que não é necessário ter um conhecimento profundo em estatística, pois atualmente os softwares já fazem boa parte do trabalho duro. Realmente, isso é verdade, porém, quando realizamos uma análise, sem o entendimento genérico do processo, não é possível explicar ou convencer alguém da sua utilidade.

O outro grupo da estatística, está relacionado ao teste de hipóteses, para estimar incertezas e conclusões. Ele nos ajuda a determinar se um padrão observado é válido ou pode ser descartado.

Nesse quesito, podemos citar a análise preditiva.

Analise preditiva é a junção da mineração de dados, machine learning e estatística. A análise preditiva utiliza dados históricos. Esses dados são usados para construir modelos matemáticos que nos possibilitam “prever o futuro”, antecipar acontecimentos e traçar possíveis tendências.

O que é essa tal de estatística descritiva?

A estatística descritiva é utilizada para descrever, resumir e compreender um conjunto de dados. Geralmente nos deparamos com quantidades enormes de dados e uma forma para sintetizar esses dados é utilizando alguns conceitos de estatística descritiva. Esse ramo da estatística usa medidas de tendência central, medidas de dispersão, percentis e etc.

A estatística descritiva, ao contrário da estatística inferencial, está focada na apresentação dos dados, mas não procura fazer inferências ou tirar sólidas conclusões que podem ser usados para prever futuros dados da amostra.

Por que estatística descritiva é tão importante?

Veja esse exemplo, temos um dataset que informa basicamente o total da conta, a gorjeta fornecida pelo cliente e o tipo de sexo. Esse dataset é um exemplo e pode ser facilmente obtido com o Seaborn, uma biblioteca da linguagem Python.

Imagem desenvolvida pelo autor

Podemos plotar um gráfico de barras e analisar a distribuição de gorjetas de ambos os sexos.

Imagem desenvolvida pelo autor

Analisando o gráfico, de acordo com o dataset, os homens tendem a dar mais gorjetas. Esse é um exemplo em que a estatística descritiva nos ajuda a analisar de forma fácil e intuitiva algumas variáveis presentes na tabela.

Abaixo, vamos conhecer algumas das principais medidas utilizadas na estatística descritiva.

Medidas de tendência central

Referem-se a medidas que ajudam a visualizar a distribuição dos dados. Reflete a ideia de escolher um número que melhor indica a localização dos dados.

Média

A média aritmética é a soma de todos os termos divido pelo número total.

Vamos calcular a seguinte média.

Mediana

A mediana representa o valor central da distribuição, dividindo os dados em duas partes. Pode ser utilizada como alternativa a média. A mediana não é afetada por outliers.

Para calcular a mediana, é necessário colocar os dados em ordem crescente.

Caso a quantidade de números seja par, é calculado a média entre os dois números centrais.

Moda

A moda corresponde ao valor que aparece com maior frequência.

Nesse caso, a moda seria o número 4, pois é o que mais se repete. Entretanto, existem distribuições bimodais, isto é, com duas modas ou até mesmo diversas modas, chamadas multimodais.

Da mesma forma que a mediana, a moda não é afetada por outliers.

Medidas de dispersão

As medidas de dispersão nos dizem quanto os valores estão dispersos entre si.

Variância

Consiste em uma medida de dispersão que verifica a relação da distância dos valores de um ponto central.

Antes de calcular a variância, devemos nos atentar ao nosso conjunto de dados, se estamos trabalhando com população ou amostra.

Para calcular a variância de uma população, usamos.

Quando estamos lidando com uma amostra, nós usamos a seguinte equação.

Desvio padrão

O desvio padrão é definido como a raiz quadrada da variância.

Muitos estatísticos preferem usar o desvio padrão ao invés da variância, já que os valores são expressos na mesma unidade dos dados, o que facilita a compreensão.

Um desvio padrão baixo, significa que os dados estão próximos a média, enquanto que um valor alto, significa que os valores estão mais dispersos da média.

Para calcular o desvio padrão da população, usamos.

Enquanto que, para calcular o desvio padrão sobre uma amostra, usamos.

Skewness

É uma medida de assimetria que indica em qual lado do conjunto de dados as observações estão mais concentradas.

Temos três possíveis valores: inclinação positiva, negativa e simétrica.

Vamos tomar como exemplo um histograma, um dos melhores gráficos para visualizar a dispersão dos dados.

Quando a concentração dos dados está no lado esquerdo e o valor da média é maior que a mediana, temos uma inclinação positiva.

Fonte: https://help.gooddata.com/display/doc/Normality+Testing+-+Skewness+and+Kurtosis

Quando a concentração dos dados está no lado direito e o valor da média é menor que a mediana, temos uma inclinação negativa.

Fonte: https://help.gooddata.com/display/doc/Normality+Testing+-+Skewness+and+Kurtosis

Em uma distribuição normal, os dados estão concentrados no meio do gráfico. Portanto, nessa situação, a média é igual a mediana e temos uma simetria.

Covariância

Na maioria dos casos, sempre precisamos trabalhar com mais de uma variável para chegar a uma determinada conclusão. A forma certa de medir a relação entre essas variáveis é por meio da covariância.

A covariância mede a relação linear entre duas variáveis. Se as variáveis possuem uma covariância positiva, significa que compartilham uma semelhança. Em caso de o valor ser negativo, as variáveis estão em direções oposta. Se a covariância for igual a zero, as variáveis são independentes e não há relação entre elas.

O calculo da covariância é baseado na média das duas variáveis.

Essa é a formula usada para o cálculo da covariância de uma amostra, temos duas variáveis, x e y.

Estatística inferencial

Como dito acima, a estatística inferencial utiliza os dados de uma amostra (geralmente apresentados com a estatística descritiva) para realizar inferências sobre a população.

Toda inferência está acompanhada de um grau de incerteza. A estatística inferencial possui técnicas que permitem dar ao pesquisador um grau de confiabilidade nas afirmações que faz com a população, baseadas nos resultados amostrais. O problema fundamental da estatística inferencial é, portanto, medir o grau de incerteza dessas generalizações.

. . .

Esse foi apenas um conteúdo introdutório sobre a aplicação da estatística em Data Science. Espero que tenha ajudado a entender alguns conceitos para você continuar trilhando seu caminho na área.

Até a próxima!