O Único Teorema Que Todo Cientista de Dados Deve Saber – by Julia Kho


Este artigo serve como um guia rápido sobre um dos mais importantes teoremas que todo cientista de dados deve conhecer, o Teorema do Limite Central.

O que é isso? Quando você não pode usar isto? Por que isso é importante? É a mesma coisa que a Lei dos Grandes Números?

Teorema do Limite Central vs. Lei dos Grandes Números

Muitas vezes, o Teorema do Limite Central é confundido com a Lei dos Grandes Números. A Lei dos Grandes Números afirma que, à medida que o tamanho de uma amostra é aumentado, quanto mais precisa for uma estimativa, a média da amostra será a da média populacional.

A diferença entre os dois teoremas é que a Lei dos Grandes Números declara algo sobre uma única média da amostra, enquanto o Teorema do Limite Central indica algo sobre a distribuição das médias amostrais.

Teorema do Limite Central (TLC)

O Teorema do Limite Central afirma que a distribuição das amostras da média de qualquer variável aleatória independente será normal ou quase normal, se o tamanho da amostra for grande o suficiente.

Em outras palavras, se pegarmos amostras aleatórias suficientes que sejam grandes o suficiente, as proporções de todas as amostras serão normalmente distribuídas em torno da proporção real da população. Observe que a distribuição de amostra subjacente não precisa ser normalmente distribuída para o TLC ser aplicado. Para quebrar ainda mais isso, imagine coletar uma amostra e calcular a média da amostra. Repita isso continuamente, coletando uma nova amostra independente da população a cada vez. Se traçarmos um histograma de cada média da amostra, a distribuição será distribuída normalmente.

O que isso parece? Uma distribuição normal tem uma curva em forma de sino como abaixo. A maioria dos dados é agrupada no meio ou na média. Essa distribuição é centralizada em torno de uma média de 0 e tem um desvio padrão de 1.

Você pode se perguntar: o que se qualifica como grande o suficiente? Bem, a regra geral é que, se o tamanho da amostra for 30 ou mais, o tamanho da amostra será grande o suficiente para o TLC reter.

Tradução: não se aproxima simplesmente de uma distribuição usando o Teorema do Limite Central quando o tamanho da amostra é muito pequeno.

Aqui está uma demonstração divertida da TLC funcionando. Na máquina de feijão, ou Galton Board, as esferas são soltas do topo e eventualmente acumuladas em recipientes na parte inferior em formato de uma curva de sino.

Quando você não pode usar o CLT?

  • A amostragem não é aleatória.
  • A distribuição subjacente não possui uma média / variação definida.

Exemplo com um simulador de dados

Um dos exemplos clássicos da TLC é lançar um dado de seis lados. Cada número tem uma probabilidade de 1 em 6 de aparecer no lançamento de dados. Podemos usar Python para simular nossos dados rolando.

Vamos definir o tamanho da nossa amostra para ter 50 observações. O código randint(1, 7, 50) nos dá uma matriz de 50 números, na qual os números de 1 a 6 são igualmente prováveis ​​de aparecer. Vamos começar analisando a distribuição das médias de 10 amostras.

Resultado de 10 meios de amostra

Ainda não existe uma forma para essa distribuição. Vamos aumentar o número de amostras para 1.000. Observe que estamos nos aproximando da curva em forma de sino.

Resultado de 1.000 amostras

Agora vamos analisar um número extremamente grande de amostras, 100.000 para ser exato. Isto parece uma curva de sino muito definida agora. Isso não é incrível? Nossa amostra de distribuição se parece com a distribuição gaussiana! Assim como a TLC nos diz.

Resultado de 100.000 médias amostrais

Por que nos importamos com o TLC?

Ele serve como base de estatística. Será impossível sair e coletar dados de toda uma população de interesse. No entanto, coletando um subconjunto de dados dessa população e usando estatística, podemos tirar conclusões sobre essa população.

O TLC essencialmente simplifica a análise para nós! Se nós pudermos reivindicar a distribuição normal, há várias coisas que podemos dizer sobre o conjunto de dados. Na ciência de dados, muitas vezes queremos comparar duas populações diferentes por meio de testes de significância estatística, isto é, testes de hipóteses. Pelo poder da TLC e nosso conhecimento da distribuição gaussiana, podemos avaliar nossa hipótese sobre as duas populações.

Obrigado pela leitura! Deixe um comentário se você tiver dúvidas.

Publicado originalmente em inglês na plataforma Medium em 9 de outubro de 2018.


Olá MARATONISTAS!! Meu nome é Victor Hugo e esse foi o primeiro artigo traduzido que estarei trazendo para vocês. Minha principal plataforma será a Medium, mas estarei buscando outras também. Se vocês tiverem algum artigo ou site que queiram que eu traduza e traga para vocês é só me enviar que terei o maior prazer de fazer.

Peço desculpas, pois não poderei trazer artigos na velocidade que gostaria. Faço a maratona e estudo MUITO por fora também. Estou buscando um espaço no mercado de trabalho para já iniciar nesse mundo fantástico de Data Science e Machine Learning e estou totalmente atolado.

Até o próximo artigo e bons estudos para todos!!!