Desvendando o Mundo dos Penguins com o Dataset Palmer Penguins 🐧

Introdução

Sobre o Dataset

  • Além de um banco de dados no Kaggle, é um banco de dados “verdadeiro” e nativo do R

  • Os dados foram coletados e disponibilizados pela Dra. Kristen Gorman e pela Estação Palmer, Antártica, LTER (Long Term Ecological Research), membro da Rede de Pesquisa Ecológica de Longo Prazo.

  • 344 Pinguins

  • 3 espécies (Adélie, chinstrap e gentoo)

Contexto

  • Coletados em Palmer Station, na Península Antártica, esses dados oferecem insights valiosos sobre três espécies de pinguins: Adélie, Chinstrap e Gentoo.
  • Cada linha neste conjunto de dados é mais do que um simples registro; é uma história de sobrevivência, reprodução e evolução em um dos ambientes mais extremos do planeta.

Apresentando o dataset

Exemplo de uma pequena amostra aleatória do dataset:

Specie Island Bill Length (mm) Bill Depth (mm) Flipper Length (mm) Body Mass (g) Sex Year
Adelie Dream 40.3 18.5 196 4350 male 2008
Chinstrap Dream 51.3 19.9 198 3700 male 2007
Gentoo Biscoe 51.5 16.3 230 5500 male 2009
Adelie Dream 40.7 17.0 190 3725 male 2009
Adelie Torgersen 38.6 17.0 188 2900 female 2009
Adelie Biscoe 39.6 20.7 191 3900 female 2009
Adelie Biscoe 41.0 20.0 203 4725 male 2009
Adelie Dream 36.5 18.0 182 3150 female 2007

Nossos Protagonistas

  • Adélie
Médias
bill_length_mm 38.79139
bill_depth_mm 18.34636
flipper_length_mm 189.95364
body_mass_g 3700.66225
  • Chinstrap
Médias
bill_length_mm 48.83382
bill_depth_mm 18.42059
flipper_length_mm 195.82353
body_mass_g 3733.08824
  • Gentoo
Médias
bill_length_mm 47.50488
bill_depth_mm 14.98211
flipper_length_mm 217.18699
body_mass_g 5076.01626

Sobre as espécies

Adelie Chinstrap Gentoo
Total de registros 152.0 68.0 124.0
Quant. de machos 73.0 34.0 61.0
Quant. de fêmeas 73.0 34.0 58.0
Menor comprimento do bico (mm) 32.1 40.9 40.9
Maior comprimento do bico (mm) 46.0 58.0 59.6
Menor profundidade do bico (mm) 15.5 16.4 13.1
Maior profundidade do bico (mm) 21.5 20.8 17.3
Menor comprimento da nadadeira (mm) 172.0 178.0 203.0
Maior comprimento da nadadeira (mm) 210.0 212.0 231.0
Menor massa corporal (g) 2850.0 2700.0 3950.0
Maior massa corporal (g) 4775.0 4800.0 6300.0

Relação entre comprimento da nadadeira e massa corporal

Comparação da distribuição da massa corporal por espécie

Relação entre comprimento e profundidade do bico

Pesquisas

Estudo Adelie

Com o objetivo de cálcular o intervalo de confiança para a espécie Adelie, criamos um data base com apenas as observações da espécie de interesse nele, abaixo está o resumo:

Specie Island Bill Length (mm) Bill Depth (mm) Flipper Length (mm) Body Mass (g) Sex Year
Adelie Torgersen 39.1 18.7 181 3750 male 2007
Adelie Torgersen 39.5 17.4 186 3800 female 2007
Adelie Torgersen 40.3 18.0 195 3250 female 2007
Adelie Torgersen NA NA NA NA NA 2007
Adelie Torgersen 36.7 19.3 193 3450 female 2007
Adelie Torgersen 39.3 20.6 190 3650 male 2007

Histograma de amostras do comprimento da nadadeira (mm)

IC (Com Bootstrap!)

O que é e como funciona:

Na prática

Histograma das médias geradas pelo BootStraping com Curva Teórica

Verifica-se a curva normal teórica com o IC calculado na curva teórica!

Logo, um intervalo de confiança com um nível de confiança de 95% indica que, em teoria, se selecionássemos uma amostra de mesmo tamanho de uma mesma população muitas vezes e calculássemos o intervalo de confiança para cada uma delas, aproximadamente 95% desses intervalos incluiriam o verdadeiro valor do parâmetro.

Verifica-se que os intervalos de confiança com fórmula ‘tradicional’ e com Bootstrap são praticamente os mesmos:

Fórmula Bootstrap
Limite Inferior 188.9140 188.9252
Limite Sperior 190.9932 190.9886

Gentoo e Chinstrap!

Logo, podemos afirmar que há 95% de confiança do intervalo [216.1, 218.2] conter o verdadeiro valor do parâmetro.

Logo, podemos afirmar que há 95% de confiança do intervalo [194.6, 196.9] conter o verdadeiro valor do parâmetro.

Teste de Hipótese!

  • Objetivo do Teste: Investigar se a proporção de pinguins das espécies Adélie, Chinstrap e Gentoo no conjunto de dados Palmer Penguins difere significativamente de uma distribuição equitativa, com uma proporção hipotética de 0.33333 e alpha 0.05 para cada espécie.

  • Contexto: Exploramos as proporções de cada espécie de pinguim para entender se a distribuição observada no conjunto de dados diverge da expectativa equitativa.

  • Método: Utilizando testes de proporção, analisaremos se as quantidades observadas de Adélie, Chinstrap e Gentoo são estatisticamente diferentes das proporções esperadas.

Teste de Hipótese

# Teste de proporção da QUANTIDADE de pinguins para a espécie Adelie
# h0 é igual a 0.33333
# h1 é diferente de 0.33333
p0 = 0.33333
alpha = 0.05
n_dataset= length(penguins_db$species) # Amostra total.
n = length(species_separadas_adelie$species) # Tamanho da espécie Adélie no data base.
p_chapeu_adelie = n/n_dataset

# Estatística de Teste
z_teste <- (p_chapeu_adelie-p0)/(sqrt(p0 *(1-p0)/n))
z_teste
[1] 2.838447
# Definir região critica.
normq <- qnorm(1 - alpha/2) 
normq
[1] 1.959964
# z_teste 2.838447 > normq  -2.241403 2.241403 REJEITA

# Teste Bilateral do P-valor.
p_valor_bilateral <- 2 * pnorm(-abs(z_teste)) 
p_valor_bilateral
[1] 0.004533364
p_valor_bilateral > alpha # REJEITA
[1] FALSE
# Há evidências de que, ao nível de 95% confiança, os dados mostram que a proporção da população de pinguins da espécie Adelie é diferente a 33%.
# Teste para proporção para a QUANTIDADE de pinguins da especie Chinstrap.
# h0 é igual a 0.33333
# h1 é diferente de 0.33333
n = length(species_separadas_chinstrap$species)
p_chapeu_chinstrap = n/n_dataset

# Estatística de Teste
z_teste <- (p_chapeu_chinstrap-p0)/(sqrt(p0 *(1 - p0)/n))
z_teste
[1] -2.373009
# Definir região critica.
normq <- qnorm(1 - alpha/2) 
normq
[1] 1.959964
# z_teste -2.373009 > normq  -2.241403 2.241403 REJEITA

# Teste Bilateral do P-valor.
p_valor_bilateral <- 2 * pnorm(-abs(z_teste)) 
p_valor_bilateral
[1] 0.01764381
p_valor_bilateral > alpha # REJEITA
[1] FALSE
# Há evidências de que, ao nível de 95% confiança, os dados mostram que a proporção da população de pinguins da espécie Chinstrap é diferente a 33%.
# Teste para proporção da QUANTIDADE de pinguins para a especie Gentoo
# h0 é igual 0.3333
# h1 é diferente de 0.3333
n = length(species_separadas_gentoo$species)
p_chapeu_gentoo = n/n_dataset

# Estatística de Teste
z_teste <- (p_chapeu_gentoo-p0)/(sqrt(p0 *(1 - p0)/n))
z_teste
[1] 0.640988
# Definir região critica.
normq <- qnorm(1 - alpha/2) 
normq
[1] 1.959964
# z_teste 0.640988 > normq  -2.241403 2.241403 ACEITA

# Teste Bilateral do P-valor.
p_valor_bilateral <- 2 * pnorm(-abs(z_teste)) 
p_valor_bilateral
[1] 0.5215305
p_valor_bilateral >  alpha # ACEITA
[1] TRUE
# Há evidências de que, ao nível de 95% confiança, os dados mostram que a proporção da população de pinguins da espécie Gentoo é igual a 33%.

Muito obrigado pela atenção!