Estimativa do uso de Redes Sociais

Sobre o dataset

  • Este é um conjunto de dados simulados, gerado utilizando a biblioteca ‘NumPy’ de Python e disponibilizada no Kaggle;
  • Os dados representam o tempo que um usuário passa em seus dispositivos utilizando as redes sociais;
  • Criado com o objetivo de treinar modelos de Inteligência Artificial e prática de estatítica descritiva.

Apresentando o Dataset

Exemplo de uma pequena amostra do dataset:

Idade Gênero Horas Gastas Plataforma Interesse Localização Demografia Profissão Renda Possui Dívida Possui Casa Possui Carro + 5 horas
56 male 3 Instagram Sports United Kingdom Urban Software Engineer 19774 TRUE FALSE FALSE FALSE
46 female 2 Facebook Travel United Kingdom Urban Student 10564 TRUE TRUE TRUE FALSE
32 male 8 Instagram Sports Australia Sub_Urban Marketer Manager 13258 FALSE FALSE FALSE TRUE
60 non-binary 5 Instagram Travel United Kingdom Urban Student 12500 FALSE TRUE FALSE FALSE
25 male 1 Instagram Lifestlye Australia Urban Software Engineer 14566 FALSE TRUE TRUE FALSE
38 male 3 Facebook Travel United States Urban Marketer Manager 19179 TRUE TRUE TRUE FALSE

Análise Descritiva

Histograma das Idades

Histograma da Renda

Histograma do tempo gasto em redes sociais

Frequência das variáveis descritivas

Local Freq
Australia 352
United Kingdom 329
United States 319
Demografia Freq
Rural 340
Sub_Urban 335
Urban 325
Plataforma Freq
Facebook 307
Instagram 363
YouTube 330

Box plot sobre o tempo gasto em cada plataforma

Testes de hipótese

Descrição dos Testes

Tendo em vista toda análise descritiva realizada, utilizaremos testes de hipóteses para responder algumas questões:

  • Há diferença na proporção de homens e mulheres que utilizam as redes sociais por mais de 5 horas?
  • Há diferença na proporção de americanos e australianos que utilizam as redes sociais por mais de 5 horas?

Para todos esses testes consideramos um nível de significância de 5%.

Sobre os testes

Um teste Z de duas amostras é usado para testar a diferença entre duas proporções de populações, p1 e p2, quando uma amostra é selecionada aleatoriamente de cada população.

A estatística de teste é : \[ \small\ Z_{\text{obs}} = \frac{(\hat{p}_1 - \hat{p}_2) - (p_1 - p_2)}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}} \]

onde:

  • p̂1 e p̂2 são as proporções das amostrais
  • p1 e p2 são as proporções populacionais
  • n1 e n2 são o tamanho das amostras
  • p̂ é uma estimativa ponderada tal que

\[ \hat{p} = \frac{x_1+x_2}{n_1+n_2} {\text{ em que }} (x_1 = n_1\hat{p}_1) {\text{ e }} (x_2 = n_2\hat{p}_2). \]

Primeiro teste

Primeiro teste

  • H0: A proporção de homens e mulheres que gastam mais de 5 horas em redes sociais é igual;
  • Ha: A proporção de homens e mulheres que gastam mais de 5 horas em redes sociais é diferente.
Mais de 5 horas 5 horas ou menos Total
Homens 143 194 337
Mulheres 152 179 331

Conclusão

Portando aceitarmos H0. Desta forma, concluímos que não há evidências para acreditarmos que há diferença entre a proporção de homens e mulheres que usam as redes sociais por mais de 5 horas.

Intervalo de confiança

Quando testamos a diferença entre duas proporções (por exemplo, a proporção de sucessos em dois grupos diferentes), a diferença pode ser negativa se a proporção de sucessos no primeiro grupo for menor que a proporção de sucessos no segundo grupo.

Visto isso no caso de um teste de proporções para duas populações diferentes, com base nos nossos dados é possível afirmar que a proporção de sucessos no primeiro grupo seja menor que a proporção de sucessos no segundo grupo.

\[\text{IC = Estimativa Pontual }\pm z\cdot EP\] \[lim_{inf} = -0,06 \\ \text{ }lim_{sup} = 0,03\]

Logo podemos afirmar com 90% de confiança o intervalo entre [-0,06;0,03] conter o verdadeiro valor do parâmetro.

Segundo teste

Segundo teste

  • H0: A proporção de americanos e australianos que gastam mais de 5 horas em redes sociais é igual;
  • Ha: A proporção de americanos e australianos que gastam mais de 5 horas em redes sociais é diferente.
Mais de 5 horas 5 horas ou menos Total
EUA 138 181 319
AUS 166 186 352

Conclusão

Portando aceitarmos H0. Desta forma, concluímos que não há evidências para acreditarmos que há diferença entre a proporção de americanos e australianos que usam as redes sociais por mais de 5 horas.

Intervalo de confiança

Assim como no cálculo do IC do teste anterior, o ajuste de intervalos de confiança para uma diferença de duas proporções, as duas proporções da amostra são usadas para verificar a condição de falha-sucesso.

\[\text{IC = Estimativa Pontual }\pm z\cdot EP\] \[lim_{inf} = -0,09 \\ \text{ }lim_{sup} = 0,01\]

Logo podemos afirmar com 90% de confiança o intervalo entre [-0,09;0,01] conter o verdadeiro valor do parâmetro.

Muito obrigado pela atenção!