Se você precisa ter informações sobre variabilidade ou dispersão de dados, o boxplot é um gráfico que fornece uma boa indicação de como os valores estão distribuídos.
Embora os boxplots possam parecer primitivos em comparação com outros tipos de gráficos, eles têm algumas vantagens.
Deseja entender sua utilidade e aplicação para os dados?
Confira nosso post!
- O que é Boxplot?
- Como um Boxplot é formado? Estrutura
- O que é quartil e quais as diferenças entre quartil e percentil?
- Boxplot comparativo/estratificado
- Quais as diferenças entre Boxplot e Histograma?
- Como interpretar e analisar o gráfico Boxplot?
- Como fazer um Boxplot no R e utilizando planilhas?
- Analisando um Boxplot na prática?
- Quais as vantagens e desvantagens de um Boxplot?
Boa leitura!
O que é Boxplot?
Boxplot, também conhecido como diagrama de caixa, é um tipo de gráfico para ilustrar um conjunto de dados. Por meio dele é possível fazer uma relação entre uma variável quantitativa (numérica) e outra qualitativa (categórica).
O objetivo da construção desse gráfico é tornar mais nítida a visualização das estatísticas para fazer análises e/ou processamentos em relação a dispersão, assimetria, média, outliers (mínimos e máximos) e mediana, que podem auxiliar em atividades de data science por exemplo. Em um gráfico do tipo boxplot é exibido o resumo dos 5 números, que são: mínimo, primeiro quartil, mediana, terceiro quartil e o máximo.
Essas 5 estatísticas apresentadas anteriormente são fundamentais para a construção deste gráfico. Não se preocupe se você não conhece esses termos, a seguir apresentaremos a todos eles e verá uma ilustração de sua estrutura.
Como um Boxplot é formado? Estrutura
- Mínimo – É o valor mínimo do conjunto de dados, mas que respeita um certo limite. É possível a existência de valores discrepantes que são ainda menores (outliers).
- Primeiro Quartil (Q1) – É a base da caixa retângular. Uma demarcação que distingue que 25% dos dados estão abaixo e os outros 75% dos dados estão acima desse valor.
- Mediana ou Segundo Quartil (Q2) – A linha mais ao centro do gráfico, demarcar o valor central do conjunto de dados. 50% dos dados são maiores que esse valor e os outros 50% dos dados são menores.
- Terceiro Quartil (Q3) – O topo da caixa retangular. Essa linha informa o número que fica entre os 75% valores mais baixos e os 25% valores mais altos.
- Máximo – Valor máximo do conjunto de dados, mas respeitando um limite calculado. É possível a existência de valores acima deste na base de dados (outliers).
- Outliers – Valores discrepantes que estão fora de um intervalo definido, altos demais ou baixos demais.
É possível observar que as amostras que estão dentro do intervalo numérico que corresponde a caixa retangular correspondem a 50% do total de amostras.
A imagem ilustra uma maneira de representar esse gráfico, mas existem diferentes formas, como por exemplo: construído na horizontal, ou mesmo ter mais um símbolo para indicar a média dos valores (deixando-o mais rico em informação).
Até então você só foi apresentado aos conceitos, mas agora chegou a hora da matemática necessária para criar um boxplot. Vamos imaginar um exemplo considerando as idades de 10 alunos que já fizeram curso na Trybe: 22, 24, 22, 27, 46, 30, 28, 26, 25, 31.
- O primeiro passo é ordenar esses valores em ordem crescente:
22, 22, 24, 25, 26, 27, 28, 30, 31, 46
- Depois precisamos calcular o valor da mediana ou Q2 (a soma dos dois valores centrais da lista anterior dividido por dois):
(26 + 27) / 2
26,5
- Para calcular os quartis, podemos repetir o processo de cálculo da mediana. O primeiro quartil (Q1) é a mediana dos valores menores que a mediana (26,5) — Nesse caso, como é ímpar a quantidade de dados, a mediana é a informação central:
22, 22, 24, 25, 26
24
- O terceiro quartil (Q3) é a mediana dos valores maiores que a mediana (26,5):
27, 28, 30, 31, 46
30
- O valor mínimo é o menor valor do conjunto de dados:
22
- E agora o valor máximo, que é a idade mais alta:
46
- Por fim, seremos capazes de definir os limites do intervalo e saber diferenciar qual valor será considerado um outlier. Outliers são valores menores que:
Q1 – 1,5 * (Q3 – Q1) = 24 – 1,5 * (30 – 24) = 24 – 1,5 * 6 = 24 – 9 = 15
E também, valores maiores que:
Q3 + 1,5 * (Q3 – Q1) = 30 + 1,5 * (30 – 24) = 30 + 1,5 * 6 = 30 + 9 = 39
Com todas essas informações em mãos você já está apto ou apta para desenhar seu gráfico boxplot das idades dos alunos da Trybe. Tente fazer para fixar o que você acabou de ler. Mais na frente, veremos como desenhar esse mesmo gráfico sem precisar de papel e lápis, faremos tudo de maneira mais rápida.
O que é quartil e quais as diferenças entre quartil e percentil?
Anteriormente já falamos sobre quartil, mas agora daremos uma definição mais formal para esse termo, e para isso, precisamos antes entender o que é um percentil.
Um percentil é uma medida estatística utilizada para dividir uma amostra ordenada de forma crescente em 100 partes, cada parte com um percentual de dados aproximadamente iguais.
Para ficar mais evidente, vamos a um exemplo: queremos saber qual o percentil 30 da amostra das idades dos alunos da Trybe, ou seja, queremos saber o valor tal qual 30% da amostra que apresenta valor igual ou menor.
Para fazer o cálculo basta seguir a fórmula:
posição da lista = (percentil * tamanho da amostra) / 100
posição da lista = (30 * 10) / 100
posição da lista = 3
A resposta para percentil 30 da nossa amostra está na posição 3, considerando a lista das idades ordenadas de forma crescente, teremos o valor 24.
Depois de falar de percentil fica fácil explicar quartil. Pela palavra “quartil” você pode até imaginar que significa ¼ da amostra, e está totalmente correto o raciocínio. Os quartis são os percentis de 25, 50 e 75, ou, em outras palavras, como já vimos anteriormente, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3).
Boxplot comparativo/estratificado
Boxplot comparativo ou boxplot estratificado querem dizer a mesma coisa. Esse nome indica um gráfico que tem mais de um conjunto de dados e seu modelo serve para deixar as comparações mais nítidas, deixando as informações lado a lado.
Por meio da imagem acima podemos perceber que o boxplot da direita em comparação com o da esquerda tem dados menos espaçados, possui mediana maior e, de modo geral, dados mais elevados.
Quais as diferenças entre Boxplot e Histograma?
Os dois são gráficos para ilustrar dados em uma amostra, mas têm aplicações diferentes e vai depender muito do objetivo. Então, não existe um melhor ou um pior. Apenas para fins comparativos e para ajudar no entendimento, abaixo um exemplo de histograma:
Ambos ilustrarão os dados começando no menor valor e terminando no maior valor. O histograma vai fornecer explicitamente a frequência dos valores no gráfico, algo que não pode ser visto no boxplot.
Já o boxplot, por sua vez, concentra informações de primeiro quartil, mediana, terceiro quartil, outliers e por vezes a média de maneira mais explícita, estatísticas que não são tão evidentes observando um histograma.
Como interpretar e analisar o gráfico Boxplot?
Você precisa ter em mente que o boxplot separa os dados em 4 grupos iguais, cada grupo com 25% do total de amostras.
Podemos calcular a dispersão dos dados considerando a altura da caixa central, ou seja, calculando a diferença entre o terceiro e o primeiro quartil, também chamado de intervalo interquartil (que representa 50% dos dados), medida usada para medir a variabilidade sem a influência de outliers.
De forma oposta ao intervalo interquartil, podemos também calcular as estreitas superiores e inferiores. A estreita superior é a diferença entre o valor máximo e o terceiro quartil, já a estreita inferior é a diferença entre o primeiro quartil e o valor mínimo.
Outra informação que podemos utilizar a nosso favor é a simetria. Se os dados forem simétricos, a linha da mediana ficará ao centro da caixa. Caso a linha da mediana fique mais próxima da base (primeiro quartil), os dados serão assimétricos positivos, e caso a mediana fique mais próxima do topo (terceiro quartil), os dados serão assimétricos negativos.
Como fazer um Boxplot no R e utilizando planilhas?
Inicialmente, vamos fazer um boxplot no R. Caso você não tenha conhecimento, a linguagem R é uma linguagem de programação orientada a objetos, fracamente tipada, com objetivo de manipular, analisar e visualizar dados. Já no download da linguagem R, um grande conjunto de pacotes é fornecido por padrão, e um desses pacotes já possibilita a construção do boxplot.
Apenas para melhorar a experiência da implementação, faremos os exemplos utilizando o RStudio.
Vamos utilizar agora um outro conjunto de dados hipotéticos: vamos supor que em uma turma da Trybe foram coletadas as informações de quantos meses os alunos levaram para conseguir o primeiro emprego: 3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5.
O primeiro passo é salvar nosso conjunto de dados em uma variável, da seguinte maneira:
turmaTrybe <- c(3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5)
E o passo seguinte é chamar a função de boxplot e visualizar o gráfico criado do lado direito no RStudio:
boxplot(turmaTrybe)
É bem provável que você tenha o seguinte resultado:
Agora, vamos ver como seria a criação de um boxplot se precisássemos fazer isso em uma planilha no Google Sheets. Vamos considerar o mesmo exemplo dos meses, porém vamos ter outros valores: 4, 6, 8, 6, 7, 5, 9, 6, 7, 4, 3, 6, 7, 8, 8.
Inicialmente precisamos inserir os dados na planilha:
Depois disso precisamos fazer os cálculos que já foram apresentados anteriormente, vamos separar o valor mínimo, primeiro quartil, mediana, terceiro quartil e valor máximo. Deixaremos todas as fórmulas da planilha abaixo para agilizar o processo:
- Valor mínimo:
=MÍNIMO(A2:A16)
- Primeiro Quartil:
=QUARTIL(A2:A14; 1)
- Mediana:
=QUARTIL(A2:A14; 2)
- Terceiro Quartil:
=QUARTIL(A2:A14; 3)
- Valor máximo:
=MÁXIMO(A2:A16)
Com os valores calculados, podemos finalmente gerar o gráfico selecionando os dados dessa forma, como evidenciado abaixo:
Depois, ir na opção “Inserir” e selecionar “Gráfico”.
Certifique-se de alterar o tipo de gráfico para boxplot (essa opção está no final da lista, como Gráfico Candlestick):
E agora, o último passo é selecionar a opção de “Alterar linhas / colunas”:
Seguindo o passo a passo, temos esse resultado:
Caso seus dados estejam salvos no Excel e você queira gerar um diagrama de caixa de lá mesmo, este link do suporte da Microsoft pode ajudar.
Analisando um Boxplot
Faremos uma comparação entre a turma 1 (boxplot gerado anteriormente na linguagem R) e a turma 2 (boxplot anteriormente gerado no Google Sheet). Abaixo temos uma imagem retirada do RStudio comparando as duas turmas, seguida do código necessário para gerá-la:
turma1 <- c(3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5)
turma2 <- c(4, 6, 8, 6, 7, 5, 9, 6, 7, 4, 3, 6, 7, 8, 8)
boxplot(turma1, turma2, main="Período (meses) para conseguir o primeiro emprego", names=c("Turma 1", "Turma 2"), ylab="meses")
Colocando os gráficos lado a lado, fica mais fácil perceber que a Turma 1 apresenta maior variação dos meses: a caixa, ou seja, a dispersão dos dados, é ligeiramente maior. A turma 1 também apresenta uma cauda inferior, também conhecida como estreita inferior mais alongada e podemos perceber que o valor mínimo é menor se comparado com a Turma 2.
Já na Turma 2 temos uma dispersão menor dos dados, os dados são assimétricos positivos e a mediana dos meses é mais elevada.
Também é muito importante entender a variável qualitativa do gráfico, que é o tempo necessário em meses que um aluno da Trybe levou para conseguir seu primeiro emprego. Desse modo, conseguimos interpretar que a Turma 1 embora com maior dispersão, em média, os alunos conseguiram atingir o objetivo de forma mais rápida que os alunos da Turma 2.
Quais as vantagens e desvantagens de um Boxplot?
O boxplot é capaz de organizar de uma maneira simples grandes quantidades de dados, mas, como introduzido antes, não tem a capacidade de exibir detalhes de valores exatos. Portanto, podemos considerar a utilização do histograma como forma complementar para melhorar a análise.
O diagrama de caixa tem muitas informações visuais, apresentando um resumo nítido de todas elas, o que permite comparar facilmente com outros diagramas do mesmo tipo. Válido destacar também, que é um dos poucos gráficos que tem representação para os outliers.
Mesmo que o diagrama de caixas não seja um gráfico tão conhecido e que cause estranheza para algumas pessoas, vimos que é fácil de construir e que concentra muitas informações que podem ser úteis.
Pode ser que você necessite de uma visualização resumida de um conjunto de dados, ou talvez faça uma comparação entre grupos de amostras. Intuitivamente pode-se perceber a distribuição da variável qualitativa. Agora você tem mais uma ferramenta para usar a seu favor, o boxplot.
Se você é do meio de TI e tem interesse sobre a área de estatística, saiba que a mineração de dados tem crescido muito rápido nos últimos anos e os profissionais estão sendo cada vez mais procurados. Confira nosso texto sobre o assunto!
A visualização das informações em gráficos serve para nos auxiliar na interpretação dos dados. Percebendo que nos dias atuais a inteligência de mercado está virando um trunfo para adquirir vantagem competitiva, um pouco de conhecimento dessa área certamente não fará mal. Dentre os gráficos disponíveis, há o Boxplot.
Sua utilidade está muito relacionada a auxiliar na tomada de decisão, afinal, por meio dele é possível destacar uma série de informações com base em um conjunto de dados, como destacar padrões, classificar amostras, comparar dados, entre outras coisas.
Com a visualização desse tipo de gráfico, as amostras são visualizadas de forma resumida e ajuda bastante na hora de fazer comparações. Depois de entender, o próprio gráfico se torna autoexplicativo.
Vamos conhecer mais sobre Boxplot? Confira:
- O que é Boxplot?
- Como um Boxplot é formado? Estrutura
- O que é quartil e quais as diferenças entre quartil e percentil?
- Boxplot comparativo/estratificado
- Quais as diferenças entre Boxplot e Histograma?
- Como interpretar e analisar o gráfico Boxplot?
- Como fazer um Boxplot no R e utilizando planilhas?
- Analisando um Boxplot na prática?
- Quais as vantagens e desvantagens de um Boxplot?
Boa leitura!
O que é Boxplot?
Boxplot, também conhecido como diagrama de caixa, é um tipo de gráfico para ilustrar um conjunto de dados. Por meio dele é possível fazer uma relação entre uma variável quantitativa (numérica) e outra qualitativa (categórica).
O objetivo da construção desse gráfico é tornar mais nítida a visualização das estatísticas para fazer análises e/ou processamentos em relação a dispersão, assimetria, média, outliers (mínimos e máximos) e mediana, que podem auxiliar em atividades de data science por exemplo. Em um gráfico do tipo boxplot é exibido o resumo dos 5 números, que são: mínimo, primeiro quartil, mediana, terceiro quartil e o máximo.
Essas 5 estatísticas apresentadas anteriormente são fundamentais para a construção deste gráfico. Não se preocupe se você não conhece esses termos, a seguir apresentaremos a todos eles e verá uma ilustração de sua estrutura.
Como um Boxplot é formado? Estrutura
- Mínimo – É o valor mínimo do conjunto de dados, mas que respeita um certo limite. É possível a existência de valores discrepantes que são ainda menores (outliers).
- Primeiro Quartil (Q1) – É a base da caixa retângular. Uma demarcação que distingue que 25% dos dados estão abaixo e os outros 75% dos dados estão acima desse valor.
- Mediana ou Segundo Quartil (Q2) – A linha mais ao centro do gráfico, demarcar o valor central do conjunto de dados. 50% dos dados são maiores que esse valor e os outros 50% dos dados são menores.
- Terceiro Quartil (Q3) – O topo da caixa retangular. Essa linha informa o número que fica entre os 75% valores mais baixos e os 25% valores mais altos.
- Máximo – Valor máximo do conjunto de dados, mas respeitando um limite calculado. É possível a existência de valores acima deste na base de dados (outliers).
- Outliers – Valores discrepantes que estão fora de um intervalo definido, altos demais ou baixos demais.
É possível observar que as amostras que estão dentro do intervalo numérico que corresponde a caixa retangular correspondem a 50% do total de amostras.
A imagem ilustra uma maneira de representar esse gráfico, mas existem diferentes formas, como por exemplo: construído na horizontal, ou mesmo ter mais um símbolo para indicar a média dos valores (deixando-o mais rico em informação).
Até então você só foi apresentado aos conceitos, mas agora chegou a hora da matemática necessária para criar um boxplot. Vamos imaginar um exemplo considerando as idades de 10 alunos que já fizeram curso na Trybe: 22, 24, 22, 27, 46, 30, 28, 26, 25, 31.
- O primeiro passo é ordenar esses valores em ordem crescente:
22, 22, 24, 25, 26, 27, 28, 30, 31, 46
- Depois precisamos calcular o valor da mediana ou Q2 (a soma dos dois valores centrais da lista anterior dividido por dois):
(26 + 27) / 2
26,5
- Para calcular os quartis, podemos repetir o processo de cálculo da mediana. O primeiro quartil (Q1) é a mediana dos valores menores que a mediana (26,5) — Nesse caso, como é ímpar a quantidade de dados, a mediana é a informação central:
22, 22, 24, 25, 26
24
- O terceiro quartil (Q3) é a mediana dos valores maiores que a mediana (26,5):
27, 28, 30, 31, 46
30
- O valor mínimo é o menor valor do conjunto de dados:
22
- E agora o valor máximo, que é a idade mais alta:
46
- Por fim, seremos capazes de definir os limites do intervalo e saber diferenciar qual valor será considerado um outlier. Outliers são valores menores que:
Q1 – 1,5 * (Q3 – Q1) = 24 – 1,5 * (30 – 24) = 24 – 1,5 * 6 = 24 – 9 = 15
E também, valores maiores que:
Q3 + 1,5 * (Q3 – Q1) = 30 + 1,5 * (30 – 24) = 30 + 1,5 * 6 = 30 + 9 = 39
Com todas essas informações em mãos você já está apto ou apta para desenhar seu gráfico boxplot das idades dos alunos da Trybe. Tente fazer para fixar o que você acabou de ler. Mais na frente, veremos como desenhar esse mesmo gráfico sem precisar de papel e lápis, faremos tudo de maneira mais rápida.
O que é quartil e quais as diferenças entre quartil e percentil?
Anteriormente já falamos sobre quartil, mas agora daremos uma definição mais formal para esse termo, e para isso, precisamos antes entender o que é um percentil.
Um percentil é uma medida estatística utilizada para dividir uma amostra ordenada de forma crescente em 100 partes, cada parte com um percentual de dados aproximadamente iguais.
Para ficar mais evidente, vamos a um exemplo: queremos saber qual o percentil 30 da amostra das idades dos alunos da Trybe, ou seja, queremos saber o valor tal qual 30% da amostra que apresenta valor igual ou menor.
Para fazer o cálculo basta seguir a fórmula:
posição da lista = (percentil * tamanho da amostra) / 100
posição da lista = (30 * 10) / 100
posição da lista = 3
A resposta para percentil 30 da nossa amostra está na posição 3, considerando a lista das idades ordenadas de forma crescente, teremos o valor 24.
Depois de falar de percentil fica fácil explicar quartil. Pela palavra “quartil” você pode até imaginar que significa ¼ da amostra, e está totalmente correto o raciocínio. Os quartis são os percentis de 25, 50 e 75, ou, em outras palavras, como já vimos anteriormente, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3).
Boxplot comparativo/estratificado
Boxplot comparativo ou boxplot estratificado querem dizer a mesma coisa. Esse nome indica um gráfico que tem mais de um conjunto de dados e seu modelo serve para deixar as comparações mais nítidas, deixando as informações lado a lado.
Por meio da imagem acima podemos perceber que o boxplot da direita em comparação com o da esquerda tem dados menos espaçados, possui mediana maior e, de modo geral, dados mais elevados.
Quais as diferenças entre Boxplot e Histograma?
Os dois são gráficos para ilustrar dados em uma amostra, mas têm aplicações diferentes e vai depender muito do objetivo. Então, não existe um melhor ou um pior. Apenas para fins comparativos e para ajudar no entendimento, abaixo um exemplo de histograma:
Ambos ilustrarão os dados começando no menor valor e terminando no maior valor. O histograma vai fornecer explicitamente a frequência dos valores no gráfico, algo que não pode ser visto no boxplot.
Já o boxplot, por sua vez, concentra informações de primeiro quartil, mediana, terceiro quartil, outliers e por vezes a média de maneira mais explícita, estatísticas que não são tão evidentes observando um histograma.
Como interpretar e analisar o gráfico Boxplot?
Você precisa ter em mente que o boxplot separa os dados em 4 grupos iguais, cada grupo com 25% do total de amostras.
Podemos calcular a dispersão dos dados considerando a altura da caixa central, ou seja, calculando a diferença entre o terceiro e o primeiro quartil, também chamado de intervalo interquartil (que representa 50% dos dados), medida usada para medir a variabilidade sem a influência de outliers.
De forma oposta ao intervalo interquartil, podemos também calcular as estreitas superiores e inferiores. A estreita superior é a diferença entre o valor máximo e o terceiro quartil, já a estreita inferior é a diferença entre o primeiro quartil e o valor mínimo.
Outra informação que podemos utilizar a nosso favor é a simetria. Se os dados forem simétricos, a linha da mediana ficará ao centro da caixa. Caso a linha da mediana fique mais próxima da base (primeiro quartil), os dados serão assimétricos positivos, e caso a mediana fique mais próxima do topo (terceiro quartil), os dados serão assimétricos negativos.
Como fazer um Boxplot no R e utilizando planilhas?
Inicialmente, vamos fazer um boxplot no R. Caso você não tenha conhecimento, a linguagem R é uma linguagem de programação orientada a objetos, fracamente tipada, com objetivo de manipular, analisar e visualizar dados. Já no download da linguagem R, um grande conjunto de pacotes é fornecido por padrão, e um desses pacotes já possibilita a construção do boxplot.
Apenas para melhorar a experiência da implementação, faremos os exemplos utilizando o RStudio.
Vamos utilizar agora um outro conjunto de dados hipotéticos: vamos supor que em uma turma da Trybe foram coletadas as informações de quantos meses os alunos levaram para conseguir o primeiro emprego: 3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5.
O primeiro passo é salvar nosso conjunto de dados em uma variável, da seguinte maneira:
turmaTrybe <- c(3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5)
E o passo seguinte é chamar a função de boxplot e visualizar o gráfico criado do lado direito no RStudio:
boxplot(turmaTrybe)
É bem provável que você tenha o seguinte resultado:
Agora, vamos ver como seria a criação de um boxplot se precisássemos fazer isso em uma planilha no Google Sheets. Vamos considerar o mesmo exemplo dos meses, porém vamos ter outros valores: 4, 6, 8, 6, 7, 5, 9, 6, 7, 4, 3, 6, 7, 8, 8.
Inicialmente precisamos inserir os dados na planilha:
Depois disso precisamos fazer os cálculos que já foram apresentados anteriormente, vamos separar o valor mínimo, primeiro quartil, mediana, terceiro quartil e valor máximo. Deixaremos todas as fórmulas da planilha abaixo para agilizar o processo:
- Valor mínimo:
=MÍNIMO(A2:A16)
- Primeiro Quartil:
=QUARTIL(A2:A14; 1)
- Mediana:
=QUARTIL(A2:A14; 2)
- Terceiro Quartil:
=QUARTIL(A2:A14; 3)
- Valor máximo:
=MÁXIMO(A2:A16)
Com os valores calculados, podemos finalmente gerar o gráfico selecionando os dados dessa forma, como evidenciado abaixo:
Depois, ir na opção “Inserir” e selecionar “Gráfico”.
Certifique-se de alterar o tipo de gráfico para boxplot (essa opção está no final da lista, como Gráfico Candlestick):
E agora, o último passo é selecionar a opção de “Alterar linhas / colunas”:
Seguindo o passo a passo, temos esse resultado:
Caso seus dados estejam salvos no Excel e você queira gerar um diagrama de caixa de lá mesmo, este link do suporte da Microsoft pode ajudar.
Analisando um Boxplot
Faremos uma comparação entre a turma 1 (boxplot gerado anteriormente na linguagem R) e a turma 2 (boxplot anteriormente gerado no Google Sheet). Abaixo temos uma imagem retirada do RStudio comparando as duas turmas, seguida do código necessário para gerá-la:
turma1 <- c(3, 5, 8, 6, 3, 7, 4, 1, 4, 3, 9, 4, 5, 6, 5)
turma2 <- c(4, 6, 8, 6, 7, 5, 9, 6, 7, 4, 3, 6, 7, 8, 8)
boxplot(turma1, turma2, main="Período (meses) para conseguir o primeiro emprego", names=c("Turma 1", "Turma 2"), ylab="meses")
Colocando os gráficos lado a lado, fica mais fácil perceber que a Turma 1 apresenta maior variação dos meses: a caixa, ou seja, a dispersão dos dados, é ligeiramente maior. A turma 1 também apresenta uma cauda inferior, também conhecida como estreita inferior mais alongada e podemos perceber que o valor mínimo é menor se comparado com a Turma 2.
Já na Turma 2 temos uma dispersão menor dos dados, os dados são assimétricos positivos e a mediana dos meses é mais elevada.
Também é muito importante entender a variável qualitativa do gráfico, que é o tempo necessário em meses que um aluno da Trybe levou para conseguir seu primeiro emprego. Desse modo, conseguimos interpretar que a Turma 1 embora com maior dispersão, em média, os alunos conseguiram atingir o objetivo de forma mais rápida que os alunos da Turma 2.
Quais as vantagens e desvantagens de um Boxplot?
O boxplot é capaz de organizar de uma maneira simples grandes quantidades de dados, mas, como introduzido antes, não tem a capacidade de exibir detalhes de valores exatos. Portanto, podemos considerar a utilização do histograma como forma complementar para melhorar a análise.
O diagrama de caixa tem muitas informações visuais, apresentando um resumo nítido de todas elas, o que permite comparar facilmente com outros diagramas do mesmo tipo. Válido destacar também, que é um dos poucos gráficos que tem representação para os outliers.
Mesmo que o diagrama de caixas não seja um gráfico tão conhecido e que cause estranheza para algumas pessoas, vimos que é fácil de construir e que concentra muitas informações que podem ser úteis.
Pode ser que você necessite de uma visualização resumida de um conjunto de dados, ou talvez faça uma comparação entre grupos de amostras. Intuitivamente pode-se perceber a distribuição da variável qualitativa. Agora você tem mais uma ferramenta para usar a seu favor, o boxplot.
Se você é do meio de TI e tem interesse sobre a área de estatística, saiba que a mineração de dados tem crescido muito rápido nos últimos anos e os profissionais estão sendo cada vez mais procurados. Confira nosso texto sobre o assunto!