Uma firma tem nove funcionários ganhando 2 mil reais e um dono que retira 82 mil. O salário médio da empresa é 10 mil reais, e nenhuma das dez pessoas ganha isso. A frase é matematicamente correta e completamente enganosa, e é exatamente para desmontar enganos assim que existe a estatística descritiva: o conjunto de medidas que resume dados com honestidade, cada uma contando uma parte da história. Este guia ensina, no nível de uma aula particular, as medidas de centro (média, mediana, moda), de posição (quartis e percentis) e de dispersão (amplitude, variância, desvio padrão e coeficiente de variação), as tabelas de frequência e o histograma, com exemplos resolvidos, os erros que as provas adoram induzir e a calculadora de estatística descritiva do portal, que entrega todas as medidas e desenha o histograma dos seus dados.
Resumir sem mentir: o trabalho da descritiva
Dados brutos não falam: cinquenta notas soltas, mil salários, as alturas de uma turma. A estatística descritiva os faz falar por resumos: um número para o CENTRO (onde os dados se concentram), números para a POSIÇÃO (quem está em que ponto da fila) e números para a DISPERSÃO (o quanto os dados se espalham). Nenhum resumo sozinho conta a história toda, e o exemplo da firma mostra o risco de ouvir só um deles; o ofício é escolher as medidas certas para cada pergunta, e é isso que este guia treina.
O primeiro gesto é sempre o mesmo: ORDENAR os dados (o rol). A lista 7, 2, 9, 4, 7 vira 2, 4, 7, 7, 9, e de repente o mínimo, o máximo e o miolo ficam visíveis. Metade das medidas deste guia exige o rol como ponto de partida, e metade dos erros nasce de pulá-lo.
Média aritmética: o ponto de equilíbrio
A média soma tudo e divide pela quantidade: para 2, 4, 7, 7, 9, a soma 29 dividida por 5 dá 5,8. A imagem física ajuda: se os dados fossem pesos numa régua, a média é onde a régua equilibra. Dessa imagem sai uma propriedade que vira pegadinha de prova: a soma dos DESVIOS em relação à média é sempre ZERO; os que estão acima compensam exatamente os que estão abaixo. Quem entende o equilíbrio nunca estranha desvios negativos.
A média carrega cada valor do conjunto, e essa força é também sua fraqueza: um único valor extremo a arrasta. No exemplo de abertura, os 82 mil do dono levantam a média a 10 mil, e o resumo deixa de descrever qualquer pessoa real da firma. O nome técnico do intruso é OUTLIER, e a primeira lição da estatística madura é: antes de confiar na média, pergunte se há outliers no conjunto. O guia de média aprofunda a medida, e a calculadora de média resolve com a conta aberta.
Mediana: a medida que não se deixa arrastar
A mediana é o valor do MEIO do rol: metade dos dados abaixo, metade acima. Com quantidade ímpar, é o central (em 2, 4, 7, 7, 9, a mediana é 7); com quantidade par, é a média dos dois centrais. Na firma da abertura, a mediana salarial é 2 mil: o retrato fiel do funcionário típico, indiferente aos 82 mil do dono. A mediana é ROBUSTA: outliers não a movem, porque ela só olha posição, não valor.
O confronto média contra mediana é diagnóstico: quando a média fica bem ACIMA da mediana, a distribuição tem cauda de valores altos (renda no Brasil é o exemplo nacional: a média supera a mediana com folga porque poucos ganham muito); média abaixo da mediana indica cauda de valores baixos. Duas medidas baratas, uma radiografia da assimetria, e uma pergunta de prova recorrente: que medida descreve melhor este conjunto, e por quê?
Moda: o mais votado
A moda é o valor mais frequente: em 2, 4, 7, 7, 9, é o 7. Um conjunto pode ser bimodal (dois campeões de frequência) ou nem ter moda (todos os valores únicos). A moda é a única medida de centro que funciona para dados NÃO numéricos: a cor de carro mais vendida, o sabor preferido, o candidato mais citado; não existe média de sabores, mas existe moda. A calculadora de mediana e moda entrega as duas medidas com o rol montado.
Média ponderada: quando os dados têm pesos
Nem todo dado vale igual: a prova final pesa mais que o trabalho, e a nota de matemática do ENEM pesa diferente conforme o curso. A média ponderada multiplica cada valor pelo seu peso, soma e divide pela SOMA DOS PESOS: notas 6, 8 e 7 com pesos 2, 3 e 5 dão (12 mais 24 mais 35) sobre 10, igual a 7,1. O erro universal é dividir pela quantidade de notas em vez da soma dos pesos. A calculadora de média escolar cuida do caso mais sensível: quanto preciso na última prova, com a situação possível ou impossível detectada.
Quartis: a distribuição em quatro fatias
Se a mediana corta a fila ao meio, os quartis a cortam em quatro: Q1 deixa 25 por cento dos dados abaixo, Q2 é a própria mediana, Q3 deixa 75 por cento abaixo. O quinteto mínimo, Q1, mediana, Q3 e máximo (o resumo de cinco números) descreve a distribuição inteira em uma linha: onde começa, onde está o miolo e onde termina. Receber esse resumo e responder perguntas sobre ele é formato direto de questão, e montar os quartis de um rol pequeno é treino de dez minutos.
A largura do miolo tem nome: IQR, o intervalo interquartil, Q3 menos Q1. Dele sai o critério consagrado para outliers: marca-se como suspeito todo valor abaixo de Q1 menos 1,5 vezes o IQR ou acima de Q3 mais 1,5 vezes o IQR. É a regra dos gráficos boxplot e dos relatórios profissionais, e a calculadora do portal a aplica automaticamente, listando os outliers do seu conjunto. Vale o aviso de maturidade: o critério é uma convenção útil, não um veredito; o dado marcado merece investigação, não exclusão automática.
Boxplot: o retrato do resumo de cinco números
O resumo de cinco números tem um desenho oficial: o BOXPLOT, o diagrama de caixa. Uma caixa vai de Q1 a Q3, um traço dentro dela marca a mediana, e dois fios (os bigodes) se estendem até o último dado dentro das cercas de 1,5 IQR; o que fica além vira ponto isolado, o outlier desenhado. Em dez segundos de olhar, o boxplot responde quatro perguntas: onde está o centro (o traço), quanto o miolo se espalha (a largura da caixa), se há assimetria (mediana descentralizada na caixa, bigodes de tamanhos diferentes) e se existem valores suspeitos (os pontos soltos).
A força do boxplot aparece na COMPARAÇÃO: alinhe lado a lado as caixas das notas de três turmas e a conversa inteira (qual tem mediana maior, qual é mais homogênea, qual tem outliers) se resolve no olho, sem uma conta sequer. Provas de vestibular e de concurso já trazem boxplots prontos para interpretar, e a leitura é mecânica para quem domina o quinteto: borda esquerda da caixa é Q1, traço central é a mediana, borda direita é Q3. Quem sabe montar os quartis de um rol, como no exemplo resolvido mais adiante, sabe construir e ler qualquer boxplot que a prova apresentar.
Percentis: a sua posição na fila
O percentil generaliza os quartis para cem fatias: o percentil k é o valor que deixa k por cento dos dados abaixo. Q1 é o percentil 25; a mediana, o 50. A leitura importante é a de POSIÇÃO RELATIVA: estar no percentil 90 do ENEM não informa a sua nota, informa que você superou 90 por cento dos participantes, o que pode valer mais que a nota crua. As curvas de crescimento infantil (peso e altura por idade) são percentis em ação: o pediatra não compara seu filho com um ideal, compara com a distribuição das crianças da mesma idade.
Dispersão: a metade esquecida da história
Duas turmas com média 7 podem ser mundos diferentes: numa, todos entre 6,5 e 7,5; noutra, metade com 10 e metade com 4. O centro é igual; a DISPERSÃO, oposta. A medida mais ingênua é a amplitude (máximo menos mínimo), que só ouve os dois extremos. Para ouvir o conjunto inteiro, a estatística mede a distância de cada dado à média, e aqui surge um obstáculo elegante: a soma dos desvios é sempre zero (o equilíbrio da régua), então a média dos desvios crus não serve de nada.
A saída clássica: elevar cada desvio ao QUADRADO antes de tirar a média. Nasce a VARIÂNCIA, sempre positiva, com peso extra para desvios grandes. O preço é a unidade estranha (notas ao quadrado, reais ao quadrado), e a correção é a raiz quadrada: o DESVIO PADRÃO, a distância típica entre um dado e a média, de volta na unidade original. O passo a passo completo é o HowTo desta página, e a calculadora de desvio padrão mostra a tabela de desvios inteira.
Um exemplo completo, na mão: dados 4, 6, 8, 10. Média 7. Desvios: menos 3, menos 1, 1, 3 (somam zero, conferindo o equilíbrio). Quadrados: 9, 1, 1, 9, com média 5: variância 5. Desvio padrão: raiz de 5, cerca de 2,24. Tradução: as notas distam tipicamente uns 2,2 pontos da média 7. Quatro contas, e o conjunto inteiro descrito por centro e espalhamento.
A interpretação vale mais que a conta, e o ENEM cobra exatamente ela: o arqueiro A acerta em média o centro com desvio pequeno (preciso e consistente); o arqueiro B tem a MESMA média com desvio grande (acerta na soma, espalha nos tiros). Quem é melhor? Depende da competição, e a resposta certa discute o desvio, não a média. Sempre que a prova perguntar qual grupo é mais REGULAR, homogêneo ou consistente, a resposta mora no desvio padrão: menor desvio, maior regularidade.
Variância amostral: o mistério do n menos 1
Quem confere o desvio padrão numa planilha ou numa calculadora científica esbarra num detalhe que confunde gerações: existem DUAS variâncias. A populacional divide a soma dos quadrados pela quantidade n (a conta da escola, usada quando os dados são o conjunto COMPLETO de interesse: todas as notas da turma, todos os salários da firma). A AMOSTRAL divide por n menos 1, e é a usada quando os dados são uma amostra de algo maior: 50 clientes entrevistados representando milhares, 30 peças medidas representando a produção do mês. As funções de planilha refletem o par: uma função para a populacional, outra para a amostral, e escolher a errada muda o resultado.
O motivo do n menos 1 cabe numa intuição: a média da AMOSTRA fica, por construção, no centro exato dos dados amostrados, mais perto deles do que a média verdadeira da população ficaria. Os desvios medidos contra essa média caseira saem sistematicamente pequenos, e a variância calculada com n subestima a dispersão real. Dividir por n menos 1 infla o resultado na medida certa da correção (o nome técnico é correção de Bessel). Para o Ensino Médio e o ENEM, a regra prática basta: dados completos, divida por n; amostra representando população maior, divida por n menos 1. Com n grande, a diferença entre as duas encolhe até virar irrelevante.
Dados agrupados: média e moda em tabelas por classe
Pesquisas reais raramente entregam a lista crua: entregam classes. Alturas de 150 a 160, de 160 a 170, de 170 a 180, cada uma com sua frequência. Para estimar a média de dados agrupados, usa-se o PONTO MÉDIO de cada classe como representante (155, 165, 175) e faz-se a média ponderada pelos pontos médios com as frequências como pesos. É uma estimativa, não o valor exato (a lista original se perdeu no agrupamento), e enunciados bem escritos dizem isso; mas é a melhor estimativa disponível e é a conta que concursos cobram quando entregam a tabela por faixas.
A moda em dados agrupados vira CLASSE MODAL: a faixa de maior frequência. E aqui mora uma pegadinha de leitura que reprova candidato treinado: em classes de larguras DIFERENTES, a faixa mais frequente pode ser apenas a mais larga, não a mais densa; o histograma honesto usa a densidade (frequência dividida pela largura) na altura das barras. Quando as larguras são iguais, caso padrão das provas, frequência e densidade contam a mesma história e a classe modal é a barra mais alta do histograma, sem sutileza.
Coeficiente de variação: comparando dispersões
Desvio de 5 é muito ou pouco? Depende da média: é enorme perto de média 10, irrisório perto de 1.000. O coeficiente de variação (CV) faz a normalização: desvio dividido pela média, em porcentagem. Com ele comparam-se dispersões de escalas e unidades diferentes: a variabilidade de alturas (em metros) contra a de pesos (em quilos), o risco relativo de dois investimentos de retornos distintos. CV de 50 por cento grita instabilidade; de 0,5 por cento, rotina. É a medida que transforma dispersão absoluta em dispersão que se pode julgar.
Tabelas de frequência e o histograma
Com muitos dados, o rol vira tabela de FREQUÊNCIAS: cada valor (ou cada classe, como as faixas de altura de 10 em 10 centímetros) com sua contagem (frequência absoluta), sua porcentagem (relativa) e o ACUMULADO até ali. A coluna acumulada é a chave das medianas em tabela: com 40 dados, procura-se onde o acumulado alcança as posições 20 e 21, e a classe que as contém é a classe mediana, formato clássico de concurso.
O retrato da tabela é o HISTOGRAMA: barras coladas, uma por classe, altura proporcional à frequência. Ele revela o que número nenhum conta: a FORMA da distribuição. Simétrica em sino? Puxada para a direita (a cauda da renda)? Com dois picos (duas populações misturadas, como alturas de adultos e crianças no mesmo conjunto)? A calculadora de estatística do portal monta a tabela e desenha o histograma de qualquer lista, e olhar o desenho ANTES de calcular medidas é hábito de estatístico de verdade.
A leitura crítica fecha o tema, e o ENEM a adora: gráficos com EIXO CORTADO (que começam em 90 em vez de zero) fazem diferenças de 2 por cento parecerem abismos; barras 3D distorcem áreas; médias anunciadas sem desvio escondem instabilidade. A estatística descritiva é também vacina de cidadania: quem conhece as medidas reconhece o gráfico maquiado no jornal e na rede social.
Estatística descritiva no cotidiano
As medidas deste guia trabalham em silêncio na sua rotina. O IMC do posto de saúde é comparado com faixas construídas sobre distribuições populacionais; o boletim de crescimento do pediatra posiciona a criança num percentil; a inflação oficial é uma média PONDERADA de preços, com pesos definidos pelo orçamento das famílias; a pesquisa eleitoral reporta a margem de erro, prima direta do desvio padrão; o professor que diz que a prova ficou difícil está lendo a média e a dispersão da turma. Até o algoritmo de recomendação compara o seu comportamento com medianas e percentis de outros usuários.
Essa onipresença explica o peso do tema nas provas e dá o melhor método de estudo: praticar com dados SEUS. Anote os gastos de um mês e calcule média, mediana e desvio (o delivery costuma aparecer como outlier); registre as notas do bimestre e compare a sua regularidade com a de um colega pelo coeficiente de variação; pegue uma tabela do IBGE no jornal e identifique que medida a manchete escolheu reportar, e o que ela esconde. Dados com história pessoal fixam conceito melhor que listas inventadas, e a calculadora do portal faz a parte braçal enquanto você faz a parte que a prova cobra: interpretar.
Exemplos resolvidos
Exemplo 1, o quinteto: para 3, 5, 7, 8, 9, 11, 13, 15 (oito dados ordenados), mediana é a média do 4º com o 5º: 8,5. Q1 é a mediana da metade de baixo (3, 5, 7, 8): 6. Q3, da metade de cima: 12. IQR: 6. Cercas de outlier: 6 menos 9 dá menos 3, e 12 mais 9 dá 21; nenhum dado escapa, conjunto limpo. Exemplo 2, média de médias: turma A tem média 8 com 10 alunos; turma B, média 6 com 30. Média geral: NÃO é 7; pondera-se, (80 mais 180) sobre 40, seis e meio. Os tamanhos dos grupos são pesos.
Exemplo 3, regularidade (estilo ENEM): dois atletas de salto têm a mesma média de 7,80 metros; A tem desvio 0,05 e B, 0,40. Para uma final que exige consistência, escala-se A: mesma média, dispersão oito vezes menor. Exemplo 4, mediana em tabela: 50 pedidos por valor, com acumulados 12 (até 50 reais), 27 (até 100), 41 (até 150), 50 (até 200). As posições centrais 25 e 26 caem no acumulado 27: a classe mediana é a de até 100 reais. Sem listar os 50 valores, a coluna acumulada respondeu.
Erros comuns (e como evitá-los)
O primeiro: calcular mediana sem ordenar o rol; a mediana de 7, 2, 9 não é 2. O segundo: média de médias sem ponderar pelos tamanhos dos grupos. O terceiro: dividir a média ponderada pela quantidade de notas em vez da soma dos pesos. O quarto: reportar variância como se fosse desvio (esquecer a raiz) ou estranhar a unidade ao quadrado, sintoma de decorar a fórmula sem o porquê do quadrado.
Completam a lista: confiar na média com outliers no conjunto (a firma da abertura), confundir percentil com porcentagem de acerto (percentil 90 não significa 90 por cento da nota máxima) e ler gráfico de eixo cortado como se as barras contassem a história toda. A rotina de defesa é fixa: ordenar, olhar o histograma, calcular centro E dispersão, e só então concluir. Resumo sem dispersão é meia verdade, e meia verdade em estatística é o material de que as manchetes enganosas são feitas.
Como praticar com a calculadora
A calculadora de estatística descritiva do portal recebe a sua lista de dados e devolve o pacote completo: média, mediana, moda, quartis, percentis, IQR com outliers marcados, amplitude, variância, desvio padrão, coeficiente de variação, a tabela de frequências e o histograma desenhado. O treino que rende: monte conjuntos pequenos com história (salários com um outlier, notas de duas turmas com mesma média e dispersões opostas), calcule no papel, confira na tela e escreva UMA frase interpretando cada medida. A página da 3ª série do EM situa o tema no ano, e o simulado estilo ENEM cobra estatística como a prova real: em contexto, com tabela e gráfico.
Um pouco de história
A palavra estatística vem de Estado: nasceu contando habitantes, colheitas e soldados para governos. O salto conceitual veio no século XIX com Adolphe Quetelet, o astrônomo belga que aplicou às pessoas os métodos dos astros e inventou o homem médio (e também o índice que hoje chamamos de IMC). Francis Galton somou os percentis e a regressão, e Karl Pearson formalizou o desvio padrão e batizou o histograma na virada para o século XX. A descritiva deste guia é a herdeira direta dessa linhagem: as mesmas perguntas (onde está o centro? quanto se espalha? quem foge do padrão?) feitas hoje a notas de prova, preços e exames de sangue.
Resumo
A estatística descritiva resume dados em três famílias de medidas. Centro: média (ponto de equilíbrio, sensível a outliers), mediana (valor do meio, robusta) e moda (mais frequente, única opção para categorias), com a ponderada dividindo pela soma dos PESOS. Posição: quartis fatiam em quatro, percentis em cem, e o quinteto mínimo-Q1-mediana-Q3- máximo resume a distribuição, com outliers detectados pela cerca de 1,5 IQR. Dispersão: amplitude ouve só os extremos; variância tira a média dos desvios ao quadrado (porque os crus somam zero); o desvio padrão devolve a unidade pela raiz e mede a regularidade; o CV compara dispersões de escalas diferentes. Tabelas de frequência organizam, o acumulado localiza a mediana, o histograma mostra a forma, e o olho treinado desconfia de eixo cortado e de média sem desvio. Ordene, desenhe, calcule centro e espalhamento, interprete: quatro gestos, e os dados param de mentir para você.