Páginas

terça-feira, 23 de novembro de 2010

Introdução à estatística

1- Objeto da estatística

Estatística é uma ciência exata que visa fornecer subsídios ao analista para coletar, organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos da população, tais como média ou desvio padrão.
A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas vezes incompletos, na medida em que nos dão informação útil sobre o problema em estudo, sendo assim, é objetivo da Estatística extrair informação dos dados para obter uma melhor compreensão das situações que representam.
Quando se aborda uma problemática envolvendo métodos estatísticos, estes devem ser utilizados mesmo antes de se recolher a amostra, isto é, deve-se planejar a experiência que nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o máximo de informação relevante para o problema em estudo, ou seja para a população de onde os dados provêm.
Quando de posse dos dados, procura-se agrupa-los e reduzi-los, sob forma de amostra, deixando de lado a aleatoriedade presente.
Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou testar uma hipótese, utilizando-se técnicas estatísticas convenientes, as quais realçam toda a potencialidade da Estatística, na medida em que vão permitir tirar conclusões acerca de uma população, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido.
Exemplo 1:
Ao chegarmos a uma churrrascaria, não precisamos comer todos os tipos de saladas, de sobremesas e de carnes disponíveis, para conseguirmos chegar a conclusão de que a comida é de boa qualidade. Basta que seja provado um tipo de cada opção para concluirmos que estamos sendo bem servidos e que a comida está dentro dos padrões.
2- População e amostra
Qualquer estudo científico enfrenta o dilema de estudo da população ou da amostra. Obviamente tería-se uma precisão muito superior se fosse analisado o grupo inteiro, a população, do que uma pequena parcela representativa, denominada amostra. Observa-se que é impraticável na grande maioria dos casos, estudar-se a população em virtude de distâncias, custo, tempo, logística, entre outros motivos.
A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é confiável e proporciona inferir sobre a população, chamamos de inferência estatística. Para que a inferência seja válida, é necessária uma boa amostragem, livre de erros, tais como falta de determinação correta da população, falta de aleatoriedade e erro no dimensionamento da amostra.
Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-se só alguns elementos, a que damos o nome de Amostra.

Exemplo 2:
Se o objetivo for estudar o desempenho escolar de um colégio, é indicado estudar as notas dos alunos ao final do ano letivo. A partir daí poderemos facilmente  obter a percentagem de aprovações e reprovações.
Agora, se entretanto o interesse for aprofundar o estudo, saber se por exemplo o sucesso no estudo pode ser atribuído para as alunas ou alunos, deveremos recolher não somente a informação relativa a nota do aluno que aprovou ou não, mas também para cada um, o sexo.

  Aprovados
Masculino 28%
Feminino 13%
Total 41%
Quando a amostra não representa corretamente a população diz-se enviesada e a sua utilização pode dar origem a interpretações erradas.

3- Recenseamento
Recenseamento é a contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo:
Estudo científico de um universo de pessoas, instituições ou objetos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo. 

4- Estatística descritiva e estatística indutiva
Sondagem
Por vezes não é viável nem desejável, principalmente quando o número de elementos da população é muito elevado, inquirir todos os seus elementos sempre que se quer estudar uma ou mais características particulares dessa população.
Assim surge o conceito de sondagem, que se pode tentar definir como:
Estudo científico de uma parte de uma população com o objetivo de estudar atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstâncias e assuntos de interesse comum. 
Não Probabilística
A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na amostra para o todo da população quando se opta por este método de amostragem.
5.1- Acidental ou conveniência
Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados para testar produtos.
Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas oficinas.



5.2- Quotas ou proporcional
Na realidade, trata-se de uma variação da amostragem intencional. Necessita-se ter um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta será a quota para o trabalho. Comumente também substratifica-se uma quota obedecendo a uma segunda proporcionalidade.



5.3- Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à população. Atribui-se pesos para os dados, e assim obtém-se resultados ponderados representativos para o estudo.


Probabilística
Para que se possa realizar inferências sobre a população, é necessário que se trabalhe com amostragem probabilística. É o método que garante segurança quando investiga-se alguma hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser selecionado na amostra.


5.4- Aleatória Simples
É o mais utilizado processo de amostragem. Prático e eficaz, confere precisão ao processo de amostragem. Normalmente utiliza-se uma tabela de números aleatórios e nomeia-se os indivíduos, sorteando-se um por um até completar a amostra calculada
Uma variação deste tipo de amostragem é a sistemática. Em um grande número de exemplos, o pesquisador depara-se com a população ordenada. Neste sentido, tem-se os indivíduos dispostos em seqüência o que dificulta a aplicação exata desta técnica.
Quando se trabalha com sorteio de quadras de casas por exemplo, há uma regra crescente para os números das casas. Em casos como este, divide-se a população pela amostra e obtém-se um coeficiente (y). A primeira casa será a de número x, a segunda será a de número x + y; a terceira será a de número x + 3. y.
Supondo que este coeficiente seja 6. O primeiro elemento será 3. O segundo será 3 + 6. O terceiro será 3 + 2.6. O quarto será 3 + 3.6, e assim sucessivamente.
Aleatória Estratificada
Quando se deseja guardar uma proporcionalidade na população heterogênea. Estratifica-se cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre outros.



5.5- Conglomerado
Em corriqueiras situações, torna-se difícil coletar características da população. Nesta modalidade de amostragem, sorteia-se um conjunto e procura-se estudar todo o conjunto. É exemplo de amostragem por conglomerado, famílias, organizações e quarteirões.

5- Amostragem
Amostragem é o processo que procura extrair da população elementos que através de cálculos probabilísticos ou não, consigam prover dados inferenciais da população-alvo.
Obs.: A proporção (p) será a estimativa da verdadeira proporção de um dos níveis escolhidos para a variável adotada. Por exemplo, 60% dos telefones da amostra é Nokia, então p será 0,60.
A proporção (q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado por d.
Para casos em que não se tenha como identificar as proporções confere-se 0,5 para p e q.

7- Tipos de dados
Basicamente os dados, dividem-se em contínuos e discretos. O primeiro é definido como qualquer valor entre dois limites quaisquer, tal como um diâmetro. Portanto trata-se de um valor que ser "quebrado". São dados contínuos, questões que envolvem idade, renda, gastos, vendas, faturamento, entre muitas outras.
Quando fala-se em valores discretos, aborda-se um valor exato, tal como quantidade de peças defeituosas. Comumente utiliza-se este tipo de variáveis para tratar de numero de filhos, satisfação e escalas nominais no geral.
O tipologia dos dados determina a variável, ela será portanto contínua ou discreta. Isto quer dizer que ao definir-se uma variável com contínua ou discreta, futuramente já definiu-se que tipo de tratamento se dará a ela.
De acordo com o que dissemos anteriormente, numa análise estatística distinguem-se essencialmente duas fases:
Uma primeira fase em que se procura descrever e estudar a amostra:
Estatística Descritiva e uma segunda fase em que se procura tirar conclusões para a população:
1ª Fase Estatística Descritiva
Procura-se descrever a amostra, pondo em evidência as características principais e as propriedades.
2ª Fase Estatística Indutiva
Conhecidas certas propriedades (obtidas a partir de uma análise descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, que exprimam a existência de leis (na população). 
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e portanto não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não podemos afirmar que são verdadeiras !
Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de Probabilidade.
Considerando o que foi dito anteriormente sobre a Estatística Indutiva, precisamos aqui da noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma conclusão para a população, a partir da observação da amostra.
Exemplo 4:
Uma empresa fabricante de um automóvel, pretende avaliar a potencialidade do mercado, estimando através de um mercado teste.
Através de1000 entrevistados, pretende-se verificar como se comportará a fatia de intenção de votos para determinado candidato.
Problema: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do número de compradores na População.
8- Dados, tabelas e gráficos
Distribuição de freqüência
Quando da análise de dados, é comum procurar conferir certa ordem aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes ou categorias, verificando-se o número de indivíduos pertencentes a cada classe.
1. Determina-se o menor e o maior valor para o conjunto:
2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor valor das observações:
3. Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao maior valor das observações:
4. Definir o número de classes (K), que será calculado usando . Obrigatoriamente deve estar compreendido entre 5 a 20.
5. Conhecido o número de classes define-se a amplitude de cada classe:
6. Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe (inferior e superior)
6- Dimensionamento da amostra
Quando deseja-se dimensionar o tamanho da amostra, o procedimento desenvolve-se em três etapas distintas:
  • Avaliar a variável mais importante do grupo e a mais significativa;
  • Analisar se é ordinal, intervalar ou nominal;
  • Verificar se a população é finita ou infinita;

Distribuições simétricas
A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média
 
Caso especial de uma distribuição simétrica
Quando dizemos que os dados obedecem a uma distribuição normal, estamos tratando de dados que distribuem-se em forma de sino.

Distribuições Assimétricas
A distribuição das freqüências apresenta valores menores num dos lados:
 
Distribuições com "caudas" longas 
Observamos que nas extremidades há uma grande concentração de dados em relação aos concentrados na região central da distribuição.

No exemplo, a será igual a:
1,23
6. Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe (inferior e superior), onde limite Inferior será 5,1 e o limite superior será 15 + 1,23.
Regras para elaboração de uma distribuição de freqüências
1. Determina-se o menor e o maior valor para o conjunto:
Valor mínimo: 5,1
Valor máximo: 14,9
2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor valor das observações:
LI: 5,1
3. Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao maior valor das observações:
LS:15
4. Definir o número de classes (K), que será calculado usando . Obrigatoriamente deve estar compreendido entre 5 a 20. Neste caso, K é igual a 8,94, aproximadamente, 8.
5. Conhecido o número de classes define-se a amplitude de cada classe:
9- Medidas de tendência Central
As mais importante medidas de tendência central, são a média aritmética, média aritmética para dados agrupados, média aritmética ponderada, mediana, moda, média geométrica, média harmônica, quartis. Quando se estuda variabilidade, as medidas mais importantes são: amplitude, desvio padrão e variância.


Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização, pois pode dar uma imagem distorcida dos dados.
Pode-se mostrar, que quando a distribuição dos dados é "normal", então a melhor medida de localização do centro, é a média.
Sendo a Distribuição Normal uma das distribuições mais importantes e que surge com mais freqüência nas aplicações, (esse fato justifica a grande utilização da média).
A média possui uma particularidadebastante interessante, que consiste no seguinte:
se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero.
A média tem uma outra característica, que torna a sua utilização vantajosa em certas aplicações:
Quando o que se pretende representar é a quantidade total expressa pelos dados, utiliza-se a média.
Na realidade, ao multiplicar a média pelo número total de elementos, obtemos a quantidade pretendida.

9.1- Moda
Define-se moda como sendo: o valor que surge com mais freqüência se os dados são discretos, ou, o intervalo de classe com maior freqüência se os dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana.

9.2- Mediana 
A mediana, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo:
Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos: 

Se n é ímpar, a mediana é o elemento médio.
Se n é par, a mediana é a semi-soma dos dois elementos médios.

9.3-Considerações a respeito de Média e Mediana
Se se representarmos os elementos da amostra ordenada com a seguinte notação: X1:n , X2:n , ... , Xn:n
então uma expressão para o cálculo da mediana será:
Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados.
1- Quando a distribuição é simétrica, a média e a mediana coincidem.
2- A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações.
Como já vimos, a média ao contrário da mediana, é uma medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana.
A partir do exposto, deduzimos que se a distribuição dos dados:
1. for aproximadamente simétrica, a média aproxima-se da mediana
2. for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana
3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana. 
10 - Medidas de dispersão
Introdução
No capítulo anterior, vimos algumas medidas de localização do centro de uma distribuição de dados. Veremos agora como medir a variabilidade presente num conjunto de dados através das seguintes medidas:
10.1- Medidas de dispersão
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra.
Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão - a variância, apresentada a seguir.

10.2- Variância
Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um.
 

10.3- Desvio-padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
o desvio padrão será maior, quanta mais variabilidade houver entre os dados.
 
11. Distribuição Normal
A distribuição normal é a mas importante distribuição estatística,
considerando a questão prática e teórica. Já vimos que esse tipo de distribuição apresenta-se em formato de sino, unimodal, simétrica em relação a sua média.
Considerando a probabilidade de ocorrência, a área sob sua curva soma 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.

68,26% => 1 desvio
95,44% => 2 desvios
99,73% => 3 desvios

Na figura acima, tem as barras na cor marrom representando os desvios padrões. Quanto mais afastado do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão, temos 68,26% das observações contidas. A dois desvios padrões, possuímos 95,44% dos dados comprendidos e finalmente a três desvios, temos 99,73%. Podemos concluir que quanto maior a variablidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor que buscamos embaixo da normal.
Propriedade 1:
"f(x) é simétrica em relação à origem, x = média = 0;
Propriedade 2:
"f(x) possui um máximo para z=0, e nesse caso sua ordenada vale 0,39;
Propriedade3:
"f(x) tende a zero quando x tende para + infinito ou - infinito;
Propriedade4:
"f(x) tem dois pontos de inflexão cujas abscissas valem média + DP e média - DP, ou quando z tem dois pontos de inflexão cujas abscissas valem +1 e -1.
Para se obter a probabilidade sob a curva normal, utilizamos a
tabela de faixa central
Exemplo 8:
As alturas de grupo de crianças são tidas como normais em sua distribuição, com desvio padrão em 0,30m e média em 1,60. Qual a probabilidade de um aluno medir (1) entre 1,50 e 1,80, (2) mais de 1,75 e menos de 1,48?
(1)
z1= (1,50-1,60)/0,30=-0,33
z2= (1,80-1,60)/0,30= 0,67
Então, z1 (0,1293) + z2 (0,2486) = 37,79%
(2)
z1= (1,75-1,60)/0,30=0,30
0,500-0,1915 = 30,85%
(3)
Z1= (1,48-1,50)/0,30 =-0,4
0,500-0,1554 = 34,46%

segunda-feira, 4 de outubro de 2010

Os 10 sites mais acessados do Brasil

Fala pessoal! Como já tinha dito antes no post dos "10 site mais acessados do mundo", eu iria fazer uma lista dos sites mais acessados no Brasil. Bem, aqui está essa lista do sites mais acessados segundo o alexa.com.

Mais uma vez o google ocupa o tpo da lista. No 1º lugar temos a versão nacional do site, google.com.br e em 2º a versão global do site, google.com. A principal diferença que a versão nacional enfoca todos os resultados para o nosso país, com opção de escolher páginas somente no Brasil, ou especificamente da lingua portuguesa.

O orkut aparece em 3º lugar com a versão nacional e em 10º com a versão .com. Nenhuma surpresa nisso, afinal de contas praticamente todo mundo tem orkut, basta ver as milhares de pérolas e afins que circulam por aí, hoje sem dúvidas até os menos favorecidos possuem o seu orkut. Tanto que comunidades de orkut virou fontes para vários jornalistas.


Aparecendo em 4º lugar no site, e em 3º nessa lista, o YouTube era mais do que esperado. Afinal é o site mais democrático de vídeos na internet, todos podem produzir e consumir conteúdo. Há vídeos de todos as categorias, e de todos os lugares do mundo. Sem dúvidas o maior acervo de vídeos mundial. E atualmente com as disponibilizações de capitulos de novelas e programas de TV nacionais, o site vem se tornando ainda mais popular no Brasil



Confesso que a posição do UOL me surpreendeu. Claro que é um dos portais mais acessados do país, mas o 4ºlugar dessa lista, realmente achei impressionante. O portal tem de tudo, variadas e excelentes seções, pode se encontrar de tudo sobre esportes, horóscopo, jogos, notícias, empregos, músicas, eleições, vestibular, entre outros. O portal possui também renomados colunistas em todas as áreas do jornalismo. Enfim, um ótimo site, onde se acha de tudo.


Em quinto lugar na nossa lista aparece o Windows Live. Famoso portal da Microsoft. Só pelos acessórios ao Windows, e pelo Hotmail já pode ser considerado um grande site. O Windows Live tem tudo que você precisa para se organizar e se relacionar: e-mail, bate-papo, espaço para blog e fotos, 25GB para guardar seus arquivos e muito mais. São 9 serviços para você usar online e outros 6 para você baixar de graça e turbinar seu Windows. E para usar todos eles, você só precisa de um único e-mail e uma única senha: seu Windows Live ID. Acredito que o grande número de visitas no país se justifique pelo Internet Explorer, pois esse, é diretamente atrelado ao site.


Em 6º lugar da nossa lista, aparece a globo.com. Não é nenhuma surpresa,o portal das organizações globo está na lista. Afinal, conta com um acervo enorme de vídeos e uma vasta galeria de excelentes profissionais. O site é basicamente divido em três seguimentos, os esportes, as notícias e o entretenimento, todos abordando os mais diversos assuntos. A maior surpresa para mim, foi o portal está atrás da UOL, pois eu pensava que era disparado o sítio nacional mais acessado. Particulamente não futrico na internet nem uma vez sequer sem entrar na globo.com.


Como já dito antes, mas uma vez em uma merecidíssima colocação, apareceeste maravilhoso site que você está acessando. O melhor servidor 0800 disponível no mercado. Um dos sites mais democráticos do mundo. Afinal, aceita qualquer pessoa e deixa todo mundo escrever as besteiras que quiserem. Pelo visto, parece que nós brasileiros estamos cada vez mais querendo nos expressar, divulgar nossos pensamentos mundo afora. Agora me responda, tem site melhor que esse?


O Yahoo também tem seu espaço no nosso país, o buscador que no Brasil foi pioneiro em mecanismos de pesquisa. Conta com conteúdo personalizado, opções de busca, salas de chat, e-mail gratuito, clubes e pager. E por isso tudo, aparece em um justo 8º lugar.


Em 9º lugar aparece mais um portal, o Terra. Provavelmente esse teve mais sucesso no começo da internet no Brasil, com as suas salas de bate papo e o seu provedor para internet discada. Assim como o globo.com e o UOL, é um portal competente, com os mais variados tipos de assunto.


E assim como a lista internacional temos o msn.com fechando com chave de ouro. O Microsoft Service Network é uma rede de serviços oferecidos pela Microsoft em suas estratégias envolvendo tecnologias de Internet. E um grande portal de compras, notícias, dinheiro, e-mail, pesquisas e conversas.

Logo na sequência aparece o Facebook, o Twitter, o IG, e o Mercado livre. Dá para observar a implementação gradativa das redes sociais mundialmente famosas no Brasil. E além disso, podemos concluir que os portais de notícias, se mostram como os sites nacionais mais procurados pelos internautas tupiniquins.

Se eu não me engano o nosso blog está entre os 50º mais vistos, mais pretendemos chegar aos 10 primeiros em 2012!

fonte:

http://facildimais.blogspot.com/2010/09/os-10-sites-mais-acessados-do-brasil.html

http://www.alexa.com/

quarta-feira, 15 de setembro de 2010

Tipos de Médias diferentes

Média aritmética


A média aritmética é considerada uma medida de tendência central e é muito utilizada no cotidiano. Surge do resultado divisão do somatório dos números dados pela quantidade de números somados.

Por exemplo, determinar a média dos números 3, 12, 23, 15, 2.
Ma = (3+12+23+15+2) / 5
Ma = 55 / 5
Ma = 11
A média dos números é igual a 11.

Esse tipo de cálculo é muito utilizado em campeonatos de futebol no intuito de determinar a média de gols da rodada, nas escolas calculando a média final dos alunos, também é utilizado nas pesquisas estatísticas, pois a média dos resultados determina o direcionamento das ideias expressas pelas pessoas pesquisadas.
Exemplo 1

Calcule a média anual de Carlos na disciplina de Matemática com base nas seguintes notas bimestrais:
1ºB = 6,0
2ºB = 9,0
3ºB = 7,0
4ºB = 5,0

Ma = (6,0 + 9,0 + 7,0 + 5,0) / 4
Ma = 27/4
Ma = 6,75

A média anual de Carlos foi 6,75.




Média Harmônica



 A média harmônica está relacionada ao cálculo matemático das situações envolvendo as grandezas inversamente proporcionais. Como exemplo, temos a relação entre velocidade e tempo. Suponha que, em uma determinada viagem, um carro desenvolva duas velocidades distintas, durante a metade do percurso ele manteve a velocidade de 50 km/h e durante a metade restante sua velocidade foi de 60 km/h. Vamos determinar a velocidade média do veículo durante o percurso.
De acordo com a média harmônica temos a seguinte relação:


A velocidade média do veículo durante todo o percurso será de aproximadamente 54 km/h



Média Ponderada



 Alguns cálculos envolvendo média podem ser efetuados utilizando os critérios de média simples ou média ponderada. Na utilização da média simples, a ocorrência dos valores possui a mesma importância e no caso da média ponderada são atribuídos aos valores importâncias diferentes.
Na média simples os valores são somados e dividos pela quantidade de termos adicionados. A média ponderada é calculada através do somatório das multiplicações entre valores e pesos divididos pelo somatório dos pesos. Vamos, através de exemplos, demonstrar os cálculos envolvendo a média ponderada.
Exemplo 1
Na escola de Gabriel, a média anual de cada matéria é calculada de acordo com os princípios da média ponderada. Considerando que o peso das notas esteja relacionado ao bimestre em questão, determine a média anual de Gabriel sabendo que as notas em Matemática foram iguais a:
bimestre em questão, determine a média anual de Gabriel sabendo que as notas em Matemática foram iguais a:
1º Bimestre: 7,0
2º Bimestre: 6,0
3º Bimestre: 8,0
4º Bimestre: 7,5


 A média anual de Gabriel é correspondente a 7,3.
 

Moda


A moda (representada por “Mo”) de um conjunto de dados é definida como o valor de maior freqüência, isto é, o valor que mais aparece, daí seu nome.
Apesar de seu significado ser simples, a moda nem sempre é única. Quando no conjunto existirem poucas observações, muito freqüentemente não há valores repetidos, com o que nenhum deles satisfaz a condição de moda. Se o peso (em Kg) correspondente a nove pessoas são: 82; 65; 59; 74; 60; 67; 71 e 73 estes nove dados não possuem uma moda, sendo um conjunto amodal. Por outro lado, se a distribuição de peso de 15 pessoas for: 63; 67; 70; 69; 81; 57; 63; 73; 68; 63; 71; 71; 71 e 83, possui duas modas (63 e 71 Kg). Neste caso a distribuição diz-se bimodal. Será unimodal no caso de apresentar uma só moda e multimodal se apresentar várias modas.
No caso de dados agrupados em tabelas de freqüências, o cálculo é feito por:


Onde:
  • I = limite inferior da classe que contém o valor modal;
  • f1 = frequência da classe que contém o valor modal
  • f0 = frequência da classe que precede a classe modal
  • f2 = frequência da classe que sucede a classe modal
  • h = tamanho do intervalo de classe
- Características e emprego da moda
* Em se tratando de dados agrupados, é fortemente afetado pela maneira como as classes são constituídas. Isto faz com que distribuições de freqüência do mesmo conjunto de dados elaboradas de formas diferentes (com número de classes diferentes) podem representar valores modais diferentes. Portanto, o valor calculado pela fórmula pode não apontar o verdadeiro valor modal dos dados agrupados.
*Não é afetada pelos valores extremos da distribuição, desde que esses valores não constituam o valor modal.
*É empregada quando desejamos obter uma medida rápida e aproximada de posição.
*É empregada muito na estatística econômica e industrial.


Mediana


A mediana de um conjunto de informações observadas é definida como o arranjo das observações em ordem de grandeza. Assim para o conjunto de dados: -7; -3; 0; 2; 4; 5; 5,5; 6; 8; 12 e 15, a mediana é 5 (Md = 5). Se houver um número par de observações, a mediana será a média das duas observações centrais. Por exemplo, se o valor 0 fosse omitido do conjunto anterior, a mediana seria Md = 5,25.
A mediana tem interpretação muito simples quando as observações são diferentes uma das outras, porque ela é tal que o número de observações com valores menores que a mediana é igual ao número de observações com valores maiores que a mediana.
Contudo, quando há valores repetidos, a sua interpretação não é assim tão simples. No caso de n´mero de pessoas por família, 2; 2; 5; 5; 7; 7; 8; 8. A mediana seria a quantidade Md = 5, no entanto só existem duas famílias com o nº de pessoas inferior a 5 e há quatro com o nº superior a 5.
A mediana é menos utilizada do que a média aritmética. Casos existem, entretanto, em que o emprego da mediana se faz necessário, especialmente no caso em que ocorrem valores aberrantes. Por exemplo, se a renda percapita de sete famílias fosse: 240,00; 370,00; 410,00; 520,00; 630,00; 680,00 e 820,00, a mediana seria 520,00 (Md = 520,00) e a média = 524,00. Mas se a renda de sete famílias fosse: 240,00; 370,00; 410,00; 520,00; 630,00; 680,00 e 10.000,00, o valor da mediana manter-se-ia o mesmo, enquanto a média aritmética passaria a ser 1.836,00. Valores extremos (aberrantes) tem, pois, muito menor influência sobre a mediana do que sobre a média.
A mediana é muito usada em toxicologia, na determinação da dose que é capaz de matar 50% dos indivíduos, isto é, a dose mediana letal, ou DL50.
No caso de uma distribuição de freqüências a mediana é calculada pela seguinte fórmula:
Md = L + d X a/fMd
Onde:
*L é o limite inferior da classe que contém o valor mediano;
*d é a diferença entre a posição ou a ordem que ocupa o valor mediano menos a freqüência acumulada da classe anterior à classe que contém o valor mediano, isto é, menos a freqüência acumulada até L;
*a é a amplitude da classe;
*fMd é a freqüência da classe que contém o valor mediano.

Variância e Desvio Padrão

Variância

A variância é a soma dos quadrados dividida pelo número de observações do conjunto menos uma. A variância é representada por s2, sendo calculada pela fórmula:
∑ (xi – Média)2 / (n – 1)
Ou seja,
s2 = SQ / (n-1)
O denominador “n – 1” da variância é determinado graus de liberdade. O principio dos graus de liberdade é constantemente utilizado na estatística. Considerando um conjunto de “n” observações (dados) e fixando uma média para esse grupo, existe a liberdade de escolher os valores numéricos de n-1 observações, o valor da última observação estará fixado para atender ao requisito de ser a soma dos desvios da média igual a zero. No caso especifico do cálculo da variância, diz-se que os “n” graus de liberdade originalmente disponíveis no conjunto sofreram a redução de uma unidade porque uma estatística, a média já foi calculada dos dados do grupo e aplicada na determinação da variância.
Desvio Padrão
O desvio padrão é uma das mais utilizadas medidas de variação de um grupo de dados. A vantegem que apresenta sobre a variância é de permitir uma interpretação direta da variação do conjunto de dados, pois o desvio padrão é expresso na mesma unidade que a variável (Kg, cm, atm…). É representado por “s” e calculado por:
s = √∑ ( xi – Média)2/ (n – 1)
Podemos entender o desvio padrão como uma média dos valores absolutos dos desvios, ou seja, dos desvios considerados todos com sinal positivo, média essa obtida, porém, por um processo bastante elaborado: calculamos o quadrado de cada desvio, obtemos a média desses quadrados e, depois obtemos a raiz quadrada da média dos quadrados dos desvios.