terça-feira, 23 de novembro de 2010

Introdução à estatística

1- Objeto da estatística

Estatística é uma ciência exata que visa fornecer subsídios ao analista para coletar, organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos da população, tais como média ou desvio padrão.
A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas vezes incompletos, na medida em que nos dão informação útil sobre o problema em estudo, sendo assim, é objetivo da Estatística extrair informação dos dados para obter uma melhor compreensão das situações que representam.
Quando se aborda uma problemática envolvendo métodos estatísticos, estes devem ser utilizados mesmo antes de se recolher a amostra, isto é, deve-se planejar a experiência que nos vai permitir recolher os dados, de modo que, posteriormente, se possa extrair o máximo de informação relevante para o problema em estudo, ou seja para a população de onde os dados provêm.
Quando de posse dos dados, procura-se agrupa-los e reduzi-los, sob forma de amostra, deixando de lado a aleatoriedade presente.
Seguidamente o objetivo do estudo estatístico pode ser o de estimar uma quantidade ou testar uma hipótese, utilizando-se técnicas estatísticas convenientes, as quais realçam toda a potencialidade da Estatística, na medida em que vão permitir tirar conclusões acerca de uma população, baseando-se numa pequena amostra, dando-nos ainda uma medida do erro cometido.
Exemplo 1:
Ao chegarmos a uma churrrascaria, não precisamos comer todos os tipos de saladas, de sobremesas e de carnes disponíveis, para conseguirmos chegar a conclusão de que a comida é de boa qualidade. Basta que seja provado um tipo de cada opção para concluirmos que estamos sendo bem servidos e que a comida está dentro dos padrões.
2- População e amostra
Qualquer estudo científico enfrenta o dilema de estudo da população ou da amostra. Obviamente tería-se uma precisão muito superior se fosse analisado o grupo inteiro, a população, do que uma pequena parcela representativa, denominada amostra. Observa-se que é impraticável na grande maioria dos casos, estudar-se a população em virtude de distâncias, custo, tempo, logística, entre outros motivos.
A alternativa praticada nestes casos é o trabalho com uma amostra confiável. Se a amostra é confiável e proporciona inferir sobre a população, chamamos de inferência estatística. Para que a inferência seja válida, é necessária uma boa amostragem, livre de erros, tais como falta de determinação correta da população, falta de aleatoriedade e erro no dimensionamento da amostra.
Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-se só alguns elementos, a que damos o nome de Amostra.

Exemplo 2:
Se o objetivo for estudar o desempenho escolar de um colégio, é indicado estudar as notas dos alunos ao final do ano letivo. A partir daí poderemos facilmente  obter a percentagem de aprovações e reprovações.
Agora, se entretanto o interesse for aprofundar o estudo, saber se por exemplo o sucesso no estudo pode ser atribuído para as alunas ou alunos, deveremos recolher não somente a informação relativa a nota do aluno que aprovou ou não, mas também para cada um, o sexo.

  Aprovados
Masculino 28%
Feminino 13%
Total 41%
Quando a amostra não representa corretamente a população diz-se enviesada e a sua utilização pode dar origem a interpretações erradas.

3- Recenseamento
Recenseamento é a contagem oficial e periódica dos indivíduos de um País, ou parte de um País. Ele abrange, no entanto, um leque mais vasto de situações. Assim, pode definir-se recenseamento do seguinte modo:
Estudo científico de um universo de pessoas, instituições ou objetos físicos com o propósito de adquirir conhecimentos, observando todos os seus elementos, e fazer juízos quantitativos acerca de características importantes desse universo. 

4- Estatística descritiva e estatística indutiva
Sondagem
Por vezes não é viável nem desejável, principalmente quando o número de elementos da população é muito elevado, inquirir todos os seus elementos sempre que se quer estudar uma ou mais características particulares dessa população.
Assim surge o conceito de sondagem, que se pode tentar definir como:
Estudo científico de uma parte de uma população com o objetivo de estudar atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstâncias e assuntos de interesse comum. 
Não Probabilística
A escolha de um método não probabilístico, via de regra, sempre encontrará desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção por este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na amostra para o todo da população quando se opta por este método de amostragem.
5.1- Acidental ou conveniência
Indicada para estudos exploratórios. Freqüentemente utilizados em super mercados para testar produtos.
Intencional
O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas oficinas.



5.2- Quotas ou proporcional
Na realidade, trata-se de uma variação da amostragem intencional. Necessita-se ter um prévio conhecimento da população e sua proporcionalidade. Por exemplo, deseja-se entrevistar apenas indivíduos da classe A, que representa 12% da população. Esta será a quota para o trabalho. Comumente também substratifica-se uma quota obedecendo a uma segunda proporcionalidade.



5.3- Desproporcional
Muito utilizada quando a escolha da amostra for desproporcional à população. Atribui-se pesos para os dados, e assim obtém-se resultados ponderados representativos para o estudo.


Probabilística
Para que se possa realizar inferências sobre a população, é necessário que se trabalhe com amostragem probabilística. É o método que garante segurança quando investiga-se alguma hipótese. Normalmente os indivíduos investigados possuem a mesma probabilidade de ser selecionado na amostra.


5.4- Aleatória Simples
É o mais utilizado processo de amostragem. Prático e eficaz, confere precisão ao processo de amostragem. Normalmente utiliza-se uma tabela de números aleatórios e nomeia-se os indivíduos, sorteando-se um por um até completar a amostra calculada
Uma variação deste tipo de amostragem é a sistemática. Em um grande número de exemplos, o pesquisador depara-se com a população ordenada. Neste sentido, tem-se os indivíduos dispostos em seqüência o que dificulta a aplicação exata desta técnica.
Quando se trabalha com sorteio de quadras de casas por exemplo, há uma regra crescente para os números das casas. Em casos como este, divide-se a população pela amostra e obtém-se um coeficiente (y). A primeira casa será a de número x, a segunda será a de número x + y; a terceira será a de número x + 3. y.
Supondo que este coeficiente seja 6. O primeiro elemento será 3. O segundo será 3 + 6. O terceiro será 3 + 2.6. O quarto será 3 + 3.6, e assim sucessivamente.
Aleatória Estratificada
Quando se deseja guardar uma proporcionalidade na população heterogênea. Estratifica-se cada subpopulação por intermédio de critérios como classe social, renda, idade, sexo, entre outros.



5.5- Conglomerado
Em corriqueiras situações, torna-se difícil coletar características da população. Nesta modalidade de amostragem, sorteia-se um conjunto e procura-se estudar todo o conjunto. É exemplo de amostragem por conglomerado, famílias, organizações e quarteirões.

5- Amostragem
Amostragem é o processo que procura extrair da população elementos que através de cálculos probabilísticos ou não, consigam prover dados inferenciais da população-alvo.
Obs.: A proporção (p) será a estimativa da verdadeira proporção de um dos níveis escolhidos para a variável adotada. Por exemplo, 60% dos telefones da amostra é Nokia, então p será 0,60.
A proporção (q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado por d.
Para casos em que não se tenha como identificar as proporções confere-se 0,5 para p e q.

7- Tipos de dados
Basicamente os dados, dividem-se em contínuos e discretos. O primeiro é definido como qualquer valor entre dois limites quaisquer, tal como um diâmetro. Portanto trata-se de um valor que ser "quebrado". São dados contínuos, questões que envolvem idade, renda, gastos, vendas, faturamento, entre muitas outras.
Quando fala-se em valores discretos, aborda-se um valor exato, tal como quantidade de peças defeituosas. Comumente utiliza-se este tipo de variáveis para tratar de numero de filhos, satisfação e escalas nominais no geral.
O tipologia dos dados determina a variável, ela será portanto contínua ou discreta. Isto quer dizer que ao definir-se uma variável com contínua ou discreta, futuramente já definiu-se que tipo de tratamento se dará a ela.
De acordo com o que dissemos anteriormente, numa análise estatística distinguem-se essencialmente duas fases:
Uma primeira fase em que se procura descrever e estudar a amostra:
Estatística Descritiva e uma segunda fase em que se procura tirar conclusões para a população:
1ª Fase Estatística Descritiva
Procura-se descrever a amostra, pondo em evidência as características principais e as propriedades.
2ª Fase Estatística Indutiva
Conhecidas certas propriedades (obtidas a partir de uma análise descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, que exprimam a existência de leis (na população). 
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e portanto não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não podemos afirmar que são verdadeiras !
Existe, assim, um certo grau de incerteza (percentagem de erro) que é medido em termos de Probabilidade.
Considerando o que foi dito anteriormente sobre a Estatística Indutiva, precisamos aqui da noção de Probabilidade, para medir o grau de incerteza que existe, quando tiramos uma conclusão para a população, a partir da observação da amostra.
Exemplo 4:
Uma empresa fabricante de um automóvel, pretende avaliar a potencialidade do mercado, estimando através de um mercado teste.
Através de1000 entrevistados, pretende-se verificar como se comportará a fatia de intenção de votos para determinado candidato.
Problema: pretende-se, a partir da percentagem de respostas afirmativas, de entre os inquiridos sobre a compra do novo produto, obter uma estimativa do número de compradores na População.
8- Dados, tabelas e gráficos
Distribuição de freqüência
Quando da análise de dados, é comum procurar conferir certa ordem aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por classes ou categorias, verificando-se o número de indivíduos pertencentes a cada classe.
1. Determina-se o menor e o maior valor para o conjunto:
2. Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor valor das observações:
3. Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao maior valor das observações:
4. Definir o número de classes (K), que será calculado usando . Obrigatoriamente deve estar compreendido entre 5 a 20.
5. Conhecido o número de classes define-se a amplitude de cada classe:
6. Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe (inferior e superior)