INE 5443

Programa

Links

Bibliografia

Plano de Ensino

Reconhecimento de Padrões

5. Técnicas Estatísticas


5.1. Introdução às Técnicas Estatísticas Exploratórias: Estatística Multivariada
5.2. Análise de Discriminantes
5.3. Análise de Agrupamentos
5.4. Visão Geral das demais Técnicas Multivariadas
5.5. Glossário de Termos Estatísticos
5.6. Links Úteis
 


5.1. Introdução às Técnicas Estatísticas Exploratórias: Estatística Multivariada

Do ponto de vista da Estatística, as técnicas úteis para reconhecimento e descoberta de padrões em ambientes onde os fenômenos são descritos/baseados em uma grande variedade de dados são conhecidas como Análise de Dados Exploratória (ADE) ou Estatística Exploratória.

A Análise de Dados Exploratória está relacionada de forma próxima com o conceito de Mineração de Dados. De um ponto de vista das técnicas estatísticas, ao contrário dos testes de hipóteses tradicionais, projetados para verificar uma hipótese a priori acerca de relacionamentos entre variáveis ( "Existe uma correlação positiva entre a IDADE de uma pessoa e o NÍVEL DE VIOLÊNCIA dos filmes locados em uma locadora?"), a Análise de Dados Exploratória é utilizada para a identificação de relacionamentos sistemáticos entre variáveis quando não existem expectativas a priori acerca da natureza destes relacionamentos ou estas são incompletas.  Em um processo de ADE típico, muitas variáveis diferentes são consideradas e comparadas. Isto é realizado utilizando-se uma grande variedade de técnicas e modelos matemáticos com o objetivo de se encontrar padrões nestes dados. 

O que é um conjunto de dados multivariado?

Até agora, na Disciplina de RP, nos ocupamos com métodos e técnicas para trabalhar com conjuntos de dados multivariados, sem nos preocupar muito com essa nomenclatura. Um conjunto de  dados multivariado é um conjunto de dados onde cada caso ou observação de um fenômeno é descrito por um conjunto de várias variáveis, sendo representado tipicamente por um padrão (n+1)-dimensional, onde n>2 é número de variáveis necessárias para descrever o fenômeno ou observação e a variável n+1 descreve a classe à qual este determinado padrão pertence. 

No mundo da Estatística, porém, faz-se uma diferenciação rigorosa se um fenômeno é baseado em uma, duas ou muitas variáveis (mono-, bi- ou multivariado), pois as técnicas estatísticas utilizadas para cada um desses três casos variam muito e são tratadas separadamente. 

Como aplicamos ADE ao Reconhecimento de Padrões?

Podemos aplicar a ADE ao reconhecimento de padrões de duas formas diferentes: 

  • Por um lado, as técnicas de ADE já são em si técnicas de reconhecimento de padrões, já que são projetadas para detectar regularidades, correlações e fatores agrupadores ou diferenciadores em um conjunto de dados. Sob esta ótica, realizar mineração de dados com ADEs ou aplicar ADEs a um problema já é uma forma de realizar reconhecimento de padrões. A aplicação prática das técnicas de ADE em RP sob esta ótica dispensa maiores explicações; basta que aprendamos as técnicas.
  • Por outro lado, podemos utilizar técnicas da ADE como ferramentas para a extração de informações de conjuntos de dados com o objetivo de utilizar estas informações para a implementação de um classificador. Neste enfoque, o desenvolvimento completo de uma solução envolve mais do que as técnicas de ADE em si, pois exige que se utilize ainda outra técnica adicional para a implementação deste classificador. Esta idéia vamos detalhar um pouco mais nos parágrafos abaixo.
No Reconhecimento de Padrões, os resultados da aplicação de técnicas da estatística exploratória a conjuntos de padrões ou a um fenômeno esperado podem ser utilizados também para o desenvolvimento de classificadores que poderão então, a posteriori, ser utilizados para classificar novos dados produzidos pelo mesmo fenômeno anteriormente analisado através dessas técnicas de ADE.

O resultado dessa análise inicial através de técnicas exploratórias pode nos prover dados para a elaboração de um mecanismo de classificação utilizando técnicas tradicionais, como k-NN ou outras de RP, através de informações sobre distribuições de dados ou variáveis-chave para classificação dos dados em classes. Em casos onde não conhecemos a priori em quais e quantas classes os dados se permitem agrupar, pode-se inclusive determinar estas classes e utilizar esta informação para um posterior mecanismo de classificação.

A utilização de técnicas estatísticas para o desenvolvimento de classificadores em Reconhecimento de Padrões é, portanto, baseada em uma filosofia de dois passos:

  1. Primeiramente escolhemos uma técnica da ADE para gerar um conjunto de informações a partir de um conjunto inicial de dados gerado por um processo que desejamos dominar capaz de servir para utilização em um classificador e subseqüentemente ser utilizado para a classificação de novos casos gerados pelo mesmo processo que gerou os dados originais;
  2. Escolhemos uma técnica de RP adequada ao tipo de informação gerada pelo método de ADE utilizado e também adequada ao tipo de classificação que queremos obter para dados futuros e utilizamos a informação gerada pela ADE para alimentar ou implementar o classificador.
Como Classificamos as Técnicas de ADE?

Podemos dividir as técnicas de ADE em dois grupos. Algumas técnicas de ADE são baseadas em estatísticas bastante simples, outras, denominadas Técnicas Exploratórias Multivariadas, foram projetadas para identificar padrões em conjuntos de dados multivariados. 

  • Métodos Estatísticos Exploratórios Básicos.  São técnicas para analisar a distribuição de variáveis, verificar matrizes de correlação para encontrar coeficientes acima de determinados limiares ou examinar tabelas de freqüência multivias. São ferramentas matemáticas interessantes e são utilizadas como componentes em técnicas estatísticas mais complexas, mas não podem ser consideradas técnicas de Reconhecimento de Padrões. 
  • Técnicas Exploratórias Multivariadas.  Técnicas projetadas especificamente para identificar padrões em conjuntos de dados multivariados ou conjuntos de dados univariados representando seqüências de observações ou mensurações de um fenômeno.

  • As técnicas multivariadas são comumente divididas em:
  • Análise de Correspondências (Correspondence Analysis), 
  • Análise de Agrupamentos (Cluster Analysis), 
  • Análise Fatorial (Factor Analysis), 
  • Análise de Discriminantes (Discriminant Function Analysis), 
  • Escalonamento Multidimensional (Multidimensional Scaling), 
  • Análise Log-Linear (Log-linear Analysis), 
  • Correlação Canônica (Canonical Correlation), 
  • Regressão Parcialmente Linear e Não-Linear (Stepwise Linear and Nonlinear Regression), 
  • Análise de Séries Temporais (Time Series Analysis), 
  • Árvores de Classificação/Decisão (Classification Trees). 
Veremos em detalhes alguns desses métodos adiante e apenas brevemente outros.

Alguns autores ainda classificam as Redes Neurais como técnicas da Análise de Dados Exploratória. Nós pessoalmente consideramos que a ADE é um campo da Estatística e deveria conter apenas Métodos Estatísticos formalmente definidos como tais. 

Assuntos na Disciplina

No correr desta disciplina vamos analisar em detalhes duas técnicas multivariadas da Estatística Exploratória (EDA) que são de maior interesse para a utilização para o desenvolvimento de classificadores:

  • Análise de Discriminantes e
  • Análise de Agrupamentos
Estas técnicas se baseiam em conceitos e assunções diferentes: na Análise de Discriminantes assumimos uma ou mais variáveis dependentes na nossa distribuição de dados, significando que estas variáveis dependentes de alguma forma representam as classes às quais os conjuntos de dados devem pertencer, tornando a técnica análoga às técnicas de aprendizado supervisionado estudadas em Aprendizado de Máquina e Redes Neurais. A Análise de Agrupamentos, por outro lado, não exige que se assuma que alguma das variáveis observadas seja dependente das outras, o que torna a técnica análoga ao aprendizado não supervisionado, como no caso da Rede de Kohonen.

Trabalhos Práticos na Disciplina e Softwares Estatísticos

Hoje em dia existem vários softwares estatísticos que oferecem os métodos multivariados que veremos ao longo desta disciplina. Como o objetivo da disciplina na área de ADE é que você aprenda a utilizar as técnicas e não que você as implemente, diferentemente do que foi nossa filosofia em outros tópicos de RP em capítulos passados, nós vamos nos utilizar de implementações prontas dos métodos de ADE. Os trabalhos práticos poderão ser realizados através da utilização de qualquer ferramenta de software estatístico. Dentre as muitas implementações que existem, destacamos duas:

SPSS - Um dos mais antigos pacotes de software estatístico existentes e utilizado como ferramenta de referência em muitas áreas das Ciências Biológicas e da Saúde (em meu tempo de graduação já utilizávamos SPSS em mainframes IBM sob VM 370). 
Statistica - Talvez o mais moderno e mais completo pacote na área. Muitos pesquisadores consideram o Statistica como a melhor ferramenta estatística existente. O Statistica é muito completo e possui muito material de apoio, além de helpfiles extremamente bem estruturados e escritos. Muitos dos exemplos que utilizaremos ao longo deste capítulo são adaptações de exemplos encontrados nos helpfiles do Statistica.
Ambos os pacotes possuem em suas páginas demos ou trials para download (Download do Trial do SPSS, Download do Trial do Statistica), que são suficientes para a realização de muitas das atividades nesta disciplina (o demo do Statistica não possui algumas funcionalidades). Sugerimos que você baixe ambos e compare-os, escolhendo um deles como ferramenta para a realização de seus trabalhos. Na seção de links ao final desta página estão ainda disponibilizados vários sites que contém software livre para ADE. Nós ainda não testamos nenhum destes pacotes de software e encorajamos você a que investigue as possibilidades oferecidas por estes pacotes gratuitos.

5.2. Análise de Discriminantes

A análise estatística multivariada utilizando funções discriminantes foi inicialmente aplicada para decidir à qual de dois grupos pertenceriam indivíduos sobre os quais tinham sido feitas diversas e idênticas mensurações. Nessa análise, hoje conhecida como análise discriminante linear, a idéia básica é substituir o conjunto original das diversas mensurações por um único valor Di, definido como uma combinação linear delas. Quando se trata de discriminar entre mais de dois grupos torna-se necessário uma generalização na metodologia. A análise discriminante multigrupos, que utiliza procedimentos combinados da análise de variância e da análise fatorial, pode, então, ser utilizada.

5.2.1. Exemplos de aplicação de análise discriminante

Exemplo 1: Clientes de uma empresa (2 grupos):
  • Análise de Discriminantes: Como selecionar variáveis que melhor discriminam clientes que permanecem e clientes que abandonam os serviços da empresa?
  • Construção de regras de classificação: Conhecidos os valores das variáveis de um novo cliente, classificá-lo no grupo dos que abandonam ou no grupo dos que permanecem na empresa. 
Exemplo 2: Clientes de um banco (2 grupos):
  • Análise de Discriminantes: Como selecionar variáveis que melhor discriminam clientes que pagam e clientes que não pagam seus débitos?
  • Construção de regras de classificação: Conhecidos os valores das variáveis de um novo cliente, classificá-lo no grupo dos que pagam ou no grupo dos que não pagam. 
Exemplo 3: Escolhas educacionais (3 grupos -> análise discriminante multigrupos): Um pesquisador educacional, por exemplo, pode querer investigar quais variáveis discriminam entre absolventes do ensino médio que decidem:
(1) ir para a universidade, 
(2) fazer algum tipo de ensino técnico ou profissionalizante ou 
(3) não procurar nenhum tipo de educação adicional. 
Para esse fim o pesquisador poderia coletar um grande número de variáveis a respeito da vida do estudante antes de sua formatura no ensino médio. Após a formatura no ensino médio, a esmagadora maioria dos estudantes cairá em uma das três categorias acima. A Análise de Discirminantes Multigrupos pode então ser utilizada para determinar quais variáveis melhor predizem qual será a escolha educacional do indivíduo após o término do ensino médio.

Exemplo 4: Prognóstico de recuperação (3 grupos -> análise discriminante multigrupos): Um pesquisador médico pode ter registrado um conjunto de diferentes variáveis relacionadas aos backgrounds de seus pacientes com o objetivo de descobrir retrospectivamente quais variáveis melhor predizem se um paciente tem chances de:

(1) recuperar-se completamente da doença,
(2) recuperar-se parcialmente da doença, mantendo algumas seqüelas, ou
(3) não se recuperar de maneira alguma.
Exemplo 5: Discriminação entre espécies (n grupos -> análise discriminante multigrupos): Um biólogo pode ter registrado as várias características de tipos ou espécies muito similares (grupos) de flores. A seguir ele poderá executar uma análise de discriminantes para determinar quais características oferecem a melhor discriminação entre as espécies. Esta aplicação está descrita abaixo no Segundo Exemplo Detalhado: Discriminando Diferentes Variedades de Iris.

5.2.2. Objetivos da Análise de Discriminantes

Do ponto de vista computacional, a Análise de Discriminantes é muito similar à Análise de Variância (ANOVA). Para entender isto, vamos ver um exemplo simples: suponha que nós meçamos a altura em uma amostra aleatória de 50 homens e 50 mulheres. As mulheres são, em sua média, menos altas que os homens e esta diferença será refletida pela diferença nas médias entre as variáveis altura de ambos os grupos. 

Em função disso, a variável altura nos permite discriminar entre homens e mulheres com uma probabilidade melhor do que o puro acaso (na nossa amostra, a probabilidade de alguém escolhido ao acaso ser homem é de 50%; a probabilidade de alguém escolhido ao acaso, se for alto, ser homem é maior): se uma pessoa for alta, ela será mais provavelmente um homem do que uma mulher. 

Podemos generalizar esta idéia para variáveis menos triviais. Imagine um estudo similar ao exemplo 3, onde queremos saber quais as razões por que formandos do ensino médio escolhem ou não fazer um curso universitário. Poderíamos simplesmente ter medido, por exemplo, a intenção alegada pelos estudantes de seguir estudos universitários ou não um ano antes da formatura no ensino médio. Se as médias para os dois grupos (aqueles que de fato prestaram vestibular e aqueles que não o fizeram) são diferentes, então podemos dizer que a intenção alegada um ano antes de fazer ou não um curso universitário nos permite discriminar entre aqueles com interesses universitário ou não.  Essa informação poderia então ser utilizada de forma mais objetiva pelos conselheiros pedagógicos em diversas escolas do ensino médio para orientar os estudos dos alunos.

Estruturando o que foi dito acima, queremos:

  • Medir o poder de discriminação de cada variável ou grupo de variáveis;
  • Descrever graficamente ou algebricamente diferentes grupos em termos de variáveis discriminadoras;
  • Desenvolver regras para classificar novos elementos.

Sumarizando o que foi discutido até agora: a idéia básica por trás da análise de discriminantes é determinar se os grupos são diferentes com relação à média de uma variável, e então usar essa variável para prever a que grupo um novo caso pertence.

Dito dessa maneira, o problema da análise de discriminantes pode ser pensado como um problema de análise de variância (ANOVA) de uma via. Especificamente, pode-se perguntar se um ou mais grupos são ou não significativamente diferentes entre si com respeito à média de uma variável em particular.

O nosso objetivo é determinar quais variáveis são categóricas, i.e., nos permitem discriminar entre categorias.

Principais Perguntas

Considerando amostras de p variáveis, relativas a elementos de g grupos, como se pode: 
  • verificar as variáveis que discriminam (separam) melhor os grupos?
  • medir analiticamente a separação dos grupos?
  • visualizar graficamente a separação dos grupos?
Como organizo um esquema de classificação?
  • A partir de amostras de p variáveis de elementos de vários grupos, como pode-se criar regras de classificação que permitam classificar novos elementos em um dos grupos?
  • Como avaliar a qualidade do processo de classificação?
Deve estar claro, portanto, que se a média de uma variável for significativamente diferente em grupos distintos, então podemos dizer que essa variável discrimina uns grupos dos outros.

5.2.3. Primeiro Exemplo Detalhado: Discriminação entre portadores ou não de Hemofilia

Tomemos para isso o seguinte exemplo: 
Grupo 1: mulheres não portadoras de hemofilia A (normais) (n1 = 30)
Grupo 2: mulheres portadoras de hemofilia A (portadoras)  (n2 = 22)
Suponha que as variáveis discriminadoras são: X1 e X2 (duas variáveis contínuas observadas em exames de sangue). No nosso exemplo vamos considerar somente essas.
Os dados são:
Um scatter plot da distribuição dos dados fica assim:

 
 


5.2.4. Formas de Análise de Discriminantes

Estime os coeficientes da função discriminante e determine a significância estatística e a validade — escolha o método de análise de discriminantes apropriado.
  • The direct method involves estimating the discriminant function so that all the predictors are assessed simultaneously. The stepwise method enters the predictors sequentially.
  • The two-group method should be used when the dependent variable has two categories or states. 
  • The multiple discriminant method is used when the dependent variable has three or more categorical states.

5.2.5. Análise de Discriminates sobre uma única Variável

the final significance test of whether or not a variable discriminates between groups is the F test.  F is essentially computed as the ratio of the between-groups variance in the data over the pooled (average) within-group variance.  If the between-group variance is significantly larger then there must be significant differences between means. 

5.2.6. Análise de Discriminantes com Múltiplas Variáveis

Usually, one includes several variables in a study in order to see which one(s) contribute to the discrimination between groups.  In that case, we have a matrix of total variances and covariances; likewise, we have a matrix of pooled within-group variances and covariances.  We can compare those two matrices via multivariate F tests in order to determined whether or not there are any significant differences (with regard to all variables) between groups.  This procedure is identical to multivariate analysis of variance or MANOVA.  As in MANOVA, one could first perform the multivariate test, and, if statistically significant, proceed to see which of the variables have significantly different means across the groups.  Thus, even though the computations with multiple variables are more complex, the principal reasoning still applies, namely, that we are looking for variables that discriminate between groups, as evident in observed mean differences.  In fact, you may perform discriminant function analysis with the ANOVA/MANOVA module; however, different types of statistics are customarily computed and interpreted in discriminant analysis (as described 
later).

5.2.7. Pressupostos Fundamentais por Detrás da Análise de Discriminantes

Discriminant function analysis is computationally very similar to MANOVA, and all assumptions for MANOVA mentioned in ANOVA/MANOVA apply. In fact, you can use the wide range of diagnostics and statistical tests of assumption that are available in ANOVA/MANOVA to examine your data for the discriminant analysis (to avoid unnecessary duplications, the extensive set of facilities provided in ANOVA/MANOVA is not repeated in Discriminant Analysis):
  • Normal distribution. It is assumed that the data (for the variables) represent a sample from a multivariate normal distribution. Note that it is very simple to produce histograms of frequency distributions from within results spreadsheets via the shortcut menu, which allows you to examine whether or not variables are normally distributed. However, note that violations of the normality assumption are usually not "fatal," meaning, that the resultant significance tests etc. are still "trustworthy." ANOVA/MANOVA provides specific tests for normality.
  • Homogeneity of variances/covariances. It is assumed that the variance/covariance matrices of variables are homogeneous across groups. Again, minor deviations are not that important; however, before accepting final conclusions for an important study it is probably a good idea to review the within-groups variances and correlation matrices. In particular the scatterplot matrix that can be produced from the Prob. and Scatterplots tab of the Descriptive Statistics dialog can be very useful for this purpose. When in doubt, try re-running the analyses excluding one or two groups that are of less interest. If the overall results (interpretations) hold up, you probably do not have a problem. You may also use the numerous tests and facilities in ANOVA/MANOVA to examine whether or not this assumption is violated in your data. However, as mentioned in ANOVA/MANOVA, the multivariate Box M test for homogeneity of variances/covariances is particularly sensitive to deviations from multivariate normality, and should not be taken too "seriously."
  • Correlations between means and variances. The major "real" threat to the validity of significance tests occurs when the means for variables across groups are correlated with the variances (or standard deviations). Intuitively, if there is large variability in a group with particularly high means on some variables, then those high means are not reliable. However, the overall significance tests are based on pooled variances, that is, the average variance across all groups. Thus, the significance tests of the relatively larger means (with the large variances) would be based on the relatively smaller pooled variances, resulting erroneously in statistical significance. In practice, this pattern may occur if one group in the study contains a few extreme outliers, who have a large impact on the means, and also increase the variability. To guard against this problem, inspect the descriptive statistics, that is, the means and standard deviations or variances for such a correlation. ANOVA/MANOVA also allows you to plot the means and variances (or standard deviations) in a scatterplot.
  • The matrix ill-conditioning problem. Another assumption of discriminant function analysis is that the variables that are used to discriminate between groups are not completely redundant. As part of the computations involved in discriminant analysis, STATISTICA inverts the variance/covariance matrix of the variables in the model. If any one of the variables is completely redundant with the other variables then the matrix is said to be ill-conditioned, and it cannot be inverted. For example, if a variable is the sum of three other variables that are also in the model, then the matrix is ill-conditioned.
  • Tolerance values. In order to guard against matrix ill-conditioning, STATISTICA constantly checks the so-called tolerance value for each variable. This value is also routinely displayed when you ask to review the summary statistics for variables that are in the model, and those that are not in the model. This tolerance value is computed as 1 minus R-square of the respective variable with all other variables included in the current model. Thus, it is the proportion of variance that is unique to the respective variable. You can also refer to Multiple Regression to learn more about multiple regression and the interpretation of the tolerance value. In general, when a variable is almost completely redundant (and, therefore, the matrix ill-conditioning problem is likely to occur), the tolerance value for that variable will approach 0. The default value in Discriminant Analysis for the minimum acceptable tolerance is 0.01. STATISTICA issues a matrix ill-conditioning message when the tolerance for any variable falls below that value, that is if any variable is more than 99% redundant (you may change this default value by selecting the Advanced options (stepwise analysis) check box on the Quick tab of the Discriminant Function Analysis dialog, and then adjusting the Tolerance box on the resulting Advanced tab of the Model Definition dialog).

5.2.8. Análise de Discriminantes do Tipo Passo a Passo

Probably the most common application of discriminant function analysis is to include many measures in the study, in order to determine the ones that discriminate between groups. For example, an educational researcher interested in predicting high school graduates' choices for further education would probably include as many measures of personality, achievement motivation, academic performance, etc. as possible in order to learn which one(s) offer the best prediction.

Model. Put another way, we want to build a "model" of how we can best predict to which group a case belongs. In the following discussion we will use the term "in the model" in order to refer to variables that are included in the prediction of group membership, and we will refer to variables as being "not in the model" if they are not included.

Forward stepwise analysis. In stepwise discriminant function analysis, STATISTICA "builds" a model of discrimination step-by-step. Specifically, at each step STATISTICA reviews all variables and evaluate which one will contribute most to the discrimination between groups. That variable will then be included in the model, and STATISTICA proceeds to the next step.

Backward stepwise analysis. You can also step backwards; in that case STATISTICA first includes all variables in the model and then, at each step, eliminates the variable that contributes least to the prediction of group membership. Thus, as the result of a successful discriminant function analysis, one would only keep the "important" variables in the model, that is, those variables that contribute the most to the discrimination between groups.

F to enter, F to remove. The stepwise procedure is "guided" by the respective F to enter and F to remove values. The F value for a variable indicates its statistical significance in the discrimination between groups, that is, it is a measure of the extent to which a variable makes a unique contribution to the prediction of group membership. If you are familiar with stepwise multiple regression procedures (see Multiple Regression), then you may interpret the F to enter/remove values in the same way as in stepwise regression.

In general, STATISTICA continues to choose variables to be included in the model, as long as the respective F values for those variables are larger than the user-specified F to enter; STATISTICA excludes (removes) variables from the model if their significance is less than the user-specified F to remove.

Capitalizing on chance. A common misinterpretation of the results of stepwise discriminant analysis is to take statistical significance levels at face value. When STATISTICA decides which variable to include or exclude in the next step of the analysis, it actually computes the significance of the contribution of each variable under consideration. Therefore, by nature, the stepwise procedures will capitalize on chance because they "pick and choose" the variables to be included in the model so as to yield maximum discrimination. Thus, when using the stepwise approach you should be aware that the significance levels do not reflect the true alpha error rate, that is, the probability of erroneously rejecting H0 (the null hypothesis that there is no discrimination between groups).
 

5.2.9. Como Interpretar uma Função Discriminante entre Dois Grupos ?

In the two-group case, discriminant function analysis can also be thought of as (and is analogous to) multiple regression (see Multiple Regression; the two-group discriminant analysis is also called Fisher linear discriminant analysis after Fisher, 1936; computationally all of these approaches are analogous). If we code the two groups in the analysis as 1 and 2, and use that variable as the dependent variable in a multiple regression analysis, then we would get results that are analogous to those we would obtain via Discriminant Analysis. In general, in the two-group case we fit a linear equation of the type:

Group = a + b1*x1 + b2*x2 + ... + bm*xm

where a is a constant and b1 through bm are regression coefficients. The interpretation of the results of a two-group problem is straightforward and closely follows the logic of multiple regression: Those variables with the largest (standardized) regression coefficients are the ones that contribute most to the prediction of group membership.
 

5.2.10. Análise de Discrimantes para Determinação de Funções Discriminantes entre Vários Grupos 

When there are more than two groups, we can estimate more than one discriminant function like the one presented above. For example, when there are three groups, we could estimate (1) a function for discriminating between group 1 and groups 2 and 3 combined, and (2) another function for discriminating between group 2 and group 3. We could have one function that discriminates between those high school graduates that go to college and those who do not (but rather get a job or go to a professional or trade school), and a second function to discriminate between those graduates that go to a professional or trade school versus those who get a job. The b coefficients in those discriminant functions could then be interpreted as before.
  • Análise Canônica: When actually performing a multiple group discriminant analysis, we do not have to specify how to combine groups so as to form different discriminant functions. Rather, STATISTICA automatically determines some optimal combination of variables so that the first function provides the most overall discrimination between groups, the second provides second most, and so on. Moreover, the functions will be independent or orthogonal, that is, their contributions to the discrimination between groups will not overlap. Computationally, STATISTICA performs a canonical correlation analysis (see also Canonical Correlation) that will determine the successive functions and canonical roots (the term root refers to the eigenvalues that are associated with the respective canonical function). The maximum number of functions that STATISTICA computes are equal to the number of groups minus one, or the number of variables in the analysis, whichever is smaller.
  • Interpretação das Funções Discriminantes:  As before, we get b (and standardized Beta) coefficients for each variable in each discriminant (now also called canonical) function, and they can be interpreted as usual: the larger the standardized coefficient, the greater is the contribution of the respective variable to the discrimination between groups. (Note that we could also interpret the structure coefficients; see below.) However, these coefficients do not tell us between which of the groups the respective functions discriminate. We can identify the nature of the discrimination for each discriminant (canonical) function by looking at the means for the functions across groups. We can also visualize how these two functions discriminate between groups by plotting the individual scores for the two discriminant functions.
  • Significância das Funções Discriminantes: One can test the number of roots that add significantly to the discrimination between group. Only those found to be statistically significant should be used for interpretation; non-significant functions (roots) should be ignored.
Resumindo, when interpreting multiple discriminant functions, which arise from analyses with more than two groups and more than one variable, you would first test the different functions for statistical significance, and only consider the significant functions for further examination. Next, you would look at the standardized b coefficients for each variable for each significant function. The larger the standardized b coefficient, the larger is the respective variable's unique contribution to the discrimination specified by the respective discriminant function. In order to derive substantive "meaningful" labels for the discriminant functions, you can also examine the factor structure matrix with the correlations between the variables and the discriminant functions. Finally, you would look at the means for the significant discriminant functions in order to determine between which groups the respective functions seem to discriminate.

5.2.11. Segundo Exemplo Detalhado: Discriminando Diferentes Variedades de Iris

Para exemplificar a utilização de análise de discriminates vamos nos basear em um conjunto de dados bastante utilizado para demonstrar Análise de Disciminantes: o conjunto de dados sobre três espécies de flores do gênero Iris, Iris setosa (comum nos jardins da nossa ilha), Iris versicolor e Iris virginica. Estes dados foram colhidos por Fisher em 1936 e até hoje servem de exemplo de como se pode escolher funções discriminantes para um conjunto de dados composto por três classes. Os dados descrevem 150 espécimes de Iris de acordo com 4 características: comprimento das sépalas, comprimento das pétalas, largura das sépalas e largura das pétalas. A quinta váriável é a variável de grupo ou variável categórica, que associa a classificação a cada espécime ou caso observado. Apresentamos uma parte desse conjunto de dados abaixo:

O nosso desafio será encontrar alguma forma de discriminar entre novos espécimes de Iris com base nessa informação acima.
 
 


 
 


 
 


 
 
 
 
 

5.2.12. Exercício de Análise de Discriminantes

Procure nos Links Úteis da página por fontes de software livre para Análise de Discriminantes.  Escolha um software livre de sua preferência, baixe-o e instale-o em seu computador ou no laboratório.

A seguir, tome um conjunto de quatro sets de dados, dentre estes:

Realize dois conjuntos de Análises de Discriminantes sobre estes sets de dados:
  • Um deles buscando uma variável discriminatória para divisão em apenas dois grupos
  • Outra multigrupos, buscando o conjunto de funções discriminatórias.
  • No último caso utilize apenas metade dos dados para a A.D., utilizando então as funções geradas para classificar os dados restantes. Verifique a acurácia de sua classificação. 
Produza um relatório descrevendo: a) os resultados que obteve e as conclusões que tirou disso e b) a sua experiência na utilização do software livre estatístico em questão. 

5.3. Análise de Agrupamentos

O termo Análise de Agrupamentos, primeiramente usado por (Tyron, 1939) na realidade comporta uma variedade de algoritmos de classificação diferentes, todos voltados para uma questão importante em várias áreas da pesquisa: Como organizar dados observados em estruturas que façam sentido, ou como desenvolver taxonomias capazes de classificar dados observados em diferentes classes. Importnate é considerar inclusive, que essas classes devem ser classes que ocorrem "naturalemnte" no conjunto de dados. 

Biólogos, por exemplo, têm de organizar dados observados em estruturas que "façam sentido", ou seja, desenvolver taxonomias. Zoologistas confrontados com uma variedade de espécies de um determinado tipo, por exemplo, têm de conseguir classificar os espécimes observados em grupos antes que tenha sido possível descrever-se esses animais em detalhes de formas a se destacar detalhadamente as diferenças entre espécies e subespécies. 

A idéia aqui é a de um processo data-driven, ou seja, dirigido pelos dados observados de forma a agrupar esses dados segundo características comuns que ocorram neles. 

Este processo deve levar em conta a possibilidade de se realizar inclusive uma organização hierárquica de grupos, onde a cada nível de abstração maior, são também maiores as diferenças entre elementos contidos em cada grupo, da mesma forma que espécies animais do mesmo gênero têm muito em comum entre si, mas espécies animais que possuem apenas o filo ou a ordem em comum possuem pouca similaridade. 

Os métodos de Análise de Agrupamentos estão detalhados em página especial.

5.4. Visão Geral de Algumas das demais Técnicas Multivariadas de Estatística Exploratória

5.4.1. Análise de Correspondências (Correspondence Analysis)

A Análise de Correspondências é uma técnica descritivo-exploratória projetada para a análise de tabelas simples de duas vias e também multivias que contenham algum tipo de correspondência entre as suas linhas e colunas.   Os resultados da Análise de Correspondências provêm informação similar à produzida pela Análise Fatorial (Factor Analysis), e permitem que se explore a estrutura de variáveis categóricas presentes na tabela. 

A tabela deste tipo mais simples e comum é a tabela de tabulação cruzada de freqüências de duas vias: Em uma análise de correspondência típica, uma tabela de tabulação cruzada é inicialmente normalizada, de forma que que as freqüências relativas ao longo de todas as células sempre somem 1,0. 

Uma forma de postular a meta de uma análise típica é representar as entradas na tabela de freqüências relativas das distâncias netre colunas e linhas individuais em um espaço de dimensionalidade baixa. Isto pode ser ilustrado melhor com o exemplo abaixo.

Um exemplo: Hábitos tabagistas X Categoria funcional na empresa (Fonte: Greenacre (1984, p. 55))
 

Hábitos Tabagistas
         
Categoria Funcional
(1) Não Fumante
 (2) Leve
(3) Médio
(4) Pesado
Totais/Linha
(1) Gerentes Sênior
4
2
3
2
11
(2) Gerentes Júnior
4
3
7
4
18
(3) Funcionários Sênior
25
10
12
4
51
(4) Funcionários Júnior
18
24
33
13
88
(5) Secretárias
10
6
7
2
25
Totais/Coluna
61
45
62
25
193

Suponha que você coletou os dados acerca de hábitos tabagistas mostrados na tabela acima (Greenacre 1984, p. 55): 

  • Você pode imaginar os os 4 valores em cada linha da tabela como pontos em um espaço tetradimensional (um vetor). 
  • Dessa forma é possível calcular-se a distância euclideana entre as 5 linhas da tabela neste espaço-de-linhas-da-tabela tetradimensional. 
  • Essas distâncias neste espaço-de-linhas resumem toda a informação sobre as similaridades entre as linhas da tabela.
  • Suponha agora que você será capaz de encontrar um espaço de dimensionalidade menor onde você é capaz de colocar estes pontos de forma que as relações espaciais entre os pontos, ou seja, a informação de similaridade, sejam mantidas, pelo menos de forma geral.
  • Você poderá então representar toda a informação acerca das similaridades entre linhas, que neste caso representam categorias funcionais na empresa, em um grafo 1-, 2- ou 3-dimensional.
Isto não parece ser especialmente útil para tabelas simples como esta, mas com certeza é de suma importância quando tabulamos quantidades muito grandes de dados representando muitas variáveis, como por exemplo o comportamento de compra com relação a 10 ítens diferentes mostrado por indivíduos pertencentes a 100 grupos de consumidores diferentes. Neste caso esta técnica poderia facilitar enormemente a compreensibilidade dos dados, permitindo por exemplo, gerar uma representação hipotética dos 10 ítens em um espaço bidimensional. 

Para uma descrição compreensiva deste método, detalhes computacionais e suas aplicações, sugere-se a leitura do texto clássico de Greenacre (1984). 

5.4.2. Análise Fatorial (Factor Analysis)

A Análise Fatorial é uma técnica da ADE para:  (1) reduzir o número de variáveis descrevendo um fenômeno e (2) detectar estruturas nos relacionamentos entre variáveis, classificando-as. O método é, portanto, aplicado tanto como técnica de redução de dados como de detecção de estrutura. O nome Análise Fatorial foi aplicado pela primeira vez por (Thurstone, 1931). Abaixo descreveremos muito brevemente os princípios fundamentais da Análise Fatorial sem, no entanto, entrar em detalhes matemáticos.

Utilizemos um exemplo bem simples para mostrar a utilidade da redução de dados: Suponha que realizamos um estudo qualquer e que conduzimos este estudo acerca de dados biométricos de forma bastante mal projetada e que entrevistamos 100 pessoas, medindo, entre outras coisas, a altura dessas 100 pessoas tanto através da utilização de uma trena de pedreiro antiga (medida em polegadas) quanto de uma fita métrica de alfaiate (medida em centímetros). No conjunto total de dados adquiridos de cada entrevistado teremos, portanto, duas variáveis diferentes expressando exatamente a mesma coisa, porém uma com valores expressos em polegadas e outra com valores em centímetros. Se, em estudos futuros quisermos pesquisar, por exemplo, como alterações nutricionais afetam a altura das pessoas, não faz sentido algum utilizar essas duas variáveis. A altura de uma pessoa é uma só, não importanto em qual unidade de medida foi expressada. 

O que nós precisamos é um método que nos diga que essas duas variáveis são redundantes proque se comportam exatamente da mesma maneira ou de maneira muito parecida e nos permitam substituir essas duas variáveis por outra, que represente de forma consolidada o comportamento de ambas. Isso é possível de ser feito quando há uma forte correlação entre as variáveis.

Vamos agora extrapolar deste estudo "bobinho" para algo que faça sentido do ponto de vista de pesquisa estatística: Suponha que você deseja estudar e medir a satisfação das pessoas com as vidas que levam. 

Para tanto, você projetou um questionário de satisfação contendo muitos itens. Entre outras coisas, você pergunta aos entrevistados se eles estão satisfeitos com seus hobbies (item 1) e com qual intensidade eles estão se dedicando a um hobby (item 2). É muito provável que as respostas a estes dois itens estejam correlacionadas muito fortemente, pois é natural esperar que uma pessoa satisfeita com seu hobby também encontre prazer em praticá-lo e o pratique com freqüência e assiduidade. Se houver uma correlação alta entre essas duas variáveis, podemos concluir que são redundantes. Levantar dados redundantes é uma coisa comum em pesquisas pois: nem sempre é possível prever todos so correlacionamentos e alguma coisa pode passar despercebida, por mais óbvia que seja e também porque em muitos casos não fazemos a menor idéia de como um fenômeno se comporta e não temos como prever que duas variáveis que especificamos são redundantes.

Pode-se visualizar a correlação entre duas variáveis quaisquer em um scatterplot.  Neste gráfico pode-se visualizar uma linha de regressão ajustada de forma a representar o "melhor" relacionamento linear entre as duas variáveis. Se nós pudermos definir uma variável sintética capaz de aproximar a linha de regressão em um plot destes, então esta variável vais capturar a maior parte da essência dos dois aspectos do fenômeno observado descritos por essas duas variáveis. Assim reduzimos duas variáveis a´um único fator. Observe que esse fator é o resultado de uma combinação linear dessas duas variáveis.  A figura abaixo mostra um scaterplot de duas variáveis com correlação positiva: altura e peso de pessoas em uma enquete. Essas duas variáveis obviamente possuem uma correlação, apesar dela não ser perfeita, e poderíamos exprimir uma combinação linear das duas através de uma variável tamanho_da_pessoa, dada pela função linear representada pela linha de regressão que interpola o scaterplot.

Este exemplo de combinação de duas variáveis correlacionadas em um fator é o que melhor ilustra a idéia básica da Análise Fatorial: a análise de Componentes Principais. Se extendemos o conceito para a utilização simultânea de mais de duas variáveis a computação necessária tornar-se-á mais complexa mas o princípio básico de se expressar várias variáveis através de um fator que descreve sua correlação permanece o mesmo.

A figura abaixo mostra duas variáveis sem nenhuma correlação aparente. 

Existem muitos livros sobre Análise Fatorial, dentre eles: Stevens (1986); Cooley and Lohnes (1971); Harman (1976); Kim and Mueller, (1978a, 1978b); Lawley and Maxwell (1971); Lindeman, Merenda, and Gold (1980); Morrison (1967); or Mulaik (1972). 

5.4.3. Escalonamento Multidimensional (Multidimensional Scaling)

Escalonamento Multidimensional (EMD) pode ser considerado como sendo uma outra alternativa à Análise Fatorial. De forma geral, o objetivo da análise é detectar dimensões significativas subjacentes a uma distribuição de dados que permitam ao pesquisador explicar similaridades ou dissimilaridades ou regularidades observadas entre as mensurações do fenômeno observado. Na Análise Fatorial as similaridades são expressas em uma matriz de correlação. No EMD  você pode analisar qualquer tipo de matriz de similaridade ou dissimilaridade, além de matrizes de correlação.

O exemplo a seguir demonstra a lógica do da Análise de Escalonamento Multidimensional. Suponha que você pegue a matriz de distâncias entre as cidades de uma determinada região. Observe que você pode considerar esta matriz de distâncias entre n cidades como uma tabela bidimensional de nXn valores escalares ou como uma lista de n pontos em um espaço n-dimensional. A seguir nós analisamos esta matriz, especificando que a meta é reproduzir estas distâncias em um espaço bidimensional. Na verdade queremos realizar uma redução dimensional dos dados, especificando que queremos passar do espaço n-dmensional, onde cada dado é representado por uma cidade com a listas das suas distâncias às outras n-1 cidades, para um espaço 2-dimensional, onde cada cidade é representada por um ponto em um espaço bidimensional (suas coordenadas cartesianas). Como resultado da análise EMD, obteremos muito provavelmente uma representação bidimensional das cidades, com as suas coordenadas.

De forma geral, EMD tenta encontrar um arranjo dos objetos dados como entrada (cidades com suas listas de distâncias a outras cidades, em nosso exemplo) em um espaço com um determinado número de dimensões (2-dimensional em nosso exemplo), de forma a reproduzir as distâncias entre os dados no espaço original. Como resultado, podemos assim explicar as relações ou distâncias entre os dados em função de algum conjunto de dimensões subjacentes.

Orientação dos Eixos na Solução Final e Significado dos Resultados

Da mesma forma que na Análise Fatorial, aqui a orientação dos eixos na solução final é arbitrária. No exemplo acima, poderíamos rotacionar o mapa de qualquer forma, que as distâncias entre as cidades permaneceriam as mesmas. Dessa forma, a orientação final dos eixos no plano cartesiano ou no espaço é decisão final do usuário do método e pode ser escolhida de forma a facilitar a compreensão intuitiva dos dados. No exemplo, poderíamos escolher os eixos norte-sul e leste-oeste.

O EMD é muito mais uma maneira de "rearranjar" objetos de uma forma eficiente do que um procedimento exato. Desta forma pode-se chegar a uma configuração que descreva da melhor forma possível as similaridades entre objetos ou fenômenos. O algoritmo apenas move objetos em um espaço definido pela dimensionalidade-resultado definida pelo usuário e checa o quâ bem as distâncias originais entre objetos podem ser reproduzidas no novo espaço de representação. Para isso o algoritmo utiliza utiliza um método de minimização de uma função que iterativamente avalia diferentes configurações com o objetivo de maximizar a qualidade do ajuste (ou de minimizar o "desajuste"). 

O aspecto mais interessante do EMD é que ele permite que se analise qualquer tipo de distância ou matriz de similaridade. Estas similaridades podem inclusive representas valores subjetivos tomados diretamente em uma enquete como a avaliação de pessoas questionadas sobre a similaridade de produtos ou serviços oferecidos por várias empresas ou então os percentuais de concordância entre juízes o julgamento de diferentes tipos de casos, o número de vezes que um probando deixa de responder a um estímulo, etc. 

Métodos de EMD já foram muito populares entre pesquisadores na área da Psicologia para registrar a percepção pessoal de probandos de determinados conjuntos de características com o objetivo de analisar as similaridades entre descritores de atributos com o objetivo de determinar a dimensionalidade de determinados tipos de percepção  (veja Rosenberg, 1977). EMD também é muito popular na área de Marketing para a determinação da forma de percepção ou diferenciação de marcas de uma categoria de produtos  (veja Green & Carmone, 1970).

5.4.4. Análise de Séries Temporais (Time Series Analysis)

Uma série temporal é composta por uma seqüência de medições de uma variável (ou conjunto pequeno de variáveis) que segue uma ordem não-randômica. Ao contrário das análises de seqüências de dados aleatórios estudadas na grande maioria das outras áreas da Estatística, a Análise de Séries Temporais parte do pressuposto de que o processo gerador dos dados mensurados é um processo determinístico, sendo normalmente repetitivo. Outra idéia subjacente é a de que os intervalos de tempo entre mensurações do fenômeno são constantes.

A Análise de Séries Temporais tem dois objetivos: 

  1. Identificar a natureza de um fenômeno descxrito por uma série de observações; 
  2. Prevêr valores futuros da variável da série temporal. 
Atingir ambos os objetivos reuquer que o padrão de comportamento da série temporal observada seja identificado e descrito de uma forma mais ou menos formal. Uma vez que o padrão tenha sido determinado, ele pode ser integrado com outros dados, como a nossa teoria em particular sobre a natureza do fenômeno, seja este um fenômeno metereológico, um eletrocardiograma ou a cotação do mercado de futuros. Independentemente da qualidade da nossa interpretação, podemos extrapolar os dados mensurados para prever eventos futuros da série.

Como na maioria das outras análises, supõe-se que os dados consistem de um padrão sistemático, constituído por um conjunto de componentes identificáveis, associado a ruído aleat´rorio (erro), o qual geralmente dificulta a indentificação do padrão subjacente. As técnicas de análise de séries temporais incluem uma série de filtros para a remoção de ruídos de forma a tornar a natureza doi fenômeno mais saliente. 


Exemplo de série temporal crua e da mesma série após aplicação de uma filtragem simples com um filtro de média móvel sobre 5 amostragens (moving average) que suaviza o contorno do gráfico de facilita a compreensão mais macroscópica do fenômeno.

Tendência X Sazonalidade

A maioria das séries temporais podem ser descritas em termos de duas classes básicas de componentes: tendência e sazonalidade. 
  • Tendência representa um componente geral sistemático, linear ou não-linear, que sofre alteração durante o tempo mas que não se repete durante o fenôeno ou pelo menos não se repete no espaço de tempo durante o qual o fenômeno foi observado ou capturado. Por exemplo: um platô sem alteração macroscópica seguido de um período de crescimento exponencial ou polinomial.
  • Sazonalidade diz respeito a alterações que ocorrem ou são observadas no fenômeno a intervalos sistemáticos de tempo. Essas alterações podem apresentar as mesmas características  de uma alteração tendencial, como por exemplo um platô seguido de um crescimento e seu posterior declinio, e isso repetido ao longo da série.
Estes dois tipos de fenômeno podem ocorrer conjuntamente em um fenômeno observado. Por exemplo, as vendas de biquinis dos fabricantes de roupas de banho sofrem uma variação sazonal com crescimento acentuado de 45% todo início de verão, mas as vendas em geral, inclusive as do verão, também crescem ao longo dos anos a uma taxa de 5% ao ano.

Exemplo de sazonalidade em uma série temporal produzida por um fenômeno biológico: Plot do eletrodo número 1 de um eletrocardiograma normal. Existem padrões que se repetem e chama atenção o padrão composto por um platô longo, uma alteração pequena seguido de uma alteração aguda de alta amplitude e seguido de um alteração bem longa e suave, conhecido em Cardiologia como Complexo QRS.

Este padrão geral unindo tendência e sazonalidade é muito bem ilustrado em um exemplo clássico apresentado por (Box and Jenkins, 1976, p. 531) representando os números mensais de passageiros internacionais de linhas aéreas em 12 manos consecutivos, de 1949 a 1960. Se você plotar as observações sucessivas, uma tendência global clara emerge dos dados: as linhas aéreas gozaram de um crescimento constante do numero de passageiros durante este período. O crescimento chegou a 400% em 1960 quando comparado a 1949. Ao mesmo tempo vemos um padrão local estabelecer-se na seqüência de dados: existe uma variação mensal do fluxo de passageiros que é praticamente idêntica todos os anos, mostrando que muito mais pessoas viajam nas férias do que em outros períodos do ano. 

Estes dados também ilustram um tipo de padrão muito comum em séries temporais: a amplitude das modificações sazonais cresce juntamente com a tendência geral da série. Isto significa que a variância local da série está fortemente correlacionada com a média do mesmo segmento desta série, quando ambas são calculadas segmento a segmento na série, onde um segmento tem tamanho arbitrário mas bastante menor que o tamanho do conjunto de dados como um todo. Este padrão é chamado de sazonalidade multiplicativa e indica que a amplitude relativa, expressa em termos percentuais em relação ao seu segmento de dados, das alterações sazonais é constante no tempo e portanto, relacionada à tendência.

Exemplo de tendência e sazonalidade ocorrendo em conjunto.

Não existem métodos automáticos comprovados para a detecção de componentes de tendência em dados de séries temporais. No entanto, desde que a tendência seja monotônica, crescendo ou decrescendo de forma constante, esta parte da análise dos dados não é muito difícil. 

Se, por outro lado, se supõe que a série temporal apresenta um ruído ou erro considerável, a primeira coisa a se fazer ao se iniciar uma análise é a suavização.

Suavização de Séries Temporais 

A suavização de séries temporais através de técnicas estatísticas sempre envolve alguma forma de geração de médias locais dos dados de amostragem de forma que componentes randômicos, não sistemáticos, se cancelem mutuamente. 

A forma mais ismples e usual de suavização é a utilização de médias móveis (moving averages) que substitui uma amostra pela média simples ou média ponderada de um conjunto ímpar de n amostras circundantes do ponto em questão, onde n é o tamanha da janela de suavização (veja Box & Jenkins, 1976; Velleman & Hoaglin, 1981). Pode-se também ustilizar medianas, moda ou outras técnicas simples ao invés de médias. A grande vantagem de se utilizar a mediana é que o resultado é influenciado de forma menor por elementos estranhos poruzidos por ruído no processo de amostragem, produzindo curvas mais confiáveis. A grande desvantagem da mediana é que não permite que se faça suavizações ponderadas de uma forma consistente. 

Na verdade, estas técnicas são exemplos restritos da técnica mais genérica chamada convolução, que pode ser aplicada tanto a dados 1D como a dados nD e que veremos mais adiante no capítulo de processamento de imagens desta disciplina. Existem muitos outros filtros de convolução, como laplacianos e filtros de gradiente que se aplica ao processamento de imagens mas que também podem ser utilizados aqui.

Ajuste de Funções

Muitas séries temporais monotônicas podem ser adquadamente aproximadas por alguma função linear, o que facilita a sua compreensão. Se existe um componente claramente monotônico não-linear, pode-se utilizar uma transformação de representação da função para um espaço logaritmico ou exponencial para linearizá-la.  Existem várias técnicas estat´tisticas de Rgressão Linear e Regressão Não-Linear que podem ser utilizadas para se descobrir se existe uma função monotônica subjacente na série temporal. Muitas vezes necessita-se utilizar uma representação baseada em uma seqüência de segmentos de funções, chamada de estimativas parcias com porntos de quebra ( piecewise estimations with break points).

Sazonalidade ou Repetição de Padrões

A dependência sazonal ou sazonalidade é um componente importante do padrão de uma série temporal. Ilustramos o conceito no exemplo dado anteriormente sore comportamento do número de passageiros de linhas aéreas e no exemplo de eletrocardiografia. 

Sazonalidade é formalmente definida como uma dependência correlacional de ordem k entre cada i-ésimo elemento da série e o k-i-ésimo elemento (Kendall, 1976) e mensurada pela autocorrelação (correlação entre amostras diferentes da mesma variável) dos dois termos. k é usualmente denominado de retardo (lag). 

A correlação de ordem k significa que a função implícita na série temporal possui correlação elevada entre segmentos seus espaçados por k amostras.

Se o erro de mensuração o  o ruído não forem excessivamente grandes, a sazonalidade pode ser observada visualmente como um padrão que se repete a cada k amostras.

Autocorrelation correlogram. Seasonal patterns of time series can be examined via correlograms. The correlogram (autocorrelogram) displays graphically and numerically the autocorrelation function (ACF), that is, serial correlation coefficients (and their standard errors) for consecutive lags in a specified range of lags (e.g., 1 through 30). Ranges of two standard errors for each lag are usually marked in correlograms but typically the size of autocorrelation is of more interest than its reliability (see Elementary concepts) because we are usually interested only in very strong (and thus highly significant) autocorrelations.

Examining correlograms. While examining correlograms you should keep in mind that autocorrelations for consecutive lags are formally dependent. Consider the following example. If the first element is closely related to the second, and the second to the third, then the first element must also be somewhat related to the third one, etc. This implies that the pattern of serial dependencies can change considerably after removing the first order autocorrelation (i.e., after differencing the series with a lag of 1).

Partial autocorrelations. Another useful method to examine serial dependencies is to examine the partial autocorrelation function (PACF) - an extension of autocorrelation, where the dependence on the intermediate elements (those within the lag) is removed. In other words, the partial autocorrelation is similar to autocorrelation, except that when calculating it, the (auto) correlations with all the elements within the lag are partialled out (Box & Jenkins, 1976; see also McDowall, McCleary, Meidinger, & Hay, 1980). If a lag of 1 is specified (i.e., there are no intermediate elements within the lag), then the partial autocorrelation is equivalent to autocorrelation. In a sense, the partial autocorrelation provides a "cleaner" picture of serial dependencies for individual lags (not confounded by other serial dependencies).

Removing serial dependency. Serial dependency for a particular lag of k can be removed by differencing the series, that is converting each i'th element of the series into its difference from the (i-k)''th element. There are two major reasons for such transformations.

First, you can identify the hidden nature of seasonal dependencies in the series. Remember that, as mentioned in the previous paragraph, autocorrelations for consecutive lags are interdependent. Therefore, removing some of the autocorrelations will change other autocorrelations, that is, it may eliminate them or it may make some other seasonalities more apparent.

The other reason for removing seasonal dependencies is to make the series stationary, which is necessary for ARIMA and other techniques.
 

ARIMA

The modeling and forecasting procedures discussed in the Identifying Patterns in Time Series Data topic, involved knowledge about the mathematical model of the process. However, in real-life research and practice, patterns of the data are unclear, individual observations involve considerable error, and we still need not only to uncover the hidden patterns in the data but also generate forecasts. The ARIMA methodology developed by Box and Jenkins (1976) allows us to do just that; it has gained enormous popularity in many areas and research practice confirms its power and flexibility (Hoff, 1983; Pankratz, 1983; Vandaele, 1983). However, because of its power and flexibility, ARIMA is a complex technique; it is not easy to use, it requires a great deal of experience, and although it often produces satisfactory results, those results depend on the researcher's level of expertise (Bails & Peppers, 1982). The following sections will introduce the basic ideas of this methodology. For those interested in a brief, applications-oriented (non-mathematical), introduction to ARIMA methods, we recommend McDowall, McCleary, Meidinger, and Hay (1980).
 

Autoregressive process

Most time series consist of elements that are serially dependent in the sense that one can estimate a coefficient or a set of coefficients that describe consecutive elements of the series from specific, time-lagged (previous) elements. This can be summarized in the equation:

xt = x + f1*x(t-1) + f2*x(t-2) + f3*x(t-3) + ... + e

where:

 x        is a constant (intercept), and

 f1, f2, f3  are the autoregressive model parameters.
 

Put in words, each observation is made up of a random error component (random shock, e) and a linear combination of prior observations.
 

Stationarity requirement

Note that an autoregressive process will only be stable if the parameters are within a certain range; for example, if there is only one autoregressive parameter then it must fall within the interval of -1<f1<+1. Otherwise, past effects would accumulate and the values of successive xt' s would move towards infinity, that is, the series would not be stationary. 

In Time Series analysis, a stationary series has a constant mean, variance, and auto-correlation through time (i.e., seasonal dependencies have been removed via Differencing).

If there is more than one autoregressive parameter, similar (general) restrictions on the parameter values can be defined (e.g., see Box & Jenkins, 1976; Montgomery, 1990). The Time Series module automatically checks whether the stationarity requirement is met.

Moving average process. Independent from the autoregressive process, each element in the series can also be affected by the past error (or random shock) that cannot be accounted for by the autoregressive component, that is:

xt = m + et - q1*e(t-1) - q2*e(t-2) - q3*e(t-3) - ...

where

m         is a constant, and

q1, q2, q3   are the moving average model parameters.
 

Put in words, each observation is made up of a random error component (random shock, e) and a linear combination of prior random shocks.

Invertibility requirement

Without going into too much detail, there is a "duality" between the moving average process and the autoregressive process (e.g., see Box & Jenkins, 1976; Montgomery, Johnson, & Gardiner, 1990), that is, the moving average equation above can be rewritten (inverted) into an autoregressive form (of infinite order). However, analogous to the stationarity condition described above, this can only be done if the moving average parameters follow certain conditions, that is, if the model is invertible. Otherwise, the series will not be stationary. Again, the Time Series module automatically checks whether the invertibility requirement is met

Detailed discussions of the methods described in this section can be found in Anderson (1976), Box and Jenkins (1976), Kendall (1984), Kendall and Ord (1990), Montgomery, Johnson, and Gardiner (1990), Pankratz (1983), Shumway (1988), Vandaele (1983), Walker (1991), and Wei (1989).

5.5. Glossário de Termos Estatísticos

Esta seção explica alguns dos termos estatísticos mais importantes e que têm um papel importante nos métodos que estaremos ensinando aqui. O objetivo é rever esta matéria e refrescar a sua memória. Ela está detalhada em página especial.
 

5.6. Links Úteis (Software e Dados)

  1. On-Line Software for Clustering and Multivariate Analysis of the Classification Society of North America (CSNA)

  2. StatLib - Data, Software and News from the Statistics Community - StatLib is a system for distributing statistical software, datasets, and information by electronic mail, FTP and WWW.
  3. On-line Software for Clustering
  4. Fionn Murtagh's Multivariate Data Analysis Software and Resources Page
The Cyclops Project
German-Brazilian Cooperation Programme on IT
CNPq GMD DLR