Analisando Comunidades

Departamento de Ecologia IB-USP

Análises da riqueza de espécies

Pacotes e formatos de dados

vegan
BiodiversityR
matriz de espécies
- locais nas linhas
- espécies nas colunas
matriz de variáveis ambientais
- locais nas linhas
- variáveis nas colunas

Vegetação em dunas - espécies

dim(dune)

## [1] 20 30

##    Achimill Agrostol Airaprae Alopgeni Anthodor Bellpere Bromhord Chenalbu
## 1         1        0        0        0        0        0        0        0
## 2         3        0        0        2        0        3        4        0
## 3         0        4        0        7        0        2        0        0
## 4         0        8        0        2        0        2        3        0
## 5         2        0        0        0        4        2        2        0
## 6         2        0        0        0        3        0        0        0
## 7         2        0        0        0        2        0        2        0
## 8         0        4        0        5        0        0        0        0
## 9         0        3        0        3        0        0        0        0
## 10        4        0        0        0        4        2        4        0

Vegetação em dunas - ambiente

##     A1 Moisture Management      Use Manure
## 1  2.8        1         SF Haypastu      4
## 2  3.5        1         BF Haypastu      2
## 3  4.3        2         SF Haypastu      4
## 4  4.2        2         SF Haypastu      4
## 5  6.3        1         HF Hayfield      2
## 6  4.3        1         HF Haypastu      2
## 7  2.8        1         HF  Pasture      3
## 8  4.2        5         HF  Pasture      3
## 9  3.7        4         HF Hayfield      1
## 10 3.3        2         BF Hayfield      1

Curva de acumulação de espécies

Número acumulado de espécies registradas (S) em função do esforço amostral (n)
Unidade amostral:
- curva baseada em indivíduo
- curva baseada em amostra

Curva baseada em amostra

(Accum <- accumresult(dune, method = 'collector'))

## Species Accumulation Curve
## Accumulation method: collector
## Call: specaccum(comm = x, method = method, permutations = permutations,      conditioned = conditioned, gamma = gamma) 
## 
##                                                                    
## Sites    1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20
## Richness 5 10 12 14 18 18 19 22 22 23 24 24 25 27 27 27 28 29 30 30

Curva baseada em amostra

Curva do coletor x curva de rarefação

Coletor: plotando acumulação de acordo com a ordem de amostragem
Rarefação:
- riqueza média por amostra (method = exact)
- riqueza média por aleatorização (method = rarefaction or method = random)

Curva de rarefação - exact method

(Accum.1 <- accumresult(dune, method='exact'))

## Species Accumulation Curve
## Accumulation method: exact
## Call: specaccum(comm = x, method = method, permutations = permutations,      conditioned = conditioned, gamma = gamma) 
## 
##                                                                    
## Sites    1.000000  2.000000  3.000000  4.000000  5.000000  6.000000
## Richness 9.850000 15.110526 18.510526 20.937461 22.754321 24.149587
## sd       2.351064  1.876385  1.572271  1.446958  1.390159  1.353035
##                                                                    
## Sites     7.00000  8.000000  9.000000 10.000000 11.000000 12.000000
## Richness 25.23956 26.103548 26.798244 27.364962 27.833984 28.227546
## sd        1.31648  1.274903  1.228201  1.176341  1.119344  1.056454
##                                                                   
## Sites    13.000000 14.00000 15.000000 16.000000 17.00000 18.000000
## Richness 28.562036 28.84964 29.099587 29.319092 29.51403 29.689474
## sd        0.987409  0.91160  0.828689  0.738092  0.63339  0.513971
##                      
## Sites    19.000000 20
## Richness 29.850000 30
## sd        0.357071  0

Curva de rarefação - exact method

Curva de rarefação - random method

(Accum.2 <- accumresult(dune, method='random', permutations=1000))

## Species Accumulation Curve
## Accumulation method: random, with 1000 permutations
## Call: specaccum(comm = x, method = method, permutations = permutations,      conditioned = conditioned, gamma = gamma) 
## 
##                                                                   
## Sites    1.00000  2.000000  3.000000  4.000000  5.000000  6.000000
## Richness 9.94100 15.157000 18.565000 21.012000 22.815000 24.228000
## sd       2.31579  2.190239  2.108606  2.134575  2.052069  1.872304
##                                                                     
## Sites     7.000000  8.000000  9.000000 10.000000 11.000000 12.000000
## Richness 25.260000 26.103000 26.768000 27.340000 27.823000 28.213000
## sd        1.812646  1.638009  1.516072  1.400129  1.258274  1.156273
##                                                                    
## Sites    13.00000 14.000000 15.000000 16.000000 17.000000 18.000000
## Richness 28.53000 28.858000 29.127000 29.349000 29.520000 29.699000
## sd        1.04028  0.916884  0.826774  0.718133  0.621278  0.506612
##                     
## Sites    19.00000 20
## Richness 29.85000 30
## sd        0.35725  0

Curva de rarefação - random method

Curva baseada em indivíduo

usando método baseado em amostra:
re-escalonar o eixo x para número de indivíduos baseado no tamanho médio de indivíduos por amostra
útil para comparar locais com número de indivíduos diferente por amostra.

Curva baseada em indivíduo

# sabendo o total de indvíduos por local
dune.env$site.totals <- apply(dune,1,sum)

(Accum.5 <- accumresult(dune, y=dune.env, scale='site.totals', method='rarefaction'))

## Species Accumulation Curve
## Accumulation method: rarefaction
## Call: specaccum(comm = x, method = method, permutations = permutations,      conditioned = conditioned, gamma = gamma) 
## 
##                                                                         
## Sites       34.0000 68.0000 103.0000 137.0000 171.0000 206.0000 240.0000
## Individuals 34.0000 68.0000 103.0000 137.0000 171.0000 206.0000 240.0000
## Richness    17.1116 22.2394  24.7028  26.0495  26.9076  27.5204  27.9639
## sd           1.7974  1.7334   1.5352   1.3749   1.2540   1.1572   1.0786
##                                                                           
## Sites       274.0000 308.0000 342.0000 377.0000 411.0000 445.0000 480.0000
## Individuals 274.0000 308.0000 342.0000 377.0000 411.0000 445.0000 480.0000
## Richness     28.3133  28.5987  28.8374  29.0459  29.2195  29.3698  29.5041
## sd            1.0083   0.9423   0.8786   0.8141   0.7518   0.6892   0.6236
##                                                             
## Sites       514.0000 548.0000 582.0000 616.0000 651.0000 685
## Individuals 514.0000 548.0000 582.0000 616.0000 651.0000 685
## Richness     29.6178  29.7171  29.8037  29.8790  29.9456  30
## sd            0.5580   0.4891   0.4152   0.3324   0.2279   0

Curva baseada em indivíduo

Método de rarefação

Comparar riqueza entre comunidades quando o tamanho amostral ou abundâncias diferem.
- comparações baseadas na comunidade com menos amostras ou indivíduos
- consistência taxonomica
- mesmas técnicas de coleta;
- os tipos de hábitat semelhantes
é um método para estimar a riqueza de espécies em uma amostra menor

Não pode ser usado para extrapolar e estimar riqueza!!

Curva de acumulação para comparar riquezas

Accum.6 <- accumcomp(dune, y = dune.env, factor = 'Management', method = 'exact', legend = F)

Estimando o número total de espécies

métodos de extrapolação
métodos baseados em diferentes premissas de como as espécies se acumulam além da área amostrada
pesos maiores ou menores à espécies raras.

Jackniffe 1 e 2

Somando a riqueza obsevada a um parâmetro calculado a partir do número de espécies raras e do número de amostras. As duas equações diferem basicamente em relação ao critério pelo qual se consideram uma espécie como rara.

\[ S_{jack1} = S_{obs} + Q_1\frac{m-1}{m} \]

\[ S_{jack2} = S_{obs} + Q_1\frac{2m-3} {m} - Q_2\frac{(m-2)^2} {m(m-1)} \]

\(Q_j\): número de espécies que ocorrem em j amostras;
\(m\): número de amostras;

Jackniffe 1 e 2

(Diversity.5 <- diversityresult(dune, index='jack1'))

##     jack1
## all 32.85

(Diversity.6 <- diversityresult(dune, index='jack2'))

##         jack2
## all 33.844737

Chao

Baseados no número de espécies raras dentro de uma amostra.
- Número espécies representadas por apenas um indivíduo (singletons) ou que ocorre em apenas uma amostra (uniques)
- Número de espécies com apenas dois indivíduos (doubletons) ou que ocorrem respectivamente em uma ou em duas unidades amostrais (duplicates).

\[ S_{chao} = S_{obs} + \frac{F_1^2} {2F_2^2} \]

\(F_j\): número de espécies que tem exatamente j indivíduos em todas amostras juntas ou que ocorrem em exatamente j amostras

Chao 1 e 2

Chao 1: abundância das espécies
Chao 2: presença/ausência

Diversity.7 <- diversityresult(dune, index='chao')
Diversity.7

##        chao
## all 32.1375

Bootstrap

Utilizar dados de todas as espécies coletadas para estimar a riqueza total, não se restringindo às espécies raras.
Soma a riqueza observada à soma do inverso da proporção de amostras em que ocorre cada espécies.

\[ S_{boot} = S_{obs} + \sum_{k=1}^{S_{obs}}(1-p_k)^m \]

\(p_k\): proporção de amostras que contém a espécie k;
\(m\): número de amostras;

Bootstrap

Diversity.8 <- diversityresult(dune, index='boot')
Diversity.8

##          boot
## all 31.540396

Estimando o número total de espécies

Reportar a variação nos valores obtidos com os diferentes métodos e esperar que o valor total correto esteja dentro desse intervalo.

Análises de diversidade em comunidades

Diversidade de espécies

Leva em consideraçaõ Riqueza, Dominância e Raridade

Índices de diversidade:

Diversidade
Equabilidade

Diversidade

Local	sp1	sp2	sp3	sp4	sp5
A	1	1	1	0	0
B	1	1	1	1	1
C	4	2	1	0	0
D	2	2	2	0	0

Local B tem mais riqueza que local A - mesma equabilidade
Local C e D tem mesma riqueza - local D tem mais equabilidade.

Índice de Simpson

Mais simples, robusto
\(D\) Probabilidade de 2 indivíduos sorteados de uma comunidade pertencerem à mesma espécie

\[ D_1 = 1 - \sum_{i=1}^S P_i^2 \]

\[ D_2 = \frac{1}{\sum_{i=1}^S P_i^2} \]

Para uma dada riqueza \(S\), \(D\) aumenta com a equabilidade, e para uma dada equabilidade, \(D\) aumenta com a riqueza.

Índice de Simpson

N = 100; S = 10

##    ni   pi    pi2
## 1  91 0.91 0.8281
## 2   1 0.01 0.0001
## 3   1 0.01 0.0001
## 4   1 0.01 0.0001
## 5   1 0.01 0.0001
## 6   1 0.01 0.0001
## 7   1 0.01 0.0001
## 8   1 0.01 0.0001
## 9   1 0.01 0.0001
## 10  1 0.01 0.0001

(D = sum(sim$pi2))

## [1] 0.829

(D1 = 1-D)

## [1] 0.171

(D2 = 1/D)

## [1] 1.2062726

Equabilidade de Simpson

\(D2_{max} = S\) valor máximo do índice se todas as sps tivessem mesmo N indivíduos.

\[ E = \frac{D2} {D2_{max}} = \frac{1}{\sum_{i=1}^S P_i^2} x \frac{1}{S}\]

Desvantagem: não dá muito peso à espécies raras

(D2max = 10)

## [1] 10

(E = D2/D2max)

## [1] 0.12062726

Índice de Simpson

# Simpson 1-D
(diversity.simp <- diversity(dune, index='simpson'))

##          1          2          3          4          5          6 
## 0.73456790 0.89002268 0.87875000 0.90074074 0.91400757 0.90017361 
##          7          8          9         10         11         12 
## 0.90750000 0.90875000 0.91156463 0.90319091 0.86718750 0.86857143 
##         13         14         15         16         17         18 
## 0.85215794 0.83333333 0.85066163 0.84297521 0.83555556 0.86145405 
##         19         20 
## 0.87408949 0.86784599

# todos locais agrupados
(divers.all <- diversityresult(dune, index = "Simpson", method='all'))

##        Simpson
## all 0.94524375

Índice de Simpson

# inverso de simpson:
(diversity.invsimp <- diversity(dune, index='invsimpson'))

##          1          2          3          4          5          6 
##  3.7674419  9.0927835  8.2474227 10.0746269 11.6289308 10.0173913 
##          7          8          9         10         11         12 
## 10.8108108 10.9589041 11.3076923 10.3296089  7.5294118  7.6086957 
##         13         14         15         16         17         18 
##  6.7639752  6.0000000  6.6962025  6.3684211  6.0810811  7.2178218 
##         19         20 
##  7.9421488  7.5669291

Índice de Shannon

Índice mais utilizado na literatura
Geralmente valores entre 1.5 e 3.5 (raramente acima de 5)
É sensível a espécies raras
É sensível a variações nas abundâncias

\[ H = -\sum_{i=1}^S P_i lnP_i \]

Equabilidade:

\[J = \frac{H} {H_{max}} = \frac{-\sum_{i=1}^S P_i lnP_i} {lnS} \]

Índice de Shannon

sim

##    ni   pi    pi2
## 1  91 0.91 0.8281
## 2   1 0.01 0.0001
## 3   1 0.01 0.0001
## 4   1 0.01 0.0001
## 5   1 0.01 0.0001
## 6   1 0.01 0.0001
## 7   1 0.01 0.0001
## 8   1 0.01 0.0001
## 9   1 0.01 0.0001
## 10  1 0.01 0.0001

(shan <- -(sum(sim$pi*log(sim$pi))))

## [1] 0.50028804

(Hmax = log(10))

## [1] 2.3025851

(Hshan <- shan/Hmax)

## [1] 0.21727233

Índice de Shannon

diversity.sha2 <- diversityresult(dune, index='Shannon', method='s')
diversity.sha2

##      Shannon
## 1  1.4404817
## 2  2.2525163
## 3  2.1937493
## 4  2.4267788
## 5  2.5444215
## 6  2.3459464
## 7  2.4717333
## 8  2.4348977
## 9  2.4935682
## 10 2.3986126
## 11 2.1060649
## 12 2.1144953
## 13 2.0996376
## 14 1.8636800
## 15 1.9793088
## 16 1.9597948
## 17 1.8762736
## 18 2.0793872
## 19 2.1340240
## 20 2.0482704

# Equabilidade de Shannon:
diversity.shaE <- diversityresult(dune, index='Jevenness', method='s')
diversity.shaE

##     Jevenness
## 1  0.89502163
## 2  0.97825539
## 3  0.95273321
## 4  0.94613129
## 5  0.96414027
## 6  0.97833564
## 7  0.96365773
## 8  0.97987493
## 9  0.97217052
## 10 0.96527272
## 11 0.95851144
## 12 0.96234830
## 13 0.91186102
## 14 0.95774206
## 15 0.95184633
## 16 0.94246209
## 17 0.96421388
## 18 0.94636991
## 19 0.97123617
## 20 0.98500986

Índice de Dominância de Berger-Parker

Este índice é geralmente recomendado por ser intuitivamente simples e fácil de calcular e por significado biológico:

\[ d = \frac{N_{max}}{N} \]

\(N_{max}\) número de indivíduos da espécie mais abundante
\(N\) número total de indivíduos da comunidade.

Porém é um índice problemático apra comunidades com poucas espécies (S<15 espécies).

Berger-Parker

sim

##    ni   pi    pi2
## 1  91 0.91 0.8281
## 2   1 0.01 0.0001
## 3   1 0.01 0.0001
## 4   1 0.01 0.0001
## 5   1 0.01 0.0001
## 6   1 0.01 0.0001
## 7   1 0.01 0.0001
## 8   1 0.01 0.0001
## 9   1 0.01 0.0001
## 10  1 0.01 0.0001

(berger <- 91/100)

## [1] 0.91

(diversity.ber <- diversityresult(dune, index='Berger', method='s'))

##        Berger
## 1  0.38888889
## 2  0.16666667
## 3  0.17500000
## 4  0.17777778
## 5  0.13953488
## 6  0.12500000
## 7  0.15000000
## 8  0.12500000
## 9  0.14285714
## 10 0.13953488
## 11 0.21875000
## 12 0.22857143
## 13 0.27272727
## 14 0.25000000
## 15 0.21739130
## 16 0.24242424
## 17 0.26666667
## 18 0.22222222
## 19 0.19354839
## 20 0.16129032

Perfil de diversidade de Rényi

Curvas que provém informação sobre a riqueza e equabilidade das espécies.
Técnica de ordenação da diversidade.
Quanto menos horizontal um perfil é, menos equitativa é a distribuição das espécies.
Perfis que iniciam em um alto nível tem maior riqueza.
Vantagem: locais podem ser facilmente ordenados da maior para a menor diversidade.
Se o perfil de um local está sempre acima de outro, então este é mais diverso que o segundo. Mas se os perfis se cruzam, é provável que um local tenha mais riqueza, enquanto outro mais equabilidade.

Perfil de Rényi - diversidade

##   sp1 sp2 sp3 sp4 sp5
## A   1   1   1   0   0
## B   1   1   1   1   1
## C   4   2   1   0   0
## D   2   2   2   0   0

Pefil de Rényi - equabilidade

Perfil de Rényi - alfa

alfa = 0 log da riqueza de espécies
alfa = infinito 1/log(proporção da espécie mais abundante)
alfa = 1 é o Índice de diversidade de Shannon
alpha = 2 é o logarítmo do Índice de diversidade de Simpson (1/D).

Perfil de Rényi - Diversidade

Perfi de Rényi - equabilidade

Perfil de Rényi por local

Perfil de Rényi X índices de diversidade

índices de diversidade são mais compactos
Porém, não provém informação suficiente para ordenar locais da maior para menor diversidade.
Perfil de Rényi permite concluir se um local é mais diverso que o outro.

Comparando diversidade entre locais

Para comparar diversidade em locais com tamanhos amostrais diferentes, é preciso re-amostrar locais com menor número de amostras obtidas em um local.
Criar perfis com reamostragens aleatórias

Renyi.3 <- renyicomp(dune, y = dune.env, factor = 'Management',
                     permutations = 100, legend = F)

Rényi: comparando diversidade entre locais

Análises das diferenças na composição de espécies

Agrupamento: agrupar objetos (locais) em grupos de maneira que objetos do mesmo grupo sejam mais semelhantes entre si do que objetos de outros grupos.
Ordenação: os objetos são posicionados num espaço que contém menos dimensões que o conjunto de dados original;

Distância Ecológica

Descreve a diferença na composição de espécies de forma que locais que compartilhem muitas espécies devem ter distância ecológica pequena.
Calculada a partir da matriz de espécies
Gera uma nova matriz - de distâncias!

Distância Euclidiana

##   sp1 sp2 sp3
## A   1   1   0
## B   5   5   0
## C   0   0   1

Distância Euclidiana

mat

##   sp1 sp2 sp3
## A   1   1   0
## B   5   5   0
## C   0   0   1

vegdist(mat, method="euclidean")

##           A         B
## B 5.6568542          
## C 1.7320508 7.1414284

Não é uma boa distância ecológica para dados brutos da matriz de espécie, depende muito das abundâncias
A e B estão distantes mas compartilham mesmas espécies

Distância Euclidiana dados transformados

Dividindo as abundâncias das espécies pela abundância total do local

#abundância total por local
abund.t <- apply(mat, 1, sum)

#matriz transformada para abundancias relativas
mat2 <- mat /abund.t
mat2

##   sp1 sp2 sp3
## A 0.5 0.5   0
## B 0.5 0.5   0
## C 0.0 0.0   1

Distância Euclidiana dados transformados

##           A         B
## B 0.0000000          
## C 1.2247449 1.2247449

Distância de Bray-Curtis

Valores de distância restritos entre 0 e 1
- 0: s dois locais são completamente similar (mesmas espécies)
- 1: totalmente dissimilares (sem espécie em comum)

vegdist(mat, method = 'bray')

##            A          B
## B 0.66666667           
## C 1.00000000 1.00000000

Análise da distância ecológica por Ordenação

Ordenação arranjam as comunidades (locais) de forma que as distâncias entre elas no gráfico representem suas distâncias ecológicas.
Locais próximos no gráfico tem composição de espécies similar, locais afastados contém composição de espécies diferente.
Muito útil para analisar dados de comunidades ecológicas, que estão geralmente estruturadas em gradientes.

Passos da ordenação

Os dados podem ser transformados e o tipo de transformação depende da questão formulada e análise a ser realizada.
É construída uma matriz de distâncias entre os objetos (locais).
O "programa" então arranja os objetos ao longo de um ou mais eixos que melhor refletem os padrões encontrados nos dados. Estes eixos refletirão as variáveis ecológicas (ou gradientes) que causaram os padrões nos dados.

Escalonamento multidimensional não paramétrico (NMDS)

análise indireta de gradiente, útil para ver se há padrões nos dados
pode produzir a ordenação de objetos de qualquer matriz de distâncias

Espécies em um gradiente de precipitação

##       spA spB spC spD spE spF
##  [1,]   9   1   0   0   0   0
##  [2,]   0   1   0   0   0   1
##  [3,]   0   0   0   0   4   0
##  [4,]   0   2   1   1   0   2
##  [5,]   4   0   0   0   6   0
##  [6,]   0   1   0   0   0   0
##  [7,]   8   0   0   0   7   0
##  [8,]   6   0   0   0   3   0
##  [9,]   2   0   2   2   3   1
## [10,]   0   2   1   1   0   1
## [11,]   0   0   4   4   1   0
## [12,]  10   0   0   0   1   0

##  [1] 270 315 200 255 190 290 150 125 230 290 240 100

NMDS

Objetivo: descrever o padrão apresentado pelas seis espécies em menos dimensões
Cada espécie representa uma dimensão
Ordenação dos objetos (locais), em relação aos atributos (espécies)

NMDS matriz de distância

(distmatrix <- vegdist(tab, method = 'bray'))

##              1           2           3           4           5           6
## 2  0.833333333                                                            
## 3  1.000000000 1.000000000                                                
## 4  0.875000000 0.500000000 1.000000000                                    
## 5  0.600000000 1.000000000 0.428571429 1.000000000                        
## 6  0.818181818 0.333333333 1.000000000 0.714285714 1.000000000            
## 7  0.360000000 1.000000000 0.578947368 1.000000000 0.200000000 1.000000000
## 8  0.368421053 1.000000000 0.538461538 1.000000000 0.263157895 1.000000000
## 9  0.800000000 0.833333333 0.571428571 0.625000000 0.500000000 1.000000000
## 10 0.866666667 0.428571429 1.000000000 0.090909091 1.000000000 0.666666667
## 11 1.000000000 1.000000000 0.846153846 0.733333333 0.894736842 1.000000000
## 12 0.142857143 1.000000000 0.866666667 1.000000000 0.523809524 1.000000000
##              7           8           9          10          11
## 2                                                             
## 3                                                             
## 4                                                             
## 5                                                             
## 6                                                             
## 7                                                             
## 8  0.250000000                                                
## 9  0.600000000 0.473684211                                    
## 10 1.000000000 1.000000000 0.600000000                        
## 11 0.916666667 0.888888889 0.473684211 0.714285714            
## 12 0.307692308 0.300000000 0.714285714 1.000000000 0.900000000

NMDS passos

Escolha das dimensões (eixos) para descrever os dados: 2
Ordenar os locais nos eixos
Verificar o quanto as distâncias entre eles ficaram proporcionais às da matriz de distâncias original
Re-arranjar os locais e verificar se o resutado melhorou… até achar melhor resultado (menor STRESS)

NMDS

initNMS <- NMSrandom(distmatrix, perm=100, k=2)
model1 <- postMDS(initNMS, distmatrix)

# adicionando os escores das espécies no modelo 
model1 <- add.spec.scores(model1, tab, method='wa.scores')
# permite colocar a ordenação das espécies no mesmo gráfico

model1$stress

## [1] 7.3054

#esses valor de stress está em % porcentagem

NMDS

Comparando resultado do NMDS com gradiente de precipitação

Ver se o eixo MDS1 foi capaz de capturar o padrão existente nos dados:

Comparando resultado do NMDS com gradiente de precipitação

STRESS (Standard Residuals Sum of Squares)

medida do quanto as posições de objetos e uma configuração tridimensional desviam-se das distâncias originais
stress < 0.05 representação excelente;
stress <0.01 boa ordenação
stress < 0.2 ordenação razoável
stress > 0.2 ordenação inviável (interpretação pode ficar comprometida)

Shepard Diagram

Para acessar a adequação da análise: comparar as distâncias entre objetos na ordenação com as distâncias originais

Análise de componentes principais (PCA)

Usada para:
- reduzir a dimensionalidade dos dados
- verificar como as amostras se relacionam
Só é possível usar a distância euclidiana
Principal aplicação em ecologia é a ordenação dos locais com base nas variáveis ambientais quantitativas
mais recentemente usada para análise de dados da comunidade (após transformação).

PCA

Vantagem:
- retirar a multicolinearidade das variáveis
- permite transformar um conjunto de variáveis originais intercorrelacionadas em um novo conjunto de variáveis não correlacionadas (os componentes principais).
Desvantagem:
- somente distância euclidiana
- somente dados quantitativos
- premissa de normalidade multidimensional

PCA passos

padronização dos dados - adimensinonalidade
Extrair matriz de distância euclidiana
Rodar a PCA
Escolher o número de eixos significativos
Interpretar os resultados

Dados abundância de peixes em rios

##   CHA TRU VAI LOC OMB BLA HOT TOX VAN CHE BAR SPI GOU BRO PER BOU PSO ROT
## 1   0   3   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
## 2   0   5   4   3   0   0   0   0   0   0   0   0   0   0   0   0   0   0
## 3   0   5   5   5   0   0   0   0   0   0   0   0   0   1   0   0   0   0
## 4   0   4   5   5   0   0   0   0   0   1   0   0   1   2   2   0   0   0
## 5   0   2   3   2   0   0   0   0   5   2   0   0   2   4   4   0   0   2
## 6   0   3   4   5   0   0   0   0   1   2   0   0   1   1   1   0   0   0

##    das alt  pen  deb  pH dur  pho  nit  amm  oxy dbo
## 1  0.3 934 48.0 0.84 7.9  45 0.01 0.20 0.00 12.2 2.7
## 2  2.2 932  3.0 1.00 8.0  40 0.02 0.20 0.10 10.3 1.9
## 3 10.2 914  3.7 1.80 8.3  52 0.05 0.22 0.05 10.5 3.5
## 4 18.5 854  3.2 2.53 8.0  72 0.10 0.21 0.00 11.0 1.3
## 5 21.5 849  2.3 2.64 8.1  84 0.38 0.52 0.20  8.0 6.2
## 6 32.4 846  3.2 2.86 7.9  60 0.20 0.15 0.00 10.2 5.3

PCA variáveis ambientais (padronizadas)

## 
## Call:
## rda(X = env, scale = TRUE) 
## 
## Partitioning of correlations:
##               Inertia Proportion
## Total              11          1
## Unconstrained      11          1
## 
## Eigenvalues, and their contribution to the correlations 
## 
## Importance of components:
##                           PC1     PC2     PC3     PC4     PC5     PC6
## Eigenvalue            5.96875 2.16382 1.06516 0.73873 0.40027 0.33565
## Proportion Explained  0.54261 0.19671 0.09683 0.06716 0.03639 0.03051
## Cumulative Proportion 0.54261 0.73932 0.83616 0.90331 0.93970 0.97022
##                           PC7     PC8      PC9     PC10      PC11
## Eigenvalue            0.17266 0.10821 0.023679 0.017068 0.0059932
## Proportion Explained  0.01570 0.00984 0.002150 0.001550 0.0005400
## Cumulative Proportion 0.98591 0.99575 0.997900 0.999460 1.0000000
## 
## Scaling 2 for species and site scores
## * Species are scaled proportional to eigenvalues
## * Sites are unscaled: weighted dispersion equal on all dimensions
## * General scaling constant of scores:  4.2261769 
## 
## 
## Species scores
## 
##           PC1      PC2       PC3       PC4       PC5       PC6
## das  1.086683  0.53400 -0.273263 -0.134770  0.073889 -0.225670
## alt -1.043832 -0.61486  0.207189  0.128504  0.146482 -0.021130
## pen -0.577018 -0.48934 -0.634866 -0.716856  0.333330  0.118149
## deb  0.958415  0.66083 -0.324571 -0.161884  0.115627 -0.139366
## pH  -0.063666  0.46293  1.013182 -0.586030  0.171009 -0.073438
## dur  0.901170  0.58506  0.064448  0.256908  0.309438  0.534188
## pho  1.058235 -0.60135  0.138665 -0.178835 -0.111324  0.137306
## nit  1.150140 -0.10045 -0.051658 -0.245379 -0.351095 -0.021764
## amm  1.006793 -0.69691  0.140816 -0.146807 -0.192129  0.118921
## oxy -0.974608  0.49906 -0.090180 -0.310408 -0.380973  0.364585
## dbo  0.973177 -0.71481  0.151467  0.071952  0.236246  0.055671
## 
## 
## Site scores (weighted sums of species scores)
## 
##          PC1       PC2       PC3       PC4         PC5        PC6
## 1  -1.412698 -1.401152 -2.034722 -2.677650  1.11673875  0.1860734
## 2  -1.037215 -0.779602  0.244033  0.256440 -1.19003559 -1.8512029
## 3  -0.945045 -0.467679  1.250462 -0.493210 -0.23283417 -1.3195291
## 4  -0.873692 -0.269890  0.193020  0.519808 -0.49439688  0.1153271
## 5  -0.420855 -0.669421  0.831907  0.717339  0.86758597  0.1132270
## 6  -0.772213 -0.720701 -0.073569  0.779084 -0.38531061 -0.6547815
## 7  -0.774646 -0.081032  0.396279  0.192216  0.41580600  1.0265252
## 8  -0.288383 -0.605873  0.838216  1.014449  1.70675451  0.2979510
## 9  -0.283046 -0.477093  0.399071  1.130781  0.88198972  0.0040417
## 10 -0.487148 -0.418648 -1.275562  0.902667  0.01321712  0.5422987
## 11 -0.269431  0.453843  0.091159 -0.151296 -0.23480231  1.1570670
## 12 -0.438373  0.360468 -0.523553  0.572792 -0.65061744  0.8167971
## 13 -0.377972  0.703791  0.103347  0.061253 -0.10265779  1.3763206
## 14 -0.238824  0.755227  0.836465 -0.558224 -0.01255573  1.2210474
## 15 -0.304293  0.950252  1.802755 -1.482065  0.13495867  0.0318147
## 16 -0.133577  0.339477 -0.232525  0.191803 -0.66733849  0.2267112
## 17  0.101462  0.324409 -0.204234  0.184576 -0.67772435  0.3644196
## 18  0.069479  0.379738 -0.259243  0.069606 -0.85237455  0.2882579
## 19  0.057406  0.439108  0.045687 -0.321672 -0.89928067 -0.0917605
## 20  0.174726  0.399209 -0.362409 -0.156440 -1.30052261 -0.0947180
## 21  0.168661  0.355012 -0.738242  0.428282 -0.50941887 -0.6516014
## 22  0.148920  0.553298 -0.080044 -0.049661  0.19708623 -0.6213626
## 23  1.397730 -1.191089  0.664403 -0.461629  0.25225050  0.5740027
## 24  0.993519 -0.520439  0.071955  0.480985  1.06876696 -0.3723995
## 25  2.219968 -2.031736  0.179621 -0.525926 -1.14855670  0.7854695
## 26  0.894626 -0.103109 -0.615457  0.419581  0.34513545 -0.8030081
## 27  0.648591  0.412851 -0.174352 -0.261000  0.27549886 -1.2585968
## 28  0.770921  0.825830  0.433968 -1.000902 -0.00094461 -0.7033312
## 29  0.664053  1.115509 -1.580402  0.650893  0.65078091 -0.0196960
## 30  0.747346  1.369444 -0.228034 -0.432877  1.43280170 -0.6853640

PCA resultados

Componentes principais: são as combinações lineares das variáveis, eixos ortogonais (independentes) que resumem (explicam) a variação dos objetos
Autovalores (eigenvalues): medida de importância (variância) dos componentes principais (eixos) e traz a porcentagem de explicação de cada eixo.
Autovetores (eigenvectors): coeficientes de combinação linear, medem a importância de uma variável em cada eixo.
Escores (Z1, Z2, Zn): posição das unidades amostrais ao longo de um eixo de ordenação, pode se referir tanto à unidades amostrais quanto à variáveis. Escores são fornecidos pela substituição dos valores assumidos pelas variáveis originais nas combinações lineares. São utilizados para ordenar as unidades amostrais em um diagrama uni, bi ou tridimensional.

Summary PCA

Species scores: coordenadas das pontas das setas das variáveis. Por razões históricas, as variáveis resposta são sempre chamadas de 'species' no vegan , não importando o que representam (nesse caso as variáveis ambientais).
Site scores: coordenadas dos locais no diagrama de ordenação. Os objetos são sempre chamados de 'sites' no vegan, e nesse caso são os locais mesmo (mas poderiam ser outras coisas).

Autovalores PCA

selecionando os eixos mais importantes
método Broken Stick:
- quebrar um bastão de comprimento X em N pedaços aleatóriamente
- X - inertia total
- N - número de eixos do PCA

Autovalores PCA

screeplot(pca1)
points(bstick(pca1), col="red", type='o')

Plotando os resultados da PCA

escala 1 (scaling 1): ótima para observar as relações entre os objetos (locais). As distâncias entre os objetos no biplot são aproximações das distâncias euclidianas no espaço multidimensional.
escala 2 (scaling 2) ótima para observar as relações entre as variáveis. Os ângulos entre as variáveis no biplot reflete suas correlações.

Plotando os resultados da PCA

PCA em matriz de espécies

transformação de Hellinger:
- dividir as abundâncias de cada espécie em um local pela abundância total do local (linhas) e a raiz quadrada
- reduz o a importância de grandes abundâncias na distância euclidiana.
Pode ser usada também para dados binários presença/ausência

PCA em matriz de espécies

# Transformando os dados
spe.h <- decostand(spe, "hellinger")
spe.h.pca <- rda(spe.h)
summary(spe.h.pca)

## 
## Call:
## rda(X = spe.h) 
## 
## Partitioning of variance:
##               Inertia Proportion
## Total         0.50234          1
## Unconstrained 0.50234          1
## 
## Eigenvalues, and their contribution to the variance 
## 
## Importance of components:
##                           PC1      PC2      PC3      PC4      PC5      PC6
## Eigenvalue            0.24913 0.065915 0.046154 0.037232 0.021248 0.016622
## Proportion Explained  0.49594 0.131220 0.091880 0.074120 0.042300 0.033090
## Cumulative Proportion 0.49594 0.627150 0.719030 0.793150 0.835440 0.868530
##                           PC7      PC8     PC9      PC10      PC11
## Eigenvalue            0.01477 0.012973 0.01054 0.0066655 0.0050403
## Proportion Explained  0.02940 0.025820 0.02098 0.0132700 0.0100300
## Cumulative Proportion 0.89794 0.923760 0.94474 0.9580100 0.9680400
##                            PC12      PC13      PC14      PC15      PC16
## Eigenvalue            0.0042581 0.0027666 0.0026123 0.0015049 0.0013872
## Proportion Explained  0.0084800 0.0055100 0.0052000 0.0030000 0.0027600
## Cumulative Proportion 0.9765200 0.9820300 0.9872300 0.9902200 0.9929900
##                            PC17       PC18       PC19       PC20
## Eigenvalue            0.0010375 0.00078148 0.00047491 0.00042632
## Proportion Explained  0.0020700 0.00156000 0.00095000 0.00085000
## Cumulative Proportion 0.9950500 0.99661000 0.99755000 0.99840000
##                             PC21       PC22       PC23       PC24
## Eigenvalue            0.00028123 0.00021884 0.00013824 8.7605e-05
## Proportion Explained  0.00056000 0.00044000 0.00028000 1.7000e-04
## Cumulative Proportion 0.99896000 0.99940000 0.99967000 9.9985e-01
##                             PC25       PC26       PC27
## Eigenvalue            5.3364e-05 1.4757e-05 9.2163e-06
## Proportion Explained  1.1000e-04 3.0000e-05 2.0000e-05
## Cumulative Proportion 9.9995e-01 9.9998e-01 1.0000e+00
## 
## Scaling 2 for species and site scores
## * Species are scaled proportional to eigenvalues
## * Sites are unscaled: weighted dispersion equal on all dimensions
## * General scaling constant of scores:  1.9536626 
## 
## 
## Species scores
## 
##           PC1       PC2        PC3         PC4        PC5         PC6
## CHA  0.171131  0.086689 -0.0607721  0.25369413 -0.0277739  0.01297088
## TRU  0.640968  0.021931 -0.2328947 -0.14290531 -0.0591501  0.00132987
## VAI  0.511058  0.197736  0.1650532  0.02033643  0.1055821  0.12265076
## LOC  0.380020  0.222191  0.2351454 -0.03445770  0.1265700  0.05704372
## OMB  0.166788  0.064938 -0.0872476  0.24442473  0.0163491  0.05373617
## BLA  0.076441  0.147073 -0.0411522  0.23047544 -0.1049841 -0.04249435
## HOT -0.183918  0.052377 -0.0429633  0.02226758  0.0713485  0.02999738
## TOX -0.146010  0.178441 -0.0295606  0.06229572 -0.0026153 -0.08392823
## VAN -0.114872  0.181859  0.1251131 -0.01904566 -0.1975431  0.02537347
## CHE -0.097917 -0.088727  0.2818868  0.10944473  0.0274181 -0.01536112
## BAR -0.197703  0.211437 -0.0720345  0.09567021  0.0057388 -0.03099831
## SPI -0.176179  0.161583 -0.0485271  0.03871722  0.0314166 -0.05356350
## GOU -0.230963  0.122477  0.0625747 -0.00252675 -0.1440066  0.14207018
## BRO -0.151287  0.142419  0.0283780 -0.12068783 -0.0964879  0.07294183
## PER -0.156986  0.191448  0.0347003 -0.09694867 -0.0415122 -0.04839578
## BOU -0.227343  0.135813 -0.0740108 -0.01114310  0.0800272 -0.00196563
## PSO -0.226704  0.083482 -0.0672117  0.01981786  0.0632374  0.01441381
## ROT -0.191131  0.035779 -0.0076725 -0.07244301 -0.0702061  0.06860395
## CAR -0.186088  0.130505 -0.0636926  0.00057767  0.0395538 -0.02845752
## TAN -0.191379  0.175819  0.0943977 -0.08673170  0.0109119 -0.08519245
## BCO -0.200552  0.083316 -0.0747866 -0.05048749  0.0738895  0.02498417
## PCH -0.146260  0.052684 -0.0720118 -0.04325718  0.0503177  0.01787763
## GRE -0.299696 -0.011581 -0.0690469 -0.01184881  0.0299366  0.14076976
## GAR -0.350847 -0.093525  0.1986636  0.01786689  0.0237964 -0.09713620
## BBO -0.241674  0.035978 -0.0795284 -0.03390491  0.0966900  0.06209795
## ABL -0.422691 -0.228787  0.0071578  0.11283535  0.0067590  0.12489132
## ANG -0.205214  0.115565 -0.0720598 -0.01599021  0.0720296 -0.00038014
## 
## 
## Site scores (weighted sums of species scores)
## 
##          PC1       PC2        PC3       PC4        PC5        PC6
## 1   0.370801 -0.491130 -1.0184113 -0.583865 -0.4916719 -0.6220622
## 2   0.507019 -0.056877 -0.1759688 -0.424183  0.4077903  0.1607254
## 3   0.464652  0.029374 -0.0673602 -0.495659  0.3243394  0.3130535
## 4   0.299434  0.190368  0.2413153 -0.545381  0.0098383  0.1979740
## 5  -0.003672  0.134827  0.5157228 -0.536403 -0.7961827 -0.2085537
## 6   0.212943  0.161419  0.5381077 -0.443660 -0.1385534 -0.0661956
## 7   0.440596 -0.018530  0.1747820 -0.313357  0.1717131  0.1311723
## 8   0.032182 -0.534919 -0.3542889 -0.078705 -0.1252875 -0.6325920
## 9   0.040265 -0.335895  0.9370355  0.067148  0.6107627 -0.8280397
## 10  0.299210  0.060612  0.5645728 -0.122003 -0.0912608  0.4613495
## 11  0.470590 -0.102330 -0.1000203  0.311663  0.3439973  0.2172884
## 12  0.479878 -0.057418 -0.1175758  0.309648  0.3759233  0.1910668
## 13  0.486974  0.036982 -0.4291376  0.558127  0.0500554  0.1107580
## 14  0.373684  0.166164 -0.2096669  0.633672 -0.1810286  0.2896134
## 15  0.277984  0.258147  0.0751618  0.613821 -0.4901321  0.0265479
## 16  0.076037  0.485066  0.1024278  0.327022 -0.5987080 -0.5518878
## 17 -0.056099  0.440269 -0.0083156  0.420399 -0.0636194 -0.4229024
## 18 -0.138360  0.400557  0.0061086  0.395576 -0.0050062 -0.2026732
## 19 -0.273219  0.334358  0.1446021  0.083183  0.1765673  0.0235735
## 20 -0.383501  0.214407  0.0309174 -0.037499  0.1610326 -0.0094090
## 21 -0.414203  0.226758 -0.1102831 -0.128032  0.1563092  0.0888634
## 22 -0.448647  0.166644 -0.1590170 -0.129417  0.1030493 -0.0080444
## 23 -0.244257 -1.039895  0.3453127  0.428355  0.0629314 -0.3787212
## 24 -0.361605 -0.788256 -0.0076258  0.305777  0.2220018  0.5282737
## 25 -0.328522 -0.569138  0.2116365  0.022708 -1.0124653  0.8294809
## 26 -0.446605  0.025511 -0.1263056 -0.135384  0.2130130  0.2263298
## 27 -0.449471  0.119107 -0.1706553 -0.136373  0.1826803  0.0724949
## 28 -0.451333  0.115481 -0.2005222 -0.149061  0.2427525  0.0552700
## 29 -0.360249  0.266928 -0.2992339 -0.010053  0.1206239  0.1018023
## 30 -0.472505  0.161409 -0.3333149 -0.208065  0.0585347 -0.0945564