Visão Estéreo

 

Júlio M. Otuyama

Curso de Visão Computacional

Prof. Aldo von Wangenheim

Pós graduação em Ciência da Computação

Universidade Federal de Santa Catarina

 

 

 

1. Introdução

Visão estéreo é o ramo da visão computacional que analisa o problema da reconstrução da informação tridimensional de objetos a partir de um par de imagens capturadas simultaneamente, mas com um pequeno deslocamento lateral.

Os seres humanos, entre outros animais, possuem um par de olhos localizados na parte frontal da cabeça, o que resulta na aquisição de duas imagens do mundo externo com um pequeno deslocamento lateral. Tal deslocamento gera pequenas diferenças entre as imagens, quase imperceptíveis quando observadas separadamente. Mas são justamente estas pequenas diferenças que nos permitem ter uma viva percepção tridimensional do mundo externo. Definimos par estéreo como o par de imagens capturadas simultaneamente com um pequeno deslocamento de posição da câmara.

Comentário: Na natureza, há muitos animais que possuem um par de olhos localizados na parte frontal da cabeça. Tal característica é típica de caçadores, tal como leões, gatos, gaviões, corujas. Isto é importante para sobrevivência de sua espécie pois tais animais precisam de uma correta percepção da distância da presa, o que representa o sucesso ou fracasso na captura da caça. Por outro lado, animais que tipicamente são presas de caçadores, tais como coelhos, gazelas ou roedores, têm olhos posicionados lateralmente, o que não lhes dá uma boa percepção de distância, mas lhes permite observar continuamente praticamente tudo que há em sua volta para, ao menor sinal de perigo, bater em retirada.

fig. 1 Exemplo de par estéreo. Para ter a percepção tridimensional do par estéreo, seu olho direito deve mirar a imagem direita e seu olho esquerdo deve mirar a imagem esquerda. A sensação resultante é a de se observar apenas uma imagem, com uma nítida sensação de volume dos objetos. Outras formas de se visualizar pares estéreos baseiam-se em equipamentos como o stereoscope, óculos com polarizadores e outros.

A partir de duas câmaras posicionadas de forma adequada, com suas posições e direcionamentos conhecidos, é possível determinar-se a posição de qualquer ponto neste espaço, desde que este ponto possa ser localizado dentro de cada uma das imagens capturadas pelas câmaras. Por isso, é necessário que haja uma região comum, de proporção razoável, aparecendo em ambas imagens. A determinação da posição de um ponto dentro deste espaço pode ser obtida por triangulação. Definimos stereopsis como a capacidade de determinação da distância de profundidade baseado na informação de um par estéreo.

fig. 2 Determinação da posição de um ponto por triangulação, a partir de uma par de imagens estéreo.

O maior problema para reconstrução da informação tridimensional a partir de um par estéreo está no fato de capturarmos imagens de uma infinidade de pontos distintos. Muitos destes pontos muitas vezes tem intensidade luminosas exatamente iguais. Outros podem aparecer em uma das imagens e não aparecer na outra, tal quando estão escondidos parcialmente atrás de algum objeto. Estes, entre outros fatores, dificultam ou mesmo tornam impossível a determinação do pareamento exato de cada ponto em uma imagem e seu correspondente na outra. A este problema chamamos de "casamento estéreo".

fig. 3 A construção de um algoritmo que determine os pontos correspondentes em cada uma das imagens do par estéreo é o problema principal analisado na visão estéreo. Um estereograma de pontos randômicos exemplifica a situação na qual há apenas dois tons em toda a imagem. Apesar de cada ponto preto poder ser pareado com qualquer ponto preto da outra imagem, ao se visualizar o estereograma, nosso cérebro consegue identificar corretamente todos os pareamentos dos pontos.

Um conceito muito utilizado dentro dos problemas de visão estéreo é a disparidade de um ponto em um par estéreo. Analisando mais detalhadamente um par estéreo, se tomarmos como referência um ponto que possa ser localizado em ambas imagens, todos os outros pontos que localizarmos em ambas imagens podem ser comparados ao primeiro tomado como referência, comparação esta que supõe-se ser a base da stereopsis no córtex visual.

fig. 4 Fusão das imagens de um par estéreo para analisar disparidades.

Observando a fig. 4 notamos regiões que se casam sem nenhum deslocamento, enquanto outras possuem deslocamento horizontal para direita ou para esquerda. Tais deslocamentos horizontais são decorrentes do fato de alguns objetos estarem mais próximos ou distantes, em relação ao local de captura das imagens. A rigor, as disparidades dependem do ângulo formado pela posição das câmaras com o vértice localizado no ponto analisado, mas a distância ao ponto de captura das imagens é uma aproximação boa o suficiente para iniciarmos nossa análise. Objetos que tem igual distância ao local de captura das imagens possuem disparidades iguais. Objetos que estão mais distantes ao local de captura das imagens possuem uma disparidade maior; por outro lado objetos que estão mais próximos do local de captura das imagens possuem uma disparidade menor. Isto pode ser visualizado facilmente com a análise por triangulação.

fig. 5 Triangulação de três pontos para exibir as diferenças de disparidades.

Comentário: Os princípios de disparidade e stereopsis foram enunciados pela primeira vez em 1838 por Sir Charles Wheatstone, o mesmo inventor da ponte de Wheatstone. Em seu artigo, Wheatstone descreve como Leonardo da Vinci quase descobriu tais princípios. Leonardo atribuía a sensação de profundidade que resultava do uso de dois olhos ao fato de vermos um pouco além ao redor dos objetos, pela esquerda com o olho esquerdo e pela direita com o olho direito. Como exemplo de um objeto sólido, ele escolheu uma esfera - ironicamente o único objeto cuja forma permanece a mesma quando vista de direções distintas. Wheatstone observa que se Leonardo tivesse escolhido um cubo ao invés de uma esfera ele teria percebido com certeza que as duas projeções das retinas são diferentes, e que estas diferenças envolviam deslocamentos horizontais.