ine 5376/79

Programa

Links

Bibliografia

Plano de Ensino

Reconhecimento de Padrões 

3. Técnicas Subsimbólicas: Redes Neurais

Parte III - Agrupadores: Aprendizado Não-Supervisionado

Parte I:

3.1. Filosofia Geral da Aplicação do Raciocínio Subsimbólico a Padrões: Redes Neurais Aprendendo Dados, Classificadores e Agrupadores
3.2. O Simulador SNNS - Stutgarter Neural Network Simulator
3.3. Classificadores: Usando Aprendizado Supervisionado para Reconhecer Padrões

Parte II:

3.4. Desenvolvimento de Aplicações: Usando Aprendizado Supervisionado

Parte III:

3.5. Agrupadores: Usando Aprendizado Não Supervisionado para Organizar Padrões
      3.5.1. O Modelo de Kohonen e Quantização de Vetores
      3.5.2. Os Mapas Auto-Organizantes de Kohonen
               3.5.2.1. Mapas topográficos em Áreas Sensoriais

               3.5.2.2. Dados do Experimento
               3.5.2.3. Regras Baseadas em Mapas Semânticos
      3.6.1. Qualidades Matemáticas do Modelo de Kohonen

Parte IV:

3.7. Explorando Dados Agrupados em Redes
 
 


3.5. Agrupadores: Usando Aprendizado Não Supervisionado para Organizar Padrões

Já vimos anteriormente, quando discutimos o conceito de aprendizado indutivo, a diferença entre um classificador e um agrupador. As redes-BP vistas anteriormente são o exemplo mais consagrado de modelos de redes neurais atuando como classificadores: a classe a que pertence cada padrão é um dado intrínsico do conjunto de treinamento e o que queremos que seja aprendido é exatamente um mapeamento entre a informação e a classe que associamos a ela de antemão.
Um outro grupo de problemas é aquele onde não sabemos de antemão a qual classe um padrão pertence nem quais são as classes em que o nosso problema se divide. Queremos que um mecanismo de reconhecimento de padrões seja capaz de detectar semelhanças entre padrões apresentados e que agrupe esses padrões durante o aprendizado de tal forma, que possamos utilizar o resultado do aprendizado de duas maneiras distintas: 

 
a) como uma forma de abstração dos padrões apresentados, onde associamos cada grupo "descoberto" pelo método a uma classe ou categoria e 
b) como um classificador auto-organizante, onde podemos utilizar a informação codificada durante o agrupamento dos padrões em categorias como mecanismo de classificação de novos padrões, apresentados em um estágio posterior.
A forma mais tradicional de se realizar esta tarefa é através da utilização dos métodos da Estatística Multivariada, principalmente da Análise de Agrupamentos e da Análise de Discriminantes. Estas são técnicas desenvolvidas mais ou menos durante a década de 1950 e possuem algumas limitações e algumas vantagens. Veremos isto no capítulo correspondente.
No campo das redes neurais existem três modelos clássicos de redes neurais que podem funcionar como agrupadores: Competitive Learning, os Mapas Auto-Organizantes de Kohonen - SOM e os modelos baseados na Teoria da Ressonância Adaptativa - ART. Desses três modelos, o modelo de Kohonen, também conhecido como Rede de Kohonen é o modelo matematicamente mais elegante e também o de maior aplicação prática. É este modelo que nós vamos ver como exemplo de agrupadores neurais nesta disciplina. 

3.5.1. O Modelo de Kohonen e Quantização de Vetores

O pesquisador finlandês Teuvo Kohonen possui uma longa história de pesquisas no campo de modelos para descoberta de interrelacionamentos intrínsecos em distribuições de padrões, que se iniciou com pesquisas na área da Análise de Componentes Principais e quantização de atributos em conjuntos de vetores (pesquisa descrita em seu primeiro livro na área) e foi evoluindo no sentido de tentar descrever modelos cada vez mais plausíveis do ponto de vista biológico. O objetivo de suas pesquisas, na década de 1980, passou a ser o de descobrir um modelo de auto-organização de informações em um processo de aprendizado indutivo capaz de ser usado como modelo para o aprendizado e organização de informações no neocórtex cerebral de um animal superior [Koho88]. 
O modelo deveria ser capaz de explicar como estímulos similares são aprendidos e agrupados em áreas próximas no cérebro de um animal e levam a uma posterior categorização desses estímulos e à fomação subseqüente de um modelo de mundo, criando uma explicação implícita do que foi percebido através dos agrupamentos de estimulos relacionados em categorias na memória e realizando o processo inteligente da abstração. 
Estas pesquisas foram inspiradas nas descobertas que as neurociências estavam realizando sobre o fato de que conceitos similares parecem estar representados em áreas próximas no cérebro humano e que essa localização espacial deveria ser uma característica do aprendizado. Em função desse objetivo inspirado em modelos biológicos de aprenidzado, o modelo de Kohonen é talvez o modelo de rede neural mais próximo de um modelo de aprendizado biológico 1
Kohonen publicou vários artigos sobre o seu modelo, cada qual descrevendo-o sob aspectos um pouco diferentes. Talvez o mais importante desses artigos, e um dos menos conhecidos, seja o artigo publicado por Kohonen e Helge Ritter, da Universidade de Munique, em 1989 na revista Biological Cybernetics [KR89]. Neste artigo eles descrevem o modelo em detalhes, explicando o conceito de vizinhança e da função de vizinhança e aplicam o modelo a dois exemplos, um de aprendizado indutivo de conceitos e outro de aprendizado lingüístico. É o único artigo escrito por Kohonen onde a função de vizinhança é discutida em detalhes. O fato de esta revista na época ser lida quase exclusivamente por um público de biólogos e ciberneticistas, tornou a função de vizinhança utilizada por Kohonen um dos aspectos menos conhecidos de seu modelo e em muitos livros sobre redes neurais essa função sequer é citada. 

Consideramos o artigo de Kohonen e Ritter um marco tão importante na história das redes neurais e uma explicação tão perfeita sobre o modelo, que vamos reproduzi-lo aqui na íntegra, através da sua tradução para o Português realizada por Maricy Caregnato e Emerson Fedechen, do CPGCC da UFSC. Esta tradução será entremeada de comentários nossos e de exemplos de reprodução dos experimentos de Kohonen e Ritter com o SNNS.

3.5.2. Os Mapas Auto-Organizantes de Kohonen

Teuvo Kohonen e Helge Ritter


Biological Cybernetics, 61, 241-254, Elsevier, Amsterdam, 1989

Tradução: Maricy Caregnato e Emerson Fedechen, CPGCC, UFSC.

Resumo
A formação auto organizável de mapas topográficos para dados abstratos, tais como palavras, está demonstrada neste trabalho.Os relacionamentos semânticos nos dados são refletidos por suas distancias relativas no mapa. Duas simulações diferentes baseadas em modelos de redes neurais que implementam o algoritmo de mapas de atributos auto organizáveis são demonstrados. Para ambas o novo ingrediente essencial é a inclusão de contexto no qual cada símbolo aparece dentro de dados de entrada. Isto habilita a rede neural a detectar a "similaridade lógica" entre palavras na estatística de seus contextos. Na primeira demonstração o contexto simplesmente consiste de um conjunto de valores de atributos que ocorrem em conjunção com as palavras. Na segunda demonstração, o contexto é definido pelas seqüências nas quais as palavras ocorrem, sem considerar nenhum dos atributos associados. Proposição verbal simples consiste de substantivos, verbos e advérbios tem sido analisados dessa forma. Frases ou cláusulas envolvem algumas dessas abstrações que aparecem no pensamento, isto é, a categoria mais comum, nas quais as palavras são agrupadas automaticamente em ambas simulações. Também argumentamos que um processo similar pode estar no funcionamento do cérebro.
Hipóteses sobre a representação interna de Elementos da lingüística e estruturas
Um dos problemas mais intrigantes na teoria de redes neurais artificiais e biológicas , é dimensionar um simples sistema adaptativo para tornar-se hábil a encontrar abstrações, invariâncias, e generalizações de dados crus.
Muitos resultados interessantes em reconhecimento de padrões (percepção artificial de imagens, acústica, e outros padrões) já tem sido obtido. Extração de atributos de elementos de dados relatados geometricamente ou fisicamente, contudo, ainda é tarefa muito concreta, pelo menos no princípio. Um objeto de estudo quanto mais abstrato e enigmático processa informação cognitiva que divide com elementos de conhecimento e seus relacionamentos; isto é freqüentemente identificado com a capacidade de usar linguagens. O propósito do presente trabalho é estudar se isto é possível para criar abstrações em redes neurais artificiais, tal que elas, pelo menos na forma primitiva, refletiriam algumas propriedades de representações cognitivas e lingüísticas e relações.
Em particular estamos mostrando aqui novos resultados que demonstram que um processo auto organizável está realmente apto a criar uma rede neural topograficamente ou geometricamente organizando mapas que mostram relações semânticas entre dados simbólicos. Isto pode ser adequado para chamadas como representações de mapas semânticos auto organizáveis.
Estamos relatando nossos resultados para a base fundamental da cognição , chamada, categorização de observações. Como as conexões dessas idéias de teorias fundamentais de conhecimento podem por outro lado permanecerem obscuras, isso pode ser próprio para começar com uma pequena revisão de um fundo filosófico, chamada, a teoria das categorias como o último framework de abstração.
Categorias e suas relações para representações neurais e lingüísticas 
Os conceitos mais gerais de abstração que são necessários para representar o mundo empírico são chamadas categorias; elementos de redução básica e formas de pensamento e comunicação podem também ser encontrados em todas as linguagens primitivas como também as mais desenvolvidas.
As categorias estão supostas a abranger todo o domínio de conhecimento, e parta formar as bases de conhecimento. Aristóteles de fato já distinguiu dez categorias. As mais comuns de todas são: 1) Itens (objetos), 2) Qualidades (propriedades) 3) Estados (ou mudanças de estado) 4) Relacionamentos (espacial, temporal e outros).
Nas linguagens a categoria 1 corresponde aos substantivos, a categoria 2 aos adjetivos, e categoria 3 aos verbos. Para a representação da categoria 4, diferentes linguagens usam advérbios, preposições, pós posições , pontos finais, inflexões, ou sintaxe (ordem das palavras). Naturalmente muitas classes de palavras auxiliares são necessárias para inter relatar frases e cláusulas, para indicar modalidades lógicas, como também para facilitar inferência dedutiva e indutiva.
O profundo significado original metafísico de "categoria" foi perdido no uso comum desta palavra. "Categorias" são freqüentemente identificadas como classes de itens como animais , plantas, etc. Mais exatamente tais classes somente constituem subcategorias da Categoria1.

Desde que representações de categorias ocorreram em todas as linguagens, muitos recursos tem estipulado que os elementos semânticos mais profundos de uma linguagem podem ter uma representação fisiológica em um domínio neural; e se eles são independentes de uma história cultural diferente, isso conclui que tais representações devem ser herdadas geneticamente.

Na época que a predisposição genética de elementos de linguagem foi sugerida, não havia mecanismo conhecido que teria explicado as origens das abstrações em informações neurais processada outra então evolue.. Isto não foi desde que a modelagem "redes neurais" alcançasse o nível presente quando pesquisadores começaram a descobrir de propriedades abstratas de representações internas dos sinais de modelos na rede física. Lá existe pelo menos duas classes de modelos com este potencial: a rede backpropagation e a map self-organizing. O encontrado indica que as representações internas de categorias podem ser deriváveis de relações e regras mútuas de um sinal primário ou elementos de dados.

Contudo o propósito deste paper não é afirmar que todas as representações no cérebro biológico somente são adquiridas pelo aprendizado. Os princípios adaptativos discutidos abaixo podem ser considerados como frameworks teóricos, e a primeira faze do aprendizado é a forma mais simples. É totalmente possível que um processo similar esteja trabalhando em um ciclo genético, por outro lado esses mecanismos explícitos são difíceis para imaginar.

Isso agora será próprio para abordar o problema de mapas semânticos auto organizáveis usando dados que contém informações implícitas relatando simples categorias; se mais tarde forem detectados automaticamente , podemos pensar que o passo significante em direção ao processamento lingüístico auto organizável foi feito.

Um aspecto pode ser ainda enfatizado. Isso talvez não seja razoável para procurar por elementos de linguagens no cérebro. A visão mais fundamental é que as funções fisiológicas são esperadas para refletir a organização categórica e não tanto as formas lingüísticas detalhadas.

Exemplos de modelos de redes neurais para representações internas
Redes semânticas. 
Para a materialização reta de representações internas a rede semântica foi sugerida. Na sua forma original elas compreendem uma estrutura gráfica com nodos e links. Os nodos podem ser itens ou conceitos (grupos de atributos), enquanto os links indicam relações: as mais simples relações binárias representam as co-ocorrências de itens em eventos observados, links rotulados descrevem suas relações qualificadas. As redes semânticas supostamente tem a contrapartida um por um em células neurais e suas interconexões. Por onde um processo de busca seria interpretado como ativação expansiva nessa rede neural. Na visão neurofisiológica contemporânea dado como grau de especificidade a resolução espacial é altamente improvável em biologia. Mais um tem que compreender que modelos de rede neural do cérebro , significam semântica de predisposição para os nodos e links terem sido postulados; como um "mapeamento " não é derivado de nenhum processo auto organizável.
Camadas internas em redes-BP
Se na atualidade famílias de redes neurais "feedforward" com errros de propagação de fundo significa que podem ser considerados como modelos biológicos ou não, células ou nodo nas suas camadas escondidas freqüentemente parecem aprender respostas que são específicas para algumas qualidades abstratas de informações de entrada. Contudo, deve ser enfatizado que a propagação de fundo é crucialmente baseado em aprendizado supervisionando. O estímulo de saída em relação ao de entrada, são forçados para dar valores por otimização de parâmetro de pesos internos dos nodos na rede . Em uma rede multi-nível com dados estruturados pode acontecer que para alcançar a otimização global , alguns nodos de camadas internas tornam-se afinados para representar alguns tipos de "eigendata" de sinais que ocorrem, que representam a "generalização" ou "abstrações ". Foi demonstrado recentemente que os pesos de vetores da camada escondida podem convergir para valores que codificam itens lingüísticos de acordo com suas regras semânticas . Essas regras estão definidas explicitamente no processo de aprendizagem.

Mapas de auto organização (características topológicas)

A forma mais genuína de auto organização é o aprendizado competitivo que tem a capacidade de encontrar agrupamentos das informações primárias , eventualmente em modo de organização hierárquica. Em um sistema de características de células sensitivas o aprendizado competitivo significa que um número de células está comparando os mesmos sinais de entrada com seus parâmetros internos , e a célula com o melhor competidor (winner) é então auto ajustada a esta entrada. Desta forma diferentes células aprendem diferentes aspectos da sua entrada , que podem ser considerados como a mais simples forma de abstração.O mapa de auto organização é um adiantado desenvolvimento do aprendizado competitivo em que a célula de melhor entrada também ativa seus vizinhos topográficos na rede para fazer parte no afinamento da mesma entrada. Um acerto, não significa resultado óbvio coletivo , o aprendizado coletivo assume a rede neural como uma falha de duas dimensões. As diferentes células tornam-se ajustados a diferentes entradas em uma moda ordenada , definindo características de sistemas de coordenadas através da rede. Após o aprendizado, cada entrada obtém uma resposta localizada , qual posição no papel reflete a mais importante "coordenada característica"da entrada. Isso corresponde a uma projeção não linear do espaço de entrada na rede que faz a melhor relação de vizinhança entre elementos explícitos geometricamente. Particularmente se os dados são agrupados hierarquicamente , uma representação muito explícita está localizada na mesma estrutura gerada. Enquanto mapas auto organizáveis como foram usados para muitas aplicações para visualizar dados agrupados , muitas possibilidades intrigantes são diretamente possíveis de criar um processo de representação topográfica da semântica de relação não métrica implicando em dados lingüísticos.

As funções de processamento da informação estão localizadas no cérebro? Justificação do modelo.
Contra retirada geral e a favor da localização
Geralmente a psicologia comportamental enfatiza a natureza globall e holística do mais alto processamento de informações humana. Algum procura neurofisiológica encontradas realmente precisa suportar essa visão. Distribuição de resultados de aprendizagem na massa celular do cérebro foi descoberta em experimentos clássicos de de Lashley em 1938, que por um longo tempo o cérebro foii interpretado como sendo uma caixa preta com mais ou menos componentes eqüipotenciais que podem ser repassados aos outros. Uma visão extrema carrega todas as tentativas para isolar e localizar funções cognitivas no cérebro como uma maneira moderna de fenologia.
È verdade que em um processo que conduz a percepção ou ação, muitas partes do cérebro estão envolvidas em uma iteração ou moda recursiva. Isto contudo, poderia ser dito de algum dispositivo ou mecanismo que foi designado para representar uma tarefa particular, , e precisa da cooperação de todos estes componentes. Contudo, isso seria absurdo negar, na visualização de dados neurofisiológicos, o cérebro contém partes, redes, e mesmo simples células neurais que representam funções parciais específicas. Lá existem registros de vários tipos de células de atributos sensitivos ou lugares que respondem a qualidades específicas de estímulo sensorial, e o neurônio motor que controla músculos particulares são localizados certamente. As funções globais obviamente seguem da cooperação de componentes muito grandes desse tipo. A quantia de paralelismo e redundância no processamento podem ser enormes. No resto da questão somente interessa o grau ou perspicácia da localização, como também uma organização hierárquica possível de tais funções localizadas.
Técnicas para determinar localização e suas críticas

No final do século IXX, a organização topográfica detalhada do cérebro, especialmente o cortex, já foi deduzível de déficits funcionais e falhas comportamentais que foram induzidas por vários tipos de defeitos causados acidentalmente, adequado para tumores, mal formações , hemorragias ou lesões causadas artificialmente . Uma técnica moderna causa lesões controláveis e reversíveis, é para estimular uma parte em particular na superfície cortical por pequenas correntes elétricas, através disso eventualmente induzem efeitos inibitórios e excitatórios, mas de qualquer forma uma função local assume um distúrbio. Se tal estímulo confinado globalmente então sistematicamente interrompe uma habilidade cognitiva específica tais como objetos, lá existe a menor indicação que o lugar correspondente é essencial para aquela tarefa. Esta técnica foi criticada freqüentemente pelo fato que carrega para todos os estudos nas lesões. Por outro lado uma lesão similar no mesmo lugar sempre causaria a mesma deficiência, e a mesma deficiência nunca foi produzida por um outro tipo de lesão, ela não é logicamente possível usar como dado como uma prova conclusiva para localização; a parte principal da função pode residir em outro lugar, enquanto a lesão pode destruir somente uma conexão do controle vital para ela. Hughlings Jackson já declarou "Para localizar os danos que destroem a fala e para localizar a fala são duas coisas diferentes "

Uma outra forma controlável para a determinação da localização é comprimir quimicamente ou herdar o processo que causa o engatilhamento dos neurônios , ou seja, usar pequenos retalhos embebidos em striquinina. Esta técnica foi usada com sucesso para mapear, isto é, funções sensoriais primárias.

O método mais simples é localizar uma resposta para armazenar o potencial ou encadeamento de impulsos neurais associados com ele. Apesar de desenvolver técnicas multi-eletródo geniais, este método não detectou todas as respostas em uma área desde que o encadeamento neural seja homogêneo , a união faz um neurônio particular ser mais eventual, especilamente de um sensor primário e de áreas associativas , foi feito por várias técnicas registradas eletrofisiológicamente. Evidencias mais conclusivas para localização podem ser obtidas por modernas técnicas imaginárias que mostram diretamente a distribuição espacial da ativação do cérebro associado com a função alcançando uma resolução espacial de alguns milímetros. Os dois métodos principais que são baseados em traçadores radioativos são eles: Positron Emission Tomography(PET), e auto radiografia do cérebro através de conjuntos de colimadores muito pequenos (câmara gama). PET revelam mudanças no uptake oxigênio metabolismo fosfato. O método de câmara gama detecta mudanças diretamente no fluxo sanguíneo cerebral. Os fenômenos correlate com a ativação neural local, mas eles não estão hábeis a seguir rapidamente os fenômenos. Em magnetoencephalography (MEG), o baixo campo magnético causado por respostas neurais é detectado, e por computação desses recursos, as respostas neurais podem ser diretamente ser analisada com razoável rapidez , com uma resolução espacial de junção de milímetros. A principal desvantagem é que somente tais dipoles atuais são detectáveis, as que estão em paralelo na superfície do crânio, isto é, principalmente o silco do córtex que pode ser estudado com este método.

Parece existir uma técnica não ideal que sozinha seria usada para mapear todas as respostas neurais. Ela é necessária para combinar estudos anatômicos, eletrofisiológicos, imaginários e histoquímicos.

3.5.2.1. Mapas topográficos em Áreas sensoriais

Genericamente, dois tipos de mapas fisiológicos são distinguíveis no cérebro: aqueles que soa claramente ordenados, e aqueles que são quase randomicamente organizados, respectivamente. Mapas que formam uma imagems contínuas ordenada de algumas "superfícies receptivas" podem ser encontradas na visão, e córtices somatosensoriais no cerebelo , e em certo núcleo. A escala local no fator de sublimação desses mapas depende da importância comportamental de sinais particulares , ou seja, imagens de parte foveal da retina , a ponta dos dedos e os lábios são sublimes em relação as outras partes. Há assim um mapeamento "quasiconformal"da "superfície" dentro do cérebro.Também há mais mapas abstratos, ordenados, contínuos em muitas outras áreas sensoriais primárias , tais como o tonotopic ou mapas de freqüência auditiva. Isso é uma característica comum de tais mapas que são confinados para uma área menor, raramente excedendo 5mm de diâmetro, como isso é justificado para usar o modelo dela no qual a rede total é assumida homogeneamente estruturada. Sobre uma área , um mapeamento espacialmente ordenado ao longo de uma ou duas dimensões de atributos importantes de um sinal sensorial é usualmente discernível. 

Fisiologistas também usam a palavra "mapa" para respostas não ordenadas para estímulos sensoriais contanto que estes sejam localizáveis espacialmente, até se eles forem randomicamente dispersos em cima de uma área de vários centímetros quadrados e muitos tipos diferentes de respostas forem encontrados na mesma área. Respostas visuais mais complexas encontradas em níveis mais altos são mapeadas desta forma: por instância, células foram detectadas respondendo seletivamente a faces.

Evidências para localização de função lingüística :

Foi conhecido no início do século que a afasia sensorial é causada por lesão nas parte superior e posterior do lobo temporal no cérebro chamada área de Wernicke; mas com técnicas modernas de tratamento de imagem somente uma localização muito mal feita de funções da linguagem tem sido possível. Praticamente toda a função sistemática de alta resolução mapeada foi feita por um método de simulação.

É muito mais difícil localizar lingüísticas em funções semânticas no cérebro do que para mapear as áreas sensoriais primárias. Primeiro, ele ainda não esta claro para quais aspectos da linguagem as dimensões características podem corresponder. Segundo, como foi notado recentemente como um mapeamento pode ser disperso.Terceiro, resposta para elementos lingüísticos podem somente ocorrer dentro "time windows". Quarto, as técnicas experimentais usadas em animais estudados sendo usualmente evasivos, não podem ser aplicados a seres humanos, a menos que exista indicação de uma operação cirúrgica. Contudo, o significado entre evidencias experimentais já é avaliável suportando a visão do grau mais alto da localização nas funções da linguagem. 

PET da imagem tem revelado que durante a tarefa de processar simples palavras , diversos lugares de cortes corticais são ativados simultaneamente. Estes não estão todos localizados na área de Wernicke :algumas partes do lobo frontal e as áreas associativas podem mostrar respostas simultaneamente também, especialmente em locais obviamente associados com percepção visual e auditiva , articulação e planejamento de tarefas. 

Ao invés de estudar representações internas , localização de lugares relacionados a processos semânticos precisam de melhor resolução ao invés de um milímetro tão difícil de registrar mesmo por estímulos de mapas, entretanto este método não pode detectar algum pico de atividade temporal, isso pode apenas produzir bloqueio temporário reversível do processo em uma região confinada a um milímetro quadrado. Estimulações repetidas da mesma área causa uma espécie de deficiência temporária , isto é, erros em nomear objetos, ou dificuldade em recolecionar da memória de padrões verbais curtas. Contudo, a estimulação de algumas outra áreas apenas 5mm já separados podem induzir tipos completamente diferentes de deficiência ou sem efeito algum. Adicionalmente estes são casos de pacientes bilíngües onde nomeados pelo mesmo objeto e prejudicado em apenas uma das linguagens dependendo da área que está sendo estimilada. Isso parece como se a função da linguagem fosse organizada como um mosaico de módulos localizados .

Outra evidência indireta para um mapeamento estruturado está disponível em diversos casos nas deficiências selecionadas como resultado de pancadas ou cérebros feridos. Exemplos incluem deficiências no uso de palavras concretas por abstratas , inamimado por animado ou deixando objetos e comida contra palavras animadas. Lá existe relatório bem documentado em impairements seletivos relatando quais subcategorias como objetos internos , partes do corpo, frutas, vegetais.

Análise de qual informação tem direcionado a conclusão que existe módulos separados no cérebro por uma "palavra lexicamente visual" e a palavra lexicamente fonética para reconhecimento da palavra em semântica léxica para o significado da palavra como uma saída léxica para palavras articuladas, respectivamente cada um desses módulos pode ser independentemente falho.

As falhas categoricamente relatadas acima parecem relatar danos causado seletivamente para a "léxica semântica ". Estas observações não podem prover evidências conclusivas para a localização de classes semânticas sem a léxica, porque em todos esses casos não foi possível avaliar a extensão espacial precisamente no tecido afetado no cérebro. Nonetheles isso parece justificado para aquele estado de falha seletiva em que um grande número de casos, seria muito difícil explicar se a organização semântica aparente da observação não estivasse em alguma forma ponderada no layout espacial do sistema.

Representação de dados topologicamente relacionados em um mapa auto organizável
Algum modelo sugerido para a formação auto organizável de representações internas (como células de características sensitivas) precisa também estar apto para fazer relações essenciais entre itens de dados explícitos. Uma forma intrigante de alcançar isso é a formação de mapas espaciais, que talvez sejam o local mais conhecido de representações.
Vários anos atrás , um dos autores (Kohonen) desenvolveu um modelo de adaptação neural capaz de fazer formação não supervisionada de mapas espaciais para vários tipos diferentes de dados. Nesta seção primeiro mostraremos o modelo de equação (simplificado) e então explicaremos como um mapa de estrutura preservada de dados relatados hierarquicamente é gerada por ele. Descrição mais detalhada do processo e seu fundamentos podem ser encontradas na publicação original e também alguns desenvolvimentos recentes (Kohonen 1982 a-c, 1984; Cotrell and Fort 1986; Ritter and Schulten 1986, 1988, 1989)
O modelo assume um conjunto de neurônios adaptativos interagindo lateralmente, geralmente arranjados como uma lâmina em duas dimensões.Os neurônios são conectados como um feixe comum de fibras de entrada. Algum padrão de atividade surge nas dadas fibras de entrada para a excitação de algum grupo de neurônios locais. Depois do aprendizado, as posições espaciais de grupos específicos excitados em um mapeamento de padrões de entrada em uma lâmina bidimensional , o último tendo a propriedade do mapa topográfico, isto é, ele representa as relações de distancia de alta dimensão do espaço dos sinais de entrada aproximadamente como distancia de relacionamento nas laminas neurais bidimensionais. Esta propriedade considerável segue de interações laterais assumidas e bastante simples de baixa adaptação biologicamente justificada. De fato, parece que os requerimentos principais auto organizáveis são: (I) os neurônios são expostos a um número suficiente entradas diferentes (II) para cada entrada, as conexões de entradas sinápticas somente o grupo excitado é afetado (III)atualização similar é imposed em muitos neurônios adjacentes e (IV) o resultado ajustado é tal que o aumento da mesma resposta para a subseqüente , entrada similar suficiente.
Matematicamente o padrão de atividade das entradas está described por um vetor x n-dimensional onde n é o número de linhas de entrada. A resposta do neurônio r é especificada por um vetor wr n-dimensional , eventualmente correspondendo ao vetor ao vetor de eficácias sinápticas e isso é medido pelo produto x|wr .

Para a eficiência do processo e conveniência matemática, todos os vetores de entrada são sempre normalizados para tamanho único, considerando que o wr não precisa ser normalizado explicitamente no processo , cedo ou tarde o processo os normalizará automaticamente. Os neurônios estão arranjados em uma grade bi-dimensional, e cada neurônio está rotulado pela sua grade bi-dimensional de posição r. O grupo de neurônios excitados é escolhido para estar centralizado no neurônio s para que x. ws seja o máximo. Esta forma e extensão são descritas por uma função hrs , cujo valor é a excitação do neurônio r se o centro do grupo estiver em s. Esta função pode ser constante para todo o r em uma "zona de vizinhança" em torno de s e zero, como em uma simulação presente em que são supostas para descrever o mapeamento mais natural. Neste caso hrs será o maior em r=s e declínio para zero com distância decrementada ||r-s||. A melhor modelagem realista escolhida para hrs é:

isto é , a distancia Gaussiana ||r-s|| cuja variância s/2 controlará os radianos do grupo. 

 
Forma da função de vizinhança
 

Os ajustes correspondentes para a entrada X devem ser dados por:

A equação (2) pode ser justificada assumindo a tradicional lei de Hebb para modificações sinápticas, e um processo adicional "active" não linear de esquecimento para a força sináptica. A equação (2) foi desejada propriamente de algumas adaptações de confinamento para a vizinhança do neurônio s e responde melhor ao x.
Nós devemos presentear aqui alguma prova para que estas condições realmente conduzem para uma organização ordenada do mapa. Para o presente propósito é suficiente dizer que os mapas resultantes são projeções não lineares no espaço de entrada nessa superfície com duas propriedades: (I) os relacionamentos de distância entre a fonte de dados são preservados pelas suas imagens no mapa tão fielmente quanto possível. Contudo, um mapeamento de um espaço alto-dimensional para um baixo-dimensional geralmente alterará mais distancias e só preservará o mais importante relacionamento de vizinhança entre os itens de dados , isto é a topologia de suas distribuições. Este é o fator comando da informação de uma representação reduzida em que detalhes irrelevantes são ignorados. (II) Se diferentes vetores de entrada aparecem com diferentes freqüências , o mais freqüente será mapeado para domínios maiores a custa das menos freqüentes.
Estes resultados em uma localização muito econômica de recursos de memória para itens de dados concessões com descobrimentos fisiológicos.
Se os dados formam agrupamentos no espaço de saída, isto é, se há regiões com várias freqüências e ao mesmo tempo muitos dados similares (I) e (II) assegurará que os dados do agrupamento são mapeados para um domínio de localização comum no mapa. Além disso, o processo arranjará a mútua posição desses domínios em que a forma para capturar a topologia completa do agrupamento é possível. Desta forma, como agrupamentos hierárquicos podem ser melhorados, uma pensamento freqüentemente capaz de representar uma forma de abstração.
Mapas de auto organização semântica.
Simbologia de mapas de auto organização.
Na demonstração descrita em (kohonen 1982c) e (kohonen 1984), os mapas de auto organização principalmente refletem as relações de distancias métricas entre vetores de representações de padrões. Como informações são características dos mais baixos níveis de percepção, em linguagem particular e raciocínio, parece sobrar no processo de símbolos discretos. daqui nós devemos entender como o cérebro pode representar entidades simbológicas . Em vista da localização parecer vista neste nível, nós devemos particularmente expor como o mapeamentos de símbolos pode ser formada em qual relação lógica ocupa lugares vizinhos.
Um pensamento pode aplicar as leis de adaptação neuronal a um conjunto de símbolos que podem criar um mapa topográfico que mostra a distância lógica entre os símbolos como comparados em dados contínuos. Para a similarieade mais tarde sempre mostrar de uma jeito natural, como diferenças métricas entre seus códigos contínuos. Isto não é mais verdadeiro para a simbologia de itens discretos, como palavras para quais nenhuma métrica foi definida.
Isto não é verdade para discrição, itens simbólicos, como palavras, para as quais nenhuma métrica foi definida. Isto está no mais natural símbolo que seu significado é dissociado do seu código. Daqui a relação lógica entre diferentes símbolos deseja-se em geral não ser diretamente detectáveis pelos seus códigos e não pode assim presumir nenhuma relação métrica entre os símbolos, mesmo quando eles representam itens similares. Como seria então possível mapeá-los topograficamente? A resposta é que o símbolo, ao menos no processo de aprendizagem poderia ser frequentemente apresentado em contexto semelhante, i.e. em conjuctura com todos ou parte dos valores atribuídos ao item que ele codifica, ou com outro, correlacionando símbolos.

O modelo básico do sistema para mapas simbólicos aceita cada dado do vetor x como uma concatenação de dois (ou mais) campos, um especificando o código simbólico, denotado por xb e o outro, o conjunto de atributos, denotado por xa, respectivamente.

A equação 3 ilustra em equação vetorial que a decodificação da parte simbólica e a parte atributo pode formar um vetor somado com dois componentes ortogonais. A idéia central de mapas simbólicos, é que as duas partes são ponderadas apropriadamente como a norma da parte atributo predominada sobre a parte simbólica durante o seu processo de organização; o mapeamento topográfico desse momento principalmente reflete os relacionamentos métrico do conjunto de atributos. Deste modo, as entradas para sinais simbólicos, de qualquer forma, são ativados todo o tempo, traços de memórias deles são formadas para a entrada correspondente de outras células do mapa que foi selecionado (ou atualmente forçado) pela parte atributo. Se então, durante a recognição de dados de entrada, o sinal dos atributos são perdidos ou estão muito fracos as mesmas unidades do mapa são selecionadas à base da parte simbólica unicamente. Deta forma os símbolos vêm codificados dentro de um ordem espacial refletindo suas similaridades lógicas (ou semânticas).
Atributos podem ser variáveis com valores escalares discretos ou valores contínuos ou eles podem alcançar propriedades qualitativas como "bom" ou "ruim". Isto é simplesmente para assumir que a identidade de cada atributo é clara nas suas posições no "campo atributo" xa, por meio do qual a presença ou falta de uma propriedade qualitativa pode ser indicada por um valor binário, dizendo 0 ou 1 respectivamente. Então a (desnormalizada) similaridade entre dois conjuntos de atributos podem ser definidos em termos do número de atributos comuns para vários conjuntos, ou equivalências, como produto ponto dos respectivos vetores atributos.
Para ilustrar isto com um modelo concreto de simulação, considere o dado fornecido na fig.1. cada coluna é uma muito esquemática descrição de um animal, baseado na presença (=1) ou falta (=0) ou algum dos 13 diferentes atributos dados à esquerda. Alguns atributos, como "penas" e "2 pernas" são combinados, indicando mais diferenças significantes que os outros atributos. 

 
Nomes de animais e seus atributos
 

A seguir, nós vamos pegar cada coluna para o campo atributo xa do animal indicado no topo. O próprio nome do animal não pertence a xa mas ao invés disso especifica a parte do símbolo xs do animal. Selecionar o código do símbolo pode ser feito de uma varidade de formas. Entretanto, nós agora queremos ter certeza que o código dos símbolos indiquem alguma informação sobre similaridades entre os itens. Daqui nós escolhemos para a parte simbólica do k-th animal um vetor d-dimensional, o qual k-th componente tem um valor fixo de a, e dos quais componentes remanescentes são zeros. Este d é o número de itens (d = 16 em nosso exemplo). Para esta escolha, a distância métrica entre dois vetores xs é o mesmo, irrespectivo dos símbolos codificados. O parâmetro a pode ser interpretado como medindo a "intensidade" de entrada dos campos simbólicos e isso determina a realtiva influência da parte simbólica comparada com a parte atributo. Como nós procuramos o último que irá predominar, nós escolhemos um valor para a = 0.2 para nossa simulação. Combinando xa e xs de acordo com (3), cada animal foi codificado por um 29-dim vetor de dados x = [xs, xa]t (*elevado a t*). Finalmente cada vetor de dado foi normalizado a um único tamanho. Embora isso é apenas um significado técnico para garantir uma boa estabilidade no processo de auto-organização, sua contraparte biológica poderá ser intensificada a normalização dos padrões de atividade de entrada.
 
Depois que a rede treinou com os dados de entrada, apresenta-se os nomes dos animais isoladamente. Um agrupamento de acordo com a similaridade é gerado.
 

Os membros do conjunto de dados assim obtidos foram apresentados iterativelmente e em uma ordem randomica para uma rede planar de 10 x 10 neuronios ´sujeita a um processo de adaptação descrito a seguir. A conecção inicial força entre os neurônios e seus n = 29 linhas de entrada onde são escolhidos os pequenos valores randomicos. i. e. nenhuma ordem prioritária foi imposta. Entretanto depois de um processo de 2000 apresentações, cada "célula" torna-se mais ou menos responsável por uma das combinações de atributos de ocorrência e simultâneamente para um dos nomes de animais também. Se nóes testarmos agora qual célula dá a resposta mais forte se apenas o nome do animal é apresentado como dado de entrada (i.e. x =[xs,0]t (*elevado a t*), nós obtemos o mapa mostrado na fig. 3.27 (os pontos indicam neurônios com respostas fracas)
 
"mapeamento da atividade cerebral" para a rede na fig.3.27. Cada célula é marcada pelo nome do animal gerando a melhor resposta. Células respondendo ao mesmo nome de animal formam domínios, os quais são agrupados de acordo com a similaridade entre os animais.
 

Isto é altamente aparente que a ordem espacial das respostas foi capturada a essencial "família de relacionamentos" entre os animais. Células respondendo para, e.g. "birds" ocupam a parte esquerda da rede, "hunters" como também "tiger", "lion" e "cat" recolhem para a direita, mais "peacefull" espécies como "zebra", "horse",e "cow" agregam ao meio superior. Dentro de cada conjunto, um novo agrupamento de acordo com a similaridade é discernido. A fig. 3 mostra o resultado de um "traçado simulado da penetração do eletrodo" para a mesma rede. Ela difere da fig. 2 em que agora cada célula tem sido marcada pelo símbolo que é seu melhor estímulo, i. e., extrai a melhor resposta para aquela célula. Isto faz o parcelamento do "território neural" em domínios específicos para estes itens visíveis de entrada. Hierarquia deste modo é representada por domínios aninhados. A classe geral (e.g. "bird") ocupa um largo território, no qual ele mesmo é diferenciado em subdomínios aninhados, correspondendo a mais itens especializados ("owl","duck", "hen", etc.). Embora fortemente idealizado, este resultado é muito sugestivo de como o sistema de auto-organização para guiar espacialmente a formação de traços de memória em tal maneira que seu layout físico final forma uma imagem direta da hierarquia do mais importante "conceito de relacionamentos".

O resultado da realização de uma simulação no SNNS utilizando estes dados pode ser vista na figura abaixo. Na Figura 3.30.é mostrada a ativação da rede após apresentação apenas da parte simbólica do padrão de número 13 (leão). Aqui foi utilizada uma rede de Kohonen de 10x10 com uma camada de entrada de 29 neurônios, como descrito no experimento. Observe a atividade de neurônios agrupada em um cluster em torno de um neurônio com ativação mais forte. 

Resultado de treinamento de uma rede com SNNS: ativação após apresentação da parte simbólica do padrão #13 (leão). O vermelho representa ativação mais alta.

 
 
Resultado de treinamento de uma rede com SNNS: ativação após apresentação da parte simbólica do padrão #13 (leão). O vermelho representa ativação mais alta.

3.5.2.2. Dados do Experimento

Para você repetir este experimento em casa estamos disponibilizando aqui os dados para treinamento e teste da rede descrita acima. 

3.5.2.3. Regras Baseadas em Mapas Semânticos
No exemplo do mapa animal, a regra do contexto foi ainda muito simples: A decodificação simbólica foi relacionada a um conjunto de atributos estaticamente explícitos. Em linguagem natural, e obviamente em qualquer percepção natural também, os itens e seus atributos, e obviamente algum estado informativo usualmente ocorrem em uma sequência temporal. O conceito do contexto então precisa ser ampliado e a dimensão do tempo dosado também. Talvez o caminho mais simples para fazer isto, é definir o contexto de cada item com todos os outros itens (juntos com suas ordens seriais) que ocorrem em um certo "período de tempo" ao redor do item selecionado. 
Neste trabalho nós não perderemos tempo com uma representação física concreta de sinais, de qualquer forma os padrões são temporais, como se fala, ou espaciais, como em texto. Para as conversões séries - paralelo, redes neurais podem usar caminhos com diferentes tempos, estados próprios que dependem das sequências, ou de algum outro mecanismo implementado na memória short-term. Aqui nós mostramos concentrando-se apenas ans similaridades entre as exdpressões que levanta-se de ocorrências condicionais de suas partes,e simplesmente imagina que trios ou pares de palavras podem de algum modo ser apresentadas às portas de entrada do sistema.
Linguagens contém muitos outros níveis de significado. Isto é possível para construir casos, onde the devida "janela" para o enetendimento da palavra tem que compreender uma sequencia inteira. Em outra mão, a possiblidade de formar gramáticas demosntra que uma significante parte da estrutura da linguagem ainda manifesta-se em um imenso baixo nível, abaixo para padrões de palavras e conclusões. Detecção de tal estrutura "escala curta" poderá ser o foco de nosso interesse nesta seção e nós demostraremos que a inclusão de um muito limitado contexto de palavras permite o modelo básico da rede (1) a formar mapas semânticos, no qual as palavras itens são agrupadas de acordo com a semântica categorias (objetos, atividades, qualificações, etc.) e simples similaridade.

 
a)  Lista as palavras usadas (nomes, verbos e advérbios), b) padrões de sentenças e c) alguns exemplos de sentenças de três palavras geradas
 

Para a nossa demonstração, nós usamos um conjunto de 3 sequências de palavras randomicamente geradas construídas do vocabulário da Fig. 4 a. O vocabulário contém nomes, verbos e advérbios, e cada classe contém várias subdivisões, como nome de pessoas, animais e objetos inanimados em uma categoria de nomes. Essas distinções são em parte de uma gramática, em parte da semântica natural . De qualquer forma, por razões discutidas na seção 4.1, eles mostraram não ser discerníveis de um código de palavras próprias mas apenas de um contexto de onde as palavras são usadas. Em linguagem natural, como um contexto poderia conter uma rica variedade de experiências sensoriais. Nesta demonstração muito limitada, entretanto, nós poderemos apenas pegar no cliente o contexto fornecido pelo ambiente textual imediatamente adjacente de cada palavra corrente. Isso irá retornar que mesmo este contexto extremamente restrito será suficiente para fazer saber alguma estrutura semântica interessante. É claro que isto requer que cada sentença não seja totalmente randomica, mas obedeça algumas últimas regras rudimentares de gramática e semântica com exatidão. Isto é assegurado por restringir a seleção randomica a um conjunto de 39 padrões de sentenças "legais" apenas. Cada padrão é um trio de números da figura 4b. Uma sentença é construída pela escolha de uma tripla e substituindo cada número por uma das palavras com o mesmo número na fig. 4.a. Este resultado é um total de 498 diferentes sentenças de palavras triplas, alguns dos quais são dados na fig 4c. (Se aquelas indicações são verdadeiras ou não não nos interessa: nós estamos apenas interessados exatidão semântica).

Nesta demonstração muito simples, supôs-se que o contexto de uma palavra seria suficientemente definida pelo par formado pelos seus predecessores e sucessores imediatos. (Para ter tais pares também para a primeira e última palavra da sentença, nós decidimos que as sentenças serão concatenadas em uma ordem randômica da sua produção.) Para o vocabulário de 30 palavras na fig 4a nós poderíamos ter procedido como na seção 4.1 e representado cada para por um vetor de 60-dim com dois não-zeros de entrada. Para uma codificação mais otimizada, de qualquer forma, como explicado mais detalhadamente no apêndice I, nós assumimos para cada palavra, um vetor randômico 7-dim de tamanho único, escolhido fora do conjunto para cada palavra independentemente para uma distribuição probabilística isotropica. Daqui cada par predecessor/sucessor foi representado por um codigo vetorial de 14-dim.

Isso aconteceu em todos os nossos experimentos computacionais que preferencialmente demos atenção para cada cláusula separadamente, uma estratégia de aprendizagem muito mais eficiente foi considerar cada palavra neste contexto médio sob um conjunto de cláusulas possíveis, antes apresentando isso ao algoritmo de aprendizado. O (significado) contexto de uma palavra foi deste modo definido primeiramente como média sobre 10.000 sentenças de todos os códigos vetoriais de pares predecessor/sucessor cercando essa palavra. O trigésimo resultado da 14-dim "contexto médio de palavras", normalizada a um único comprimento, assumiu uma regra similar como campo de atributos xa na simulação prévia. Cada "campo de atributo" foi combinado com um 7-dim "campo simbólico", xs consistindo em um código vetorial para a sua palavra, mas adequada ao comprimento a. Neste momento, o uso do vetor de código randômico quase garantiu que o campo simbólico xs não saiba nenuma informação sobre relacionamentos de similaridade entre as palavras. Como antes, o parâmetro a determinou a influência relativa da parte simbólica em comparação a parte contextual e teria o conjunto de a = 0.2.
 
"Mapa Semântico" obtido na rede de 10 x 15 células 
 

Para esse experimento uma grade planar de 10 x 15 neurônios formais seriam usados. Como antes, cada neurônio inicialmente faria apenas conecções randômicas fracas ao n = 21 linhas de entrada do sistema, então novamente, nenhuma ordem inicial seria apresentada.

Depois de 2000 apresentações de entrada as respostas dos neurônios das partes simbólicas somente seriam testadas. Na fig. 5, o quadro simbólico foi escrito para mostrar o local onde o sinal do símbolo x = [xs,0]t (*elevado a T*) deu a resposta do máximo. Nós claramente vemos que os contextos tem "canalizado" os itens das palavras às posições de memória das quais refletem as relações gramáticas e semânticas. Palavras de mesmo tipo, i. e. nomes, verbos e advérbios tem segregado em separado, grandes domínios.

O "mapa semântico" obtido em uma rede de 10 x15 células depois de 2000 representações de pares de palavras-contexto derivados de 10.000 sentenças randômicas do tipo mostrado na fig. 4c. Nomes, verbos e advérbios são segregados dentro de diferentes domínios. Dentro de cada domínio um agrupamento adicional concorda com aspectos do significado como discernimento.

Cada um desses domínios é mais adiante subdividido por similaridade no nível de semântica. Por instância, nomes de pessoas e animais tendem a ser aglomerados em subdomínios em comum "domínio do substântivo", refletindo em co-ocorrências diferentes com, e.g. verbos como "correr" e "telefonar". Advérbios com significado oposto tendem a ser particularmente fechados juntos, como o oposto deles significa assegurar a eles o uso máximo do espaço comum. O agrupamento de verbos indicam diferenças nos caminhos, eles podem co-ocorrer com advérbios, pessoas, animais e objetos não animados como e.g. "comida".

Figura 6 mostra o resultado de um outro experimento, baseado no mesmo vocabulário e mesmo padrão de sentença como antes. De qualquer forma, nesta simulação o contexto de uma palavra foi restrita apenas ao seu predecessor. (O contexto agora consiste de um vetor de 7-dim). Mesmo isto sendo muito limitado, provou como sendo suficiente para produzir um mapa com aproximadamente similar as propriedades como na fig 5. Isto mostra que as regularidades apresentadas são um tanto robustas para trocas nos detalhes da codificação tão grande quanto o contexto capturar uma quantidade suficiente da estrutura lógica subjacente. 
 
Este mapa foi obtido pelo mesmo procedimento da fig 05, mas com um contexto mais restrito que inclui apenas o predecessor imediato de cada palavra.
 

Pode-se discutir que a estrutura resultante no mapa tinha sido artificialmente criada por uma escolha pre-planejada da sequência de padrões reservadas na entrada. De qualquer forma, isso é facilmente verificado nos padrões da fig. 4b quase que completamente até a exaustão das possibilidade de combinação das palavras da fig 4a em uma semanticidade bem formada de sentenças de 3 palavras (um leitor astuto pode verificar alguns "casos de linha semânticas" não cobertas, como "dog eats cat"). Isto pode tornar isso claro que todos padrões de sentenças selecionados estavam realmente determinados pelas restrições inerentes na semanticidade correta usada pelas palavras, e não vice-versa. Além disso, uma porcentagem significativa das palavras vizinhas estendem-se através das bordas das sentenças randomicamente concatenadas. Nesta concatenação foi irrestrita, tais vizinhos foram largamente irrelacionados a estrutura semântica e gramatical das sentenças, e constituíram um tipo de "ruído" no decorrer do processo. Isso é importante observar que este ruído não disfarça as regularidades se não forem apresentadas nas cláusulas.

De qualquer forma, o que importante observar está exatamente aqui. Alguma semântica realística de mapas cerebrais, precisariam de um modelo hierárquico probabilístico muito mais complicado. A finalidade de um simples modelo artificial usado neste trabalho foi apenas demostrar o potencial de um processo auto organizacional par formar mapas abstratos. Em particular, os resultados da simulação, como está, não poderia ser usado como referência para comparação topográfica direta com áreas do cérebro. Como uma comparação entre a fig. 5 e fig.6 mostram, existem muitos caminhos quase equivalentes, nos quais um conjuntos de relacionamentos de similaridades podem ser apresentados no mapa. Consequentemente os mapas gerados pelo modelo não são únicos, a menos que restrições adicionais, como e.g. condições limiares ou alguma ordem inicial grosseria for imposta. Estes podem então inicialmente "polarizar" o sistema que então converge a um outro único mapa.

3.5.2.4. Discussão:  Kohonen é um Modelo Biologicamente Plausível ?
Um dos mecanismos biológicos que atualmente tem sido mal compreendido, é a habilidade do cérebro de formar abstrações de experiências sensoriais primárias em gigantescos níveis de generalizações.
Isto já é bem conhecido que em um baixo nível percentual, informações sensoriais primeiramente vêm organizadas dentro de mapas sensoriais ordenados topograficamente, e isto tem também já sido demostrado teoricamente que cada mapa pode ser formado adaptativamente, refletindo uma métrica mútua dos relacionamentos e estatísticas dos dados de entrada. Este mesmo princípio tem sido aplicado com sucesso considerável para exigir tecnicas padrões de farefas de recognição como discurso recognitivo.
Neste trabalho nós temos agora mostrado que o princípio de mapas de auto organização podem também ser extendidos para níveis mais altos de processamento, onde os relacionametos entre itens são mais súbitos e menos aparentes em suas características intrísecas, uma propriedade que é característica de expressões simbólicas. Simbolos em geral, não contém componentes metricamente relatáveis. Consequentemente, mapas de significância topográfica de símbolos não devem mostrar por muito tempo as características intrísecas, mas ao invés disso as similaridades lógicas das suas entradas. Isto voltará, entretanto que mapeamento organizados de dados simbólicos podem seguir as mesmas leis básicas de adaptação, fornecendo que os dados simbólicos de entrada são apresentados juntos com uma quantidade suficiente de contexto, que então definem os relacionamentos de similaridade entre eles. Se as descrições simbólicas deixam traços de memória nos mesmos neurônios dos quais os sinais contextuais convergem, os mesmos neurônios então tornam-se também sensíveis aos sinais simbólicos em uma ordem espacial que também reflete sua lógica de similaridade. 
Símbolos tocam um regra particularmente importante em linguagens. Neste trabalho nós demos dois exemplos de simulação que demonstram a formação auto-organizada de mapas semânticos, no qual relacionamentos semânticos entre palavras tem sido codificadas em posições relativas espaciais de localização de respostas. Nossos mapas artificiais são parcelados na hierarquiedade aninhado a domínios refletindo diferentes categorias de palavras. Este parcelamento emerge totalmente do co-ocorrente contexto sensorial e palavras. Em nossas simulações o contexto sensorial foi restrito a um simples conjunto de atributos ou palavras adjacentes em sentenças. O tipo simples de clausulas utilizadas neste experimento ocorrem em todas as linguagens, suas primitivas uniformes. Isto é consequentemente também do interesse para notar qual dado experimental (sect.2) indica organizações similares as área do cérebro relacionadas a linguagem de processamento. Especialmente a debilidade da linguagem categoria-específica discutidas na sect.2. (Warrington and McCarthy 1987) visto para refletir o mais similar em um nível filosófico.

Na primeira simulação nós usamos inicialmente atributos explicitos, deste modo assumindo que algum mecanismo neural já tinha gerado-os. A filosofia subjacente do nosso trabalho é que uma tendência auto-organizadora similar poderia existir em todos os níveis de processamento; ilustrando isto, de qualquer forma, é apenas possível se os sinais tem algum significado para nós. 

O termo "mapa semântico" usado neste trabalho, não é ainda referido a "compreensão mais elevada da palavra"; palavras estão apenas sendo agrupadas conforme o seu contexto local. Devido a grande correlação entre contexto local e significado da palavra, entretanto isto aproxima a ordenação semântica encontrada na linguagem natural, o qual presumidamente não pode ainda ser generalizada em cada fase aprendida. Isto é uma questão intrigante se algum estágio de processamento subsequente poderá criar um ordenamento que reflete significados de um nível mais elevado - dos quais poderá facilitar totalmente o entendimento da significado das palavras - por algum tipo de interação do basico processo de auto-organização.

Nosso modelo enfatiza a regra do arranjo espacial de neurônios, um aspecto apenas considerado em muitas poucas abordagens modeladas. Entretanto nós não gostamos de dar a impressão que nós nos opomos a visão de redes neurais como sistemas distribuídos. As interconecções massivas responsáveis pela interação lateral tão bem como os engramas relacionando para a memória associativa são certamente disseminado sobre uma grande área da rede.

Em outra mão, isto mostra-se inevitável que alguma tarefa de processamento complexo precisa algum tipo de segregação de informação em partes separadas, e localização do mais robusto e eficiente caminho para encontrar esta meta. Os mapas semânticos oferecem um mecanismo eficiente para gerar uma segregação significativa de informação simbólica uniforme em um nível razoavelmente alto de semânticas, e eles tem qualidade mais recente de ser o único baseado em aprendizado não-supervisionado. Se nós ainda necessitarmos considerar um timing relativo de sinais. (cf. von der Malsburg and Bienenstock 1986) remanescem o mais recente objetivo do estudo.

Existem outras novas razões não para negligenciar os arranjos espaciais das unidades de processamento. Por instância, a anatomia dos conjuntos de circuitos neurais restringem a realização da conectividade entre unidades. Mais a fundo, sinais cerebrais nãos e apoiam unicamente em transmissão de sinais axonais emitidos em distâncias selecionáveis, mas também emprega difusão de neurotransmissores e neuromoduladores, em todas semelhanças, estas restrições poderiam limitar a implementação de muitos mecanismos computacionais, a menos que este obstáculo esteja aliviada pela eficiente organização espacial oferecida pelos mapas.

De um ponto de vista hardware, se isto fosse esperado que a minimização dos custos de conectividade poderia fortalecer este tipo de design de rede neural. Isto poderia dar um indício porque uma organização topográfica é tão difundida no cérebro. Outros argumentos para localização são que a segregação espacial de representações fazem então mais lógica, pela redução de etapas para a sua inferência mútua, e logicamente de itens simbolicos similares, sendo espacialmente adjacentes, podem invocar um outro associativamente, como expressado nas leis clássicas de associação.

Uma outra observação pode ser necessária. Nossas simulações não poderão ser pegas como uma sugestão que cada palavra é representada por uma então chamada "célula mãe" no cérebro. Cada palavra é um pedaço complexo de informação provavelmente redundante codificada por uma população neuronal inteira (e várias vezes em separado "lexica", cf. 2.4). Tudo em um grande modelo idealizado usado em nossas simulações, isto não é um simples neurônio mas um subconjunto inteiro de células, cercar o mais responsável deles, que pega o mais adequado a palavra (cf. fig 3). Estes subconjuntos podem então ser engajados em novos processamentos, não capturado pelo modelo básico. O número de células atribuídas a cada subconjunto também depende da frequência das ocorrências das palavras. Isto é análoga ao caso que a frequência de ocorrência de estímulos determina o fator local ampliado em um mapa sensorial (Kohonen op. Cit., Ritter and Schulten 1986). Similarmente palavras frequentes poderiam recrutar células de um grande território neural e ser mais redundantemente representado. Como consequência, as mais frequentes palavras poderão ser menos suscetíveis aos danos locais. Esta complies com observações empíricas nos pacientes do curso, por meio do que as palavras familiares tem mais chances de sobreviver que as raras.

Finalmente, nós gostaríamos de apresentar um noção filosófica intrigante. Como indicado anteriormente, existem vária evidências biológicas e justificações teóricas para o funcionamento do cérebro, requisitando representação de seus dados de entrada por significativas partes processadas em localizações separadas espacialmente. A idéia sobre categorias fundamentais postuladas para a interpretação e entendimento do mundo mais obviamente levanta da formação prioritária de cada representação no próprio mundo biológico do cérebro.

Variação da Função de Vizinhança durante o Treinamento
Kohonen e Ritter sugerem, em um anexo de seu artigo, que, para tornar o processo de aprendizado cada vez mais local, à medida em que o processo de aprendizado avança, o tamanho da variância definida para o "sino de Gauss"seja reduzido gradualmente. Isto tem como efeito que o treinamenento que o neurônio vencedor sofre afeta uma vizinhança cada vez menor. A idéia por detrás deste procedimento é simular o efetito de que primeiramente uma rede aprende conceitos de forma grosseira e global, achando um único local para armazenar estes conceitos. À medida que o tempo passa, porém, o aprendizado se torna mais local e nunces e ajustes finos para variedades de um conceito são realizadas numa pequena vizinhança. A técnica de começar-se com uma vizinhança grande, que é reduzida modificando-se a variância da curva de Gauss tem esse efeito: primeiramente a rede aprende de maneira geral a organizar padrões similares em grupos localizados em regiões específicas da rede, depois a rede passa a refinar este mapeamento de maneira cada vez mais localizada. 
Na prática, a fórmula sugerida por Ritter e Kohonen é a mostrada na Eq. 4 abaixo:
onde tmax representa o número total de épocas (1 época = apresentação de todos os padrões para a rede).

3.6. O que aprende uma Rede de Kohonen ?

Vimos até agora que:
  • uma Rede de Kohonen é inspirada na forma como se supõe que redes neurais naturais aprendem e
  • o modelo originou-se a partir das pesquisas anteriores de Teuvo Kohonen em Análise de Componentes Principais e Quantização de Vetores.
Para fundamentar uma aplicação na prática de Redes de Kohonen como um mecanismo para o aprendizado auto-organizante de padrões e seu posterior uso para classificação de padrões, é importante analisarmos a capacidade representacional e a forma de representação da informação em um Mapa Auto-Organizante.
Na prática, uma rede de Kohonen toma um conjunto de dados em um espaço de dados V qualquer e os representa de forma discretizada através de um neurônio (e eventualmente sua vizinhança) no espaço de um Mapa Auto-Organizante A. Esta transformação de um espaço de representação para outro é denominada mapeamento f, podendo ser representada por:
A condição para que este mapeamento seja uma boa representação do espaço vetorial é que:, .
onde W é um vetor de pesos da rede A
Este mapeamento está ilustrado na figura abaixo.

 
Mapeamento V -> A. 
 

O espaço vetorial V é um espaço qualquer com a dimensionalidade do número de variáveis de um padrão X desse espaço. O vetor de pesos ws do neurônio vencedor S pertencente a A representa uma aproximação da função de mapeamento f que associa pontos do espaço vetorial V a neurônios em A. D ws é o erro dessa aproximação representado no espaço vetorial V.

Com isso, vimos como ocorre o mapeamento de entre o espaço vetorial e o espaço do Mapa Auto-Organizante da rede de Kohonen. 

Supondo agora, que os dados em V possuem uma distribuição d qualquer, como é gerada a função de mapeamento f de forma a refletir esta distribuição ?

3.6.1. Qualidades Matemáticas do Modelo de Kohonen

Existem várias interpretações matemáticas da forma como uma rede de Kohonen aprende e de como devemos interpretar o mapeamento f gerado após o aprendizado da rede. Helge Ritter em sua tese de doutorado (Univ. de Munique, 1988) analisou em detalhe ambos. Nós vamos reproduzir aqui, omitindo os detalhes matemáticos, a sua interpretação da representação.
O conceito básico de representação em uma rede de Kohonen baseia-se na idéia de Componentes Principais. A Análise de Componentes Principais é uma técnica de análise de distribuição de dados onde se procura encontrar vetores de referência que representem de uma forma mais ou menos adequada conjuntos de vetores de uma distribuição de dados. Possui utilidade em mineração de dados e para decifrar códigos baseados em índices. A dá um exemplo de três vetores de referência mi encontrados para aproximar uma distribuição de dados dividida em grupos.

 
Representação de agrupamentos de dados expressando uma função x(t) em um espaço n-dimensional qualquer através de vetores de referência mi
 

O que uma rede de Kohonen representa após o aprendizado pode ser considerado como uma generalização dessa idéia.

Se nós observarmos uma distribuição de dados representando, por exemplo, todos os pares de valores de duas variáveis x1 e x2 que pertençam à categoria cj, poderemos ter um scatter plot como mostrado em (a) ou em (b) na , dependendo de como os dados se distribuem 
 
 

Podemos representar a componente principal desta distribuição de dados através de um único ponto w0 no espaço vetorial, que representará exatamente o "centro de massa" da distribuição 2 , ou através de um vetor w1 que representa o "eixo principal" da distribuição 3 , indicando a sua tendência. Isto pode ser realizado através de várias técnicas estatíticas, entre outras pela Análise Fatorial, utilizada quando a nossa distribuição de dados representa várias classes. 

O problema de uma representação deste tipo ocorre quando temos uma distribuição de dados como em (b). Numa situação como essa, o centro da distribuição é um ponto em V que não pertence à distribuição e o eixo principal da distribuição é uma descrição muito pobre e falha do real comportamento desta. É o caso de distribuições de dados com tendências não-lineares, que nós já abordamos no capítulo 1, quando falamos de Nearest Neighbour.

Para representarmos adequadamente uma distribuição de dados como a representada em (b) necessitamos de uma representação não-linear da distribuição, dada por uma curva principal da distribuição, como é mostrado na 
 
Curva Principal 
 

O cálculo exato de uma curva principal, porém, pode ser um processo matemático extremamente custoso, envolvendo interpolação polinomial ou outra técnica.

Quando discutimos Nearest Neighbour, no capítulo 1, e algoritmos que o utilizam, como IBL, no capítulo 2, vimos que existe a possibilidade de se aproximar um mapeamento de uma distribuição deste tipo através da divisão desta área curva em pedaços discretos, representados através de um conjunto de protótipos w0i. Isto está muito bem exemplificado pela facilidade com que IBL representa o problem ada espiral exatamente implementando esta técnica. Para gerarmos um conjunto de protótipos w0i deste tipo, porém, é necessário que a distribuição seja conhecida. Isto é fácil, quando temos, de antemão, associada a cada padrão, a sua categoria. Mas como proceder quando não conhecemos a distribuição dos dados nem quais classes existem ?

É aqui que a utilização de Redes de Kohonen se torna interessante: Helge Ritter demonstrou que uma rede de Kohonen aprende exatamente uma representação não linear discretizada deste tipo, sem necessidade de que se forneça de antemão as classes a que pertence cada padrão, realizando uma espécie de Análise Fatorial Não-Linear Discretizada. O resultado do processo de aprendizado, quando a convergência ocorreu adequadamente, é um mapeamento de subconjuntos da distribuição de dados a neurônios específicos da Rede A, que passam a fungir como protótipos para esses subconjuntos. Regiões vizinhas da distribuição são mapeadas para neurônios vizinhos no mapa de Kohonen A. O mecanismo de escolha do vencedor, similar a idéia do Nearest Neighbour, é o que garantre a não-linearidade da capacidade de representação da rede depois de treinada, agindo como uma função limiar, intrinsecamente não-linear, que determina as fronteiras entre cada subárea (subvolume) da distribuição mapeada. Isto pode ser visto na figura abaixo, onde uma classe é representada por um agrupamento (cluster) de neruônios em torno do vencedor S. O vencedor S representa com a maior aproximação o padrão X apresentado à rede..
 
Representação discretizada de uma distribuição não-linear de padrões aprendida por uma rede de Kohonen segundo Ritter.
 


1.Mesmo assim, a plausibilidade biológica é refutada por um passo muito importante do algoritmo de Kohonen: a determinação do vencedor. Este passo do aprendizado de Kohonen poderia ser explicado através de um mecanismo de emissão de neurotransmissores inibidores por parte de um neurônio ativado de forma muito forte por um estímulo externo (o vencedor). Esta explicação não serve como modelo, porém, para uma determinação global do vencedor, pois um efeto desses, caso existisse (o que não ocorre, ao que se sabe), seria necessariamente local.
2.Se a distribuição é conhecida, podemos calcular w0 usando exatamente o método de cálculo do centro de massa da Física, atribuindo uma massa qualquer, não nula, a cada um dos pontos do conjunto.
3.Das mesma forma, se a distribuição é conhecida, podemos utilizar o método de cálculo do eixo de massa principal da Física para obter w1.

 
 


3.7. Explorando Dados Agrupados em Redes

  
The Cyclops Project
German-Brazilian Cooperation Programme on IT
CNPq GMD DLR