Uso de modelos neurais no diagnóstico diferencial das meningites

June 13, 2018 | Author: Leila Weitzel | Category: Documents


Comments



Description

Universidade do Estado do Rio de Janeiro Centro de Tecnologia e Ciências Instituto Politécnico

Leila Weitzel Coelho da Silva Martins

Uso de modelos neurais no diagnóstico diferencial das meningites

Nova Friburgo 2013

Leila Weitzel Coelho da Silva Martins

Uso de modelos neurais no diagnóstico diferencial das meningites

Dissertação apresentada, como requisito para obtenção do título de Mestre, ao Programa de Pós-Graduação em Modelagem Computacional, do Instituto Politécnico, da Universidade do Estado do Rio de Janeiro. Área de concentração: Computação Científica.

Orientador(es): Dr. Joaquim Teixeira de Freitas Dr. André Soares Monat

Nova Friburgo 1999

CATALOGAÇÃO NA FONTE UERJ/REDE SIRIUS/BIBLIOTECA CTC/E

Autorizo, apenas para fins acadêmicos e científicos, a reprodução total ou parcial desta dissertação, desde que citada a fonte.

______________________________________ Assinatura

Nova Friburgo, 16/03/1999 Data

Leila Weitzel Coelho da Silva Martins

Uso de modelos neurais no diagnóstico diferencial das meningites

Tese/Dissertação apresentada como requisito para obtenção do título de Doutor/Mestre, ao Programa de PósGraduação em Modelagem Computacional, do Instituto Politécnico, da Universidade do Estado do Rio de Janeiro. Área de concentração: Computação Científica.

Aprovada em 16 de março de 1999.

Banca examinadora:

____________________________________________ Prof. Dr. Joaquim Teixeira de Freitas (Orientador) Instituto Politécnico - UERJ _____________________________________________ Prof. Dr. André soares Monat (co-orientador) Faculdade de Engenharia - UERJ _____________________________________________ Prof. Livre Docente Gerson C. Magalhães Departamento de Vigilancia Sanitária - Teresopollis _____________________________________________ Prof. Dra. Maria luiza M. Campos NCE - UFRJ

Nova Friburgo 1999

À minha Mãe pelo apoio e à minha amada filha RACHEL pela compreensão

Resumo A proposta deste trabalho é fazer um estudo da aplicação de uma técnica da Inteligência Artificial, as Redes Neurais Artificiais (RNA), no processo de diagnose da Meningite. Foram empregados dois modelos RNA para a classificação diagnóstica. No primeiro modelo de RNA utilizado trabalha-se com Aprendizado Supervisionado conforme proposto por Gallant. No segundo modelo, trabalha-se com aprendizado Não Supervisionado segundo o modelo de Kohonen. Os resultados obtidos no treinamento de ambos modelos comprovam que devido a falta de qualidade nos Exames Laboratoriais, os Clínicos lançam mão do Conhecimento Empírico para a Prática Médica, e tendem a não incluir ou então a subestimar os resultados destes exames. Em contrapartida, a Decisão Médica para diagnósticos diferenciais em Países de Medicina mais avançada, é baseada principalmente nestes mesmos Resultados Laboratoriais. A forma de trabalho nestas condições não ideais, isto é, onde os resultados laboratoriais são tão questionáveis, têm como conseqüência a dificuldade de se discernir satisfatoriamente o diagnóstico de certos tipos da Meningite.

Palavras Chaves: Redes Neurais Artificiais, Informática Médica, Tomada de Decisão Médica e Meningite.

Abstract The main goal of this dissertation is to apply an Artificial Intelligence Technique, Neural Networks (NN), for simulating the diagnosis of types of Meningitis by Physicians. Two NN models were applied. First a model proposed by Gallant (1988) which uses a supervised learning method. Second a NN based on Kohonen (1982) model which uses an unsupervised learning procedure. The usage of both models has shown that due to the poor quality of findings in Brazil, physicians have to use empirical procedures that disregard or underestimate this type of data. This is the opposite of what happens in more developed countries where this type of data has a pivotal role in the diagnostic procedure. Working under these conditions, where findings are not reliable at all, leave physicians in high difficulties in providing the right diagnostic for the type of meningitis involved.

Key Words: Neural Networks, Medical Informatics, Medical Decision-Making, Meningitis.

Agradecimentos  Ao meu orientador o Prof. Joaquim Teixeira pelo incentivo e crença no meu potencial,

 Ao meu orientador Prof. André Monat pela preciosa orientação, por sua paciência e em especial pela oportunidade e crédito que me foi dado,

 À CAPES pelo apoio financeiro,

 Ao Prof. Luís Guilherme, Médico Sanitarista, Professor da Faculdade Serra dos Órgãos e chefe da Divisão de Vigilância Epidemiológica da Prefeitura Municipal de Teresópolis, pela sua orientação na área médica da Meningite,

 Em especial ao meu companheiro de longa jornada Paulo Henrique Werly pela ajuda providencial em todas as horas, e por suas revisões,

 A todos os funcionários do IPRJ que colaboraram na elaboração da Tese,

 A todo o corpo Docente do IPRJ pelos préstimos recebidos,

Nomenclatura Capítulo 2 i

Índice dos Vetores

Xi

Uma componente do Vetor de Entrada X

Wi

Uma Componente do Vetor de Peso W

x w i

i

Combinação Linear dos Vetores de entrada com os Pesos

i

Y

Vetor de Saída obtido

X .W

Produto Vetorial do Peso (W) pela Entrada (X)

X = [ x1, x2, ..., xn ]

Vetor de Entrada

W = [ w1, w2, ..., wn ] Vetor de Pesos

Capítulo 3 xi

Uma componente do Vetor de Entrada X

wi

Uma Componente do Vetor de Peso W

x w i

i

Combinação Linear dos Vetores de entrada com os Pesos

i



Valor Limiar ou Valor de disparo – “Threshold”

p

Índice que quantifica os vetores de entrada e dos pesos

y

Vetor de Saída obtido

wi

Fator de ajuste dos pesos

V

Nível de Atividade Interna de um Neurônio

i

Índice dos Vetores

k

Constante qualquer

e

Erro Linear de Saída

n

Espaço Euclidiano de n dimensão

y  H ( w t x   ) Função de Heaveside

U(n)

Unidade sigma

d

Saída desejada

n

Índice de tempo

 (V(n))

Função de Transferência

()

Função de Transferência

 = {x , d}

Conjunto de Treinamento

J

Gradiente

2

Erro Quadrático

W J

Gradiente da Função Erro

j

Índice do Neurônio

k

Índice do Neurônio



Constante de Aprendizado positiva

X .W

Produto Vetorial do Peso (W) pela Entrada (X)

X = [ x1, x2, ..., xn ]

Vetor de Entrada

W = [ w1, w2, ..., wn ] Vetor de Pesos N

Número de pares de treinamento

 (n )

Gradiente Local

D

Distancia entre Neurônios

xh,i

Célula da Rede Kohonen

h

Índice da Linha

i

Índice da Coluna

g(yj)wj

Termo de Esquecimento

g(yj)

Qualquer Função escalar positiva

t

Tempo

i(x)

Neurônio Vencedor

i(x)

Função de Vizinhança



Constante Positiva

d (xi , xj)

Distância Euclidiana

Ek

Conjunto de Treinamento

F1

Fase De Comparação

F2

Fase De Reconhecimento

B

Peso Bottom-up



Parâmetro de Vigilância

R

Vetor de Retorno

C

Vetor de saída da Camada F2

G1

Ganho 1

G2

Ganho 2

Tj

Vetor de Peso Top-Down

s

Grau de similaridade

L

Constante positiva

f

Função de Ativação

Capítulo 4 FC

Fator de confiança

xi

Uma componente do Vetor de Entrada X

Capítulo 5 P(CiX)

Probabilidade condicional

f (x, y,...z)

Função Booleana

N

Número Total de indivíduos

N( f )

Número de indivíduos que possuem atributo f

G

Atributo qualquer

Ci

Classes de doenças

Ck

Classes de Sintomas

Si

Conjunto de Sintomas

Di

Conjunto de Doenças

E

Função Booelana do Conhecimento médico

Lista de Abreviaturas IA

Inteligência Artificial

SADM

Sistema Apoio à Decisão Médica

DM

Doença Meningocócica

RNA

Rede Neural Artificial ou Rede Neuronal Artificial

SE

Sistema Especialista

IM

Informática Médica

LMS

Least Mean Square

BP

Back Propagation

LVQ

Learn Vector Quantization

ART

Adaptive Resonance Theory

DSM-IV

Diagnostic and Statistical Manual of Mental Disorders

FC

Fator de Confiança

SEC

Sistema Especialista Conexionista

SERN

Sistema Especialista Baseado em Redes Neurais

SEBR

Sistema Especialista Baseado em Regras

VC

Valor de Confiança

IRM

Imagem de Ressonância Magnética

ECG

Eletrocardiograma

BDM

Banco de Dados Médico

SNC

Sistema Nervoso Central

BD

Banco de Dados

PMN

Polimorfonucleares

Mono

Mononucleares

DGN

Diplococos Gram Negativos

DGP

Diplococos Gram Positivos

BGN

Bacilos Gram Negativos

PTN

Proteína

POO

Programação Orientada a Objeto

Lista de Figuras Capítulo 2 Figura 2.1: Modelo básico de uma RNA, com uma camada de entrada (circunferência Transparente), uma camada intermediária (quadrado) e uma camada de saída (circunferência cinza)..................................................................

8

Capítulo 3 Figura 3.1: Neurônio Booleano de McCulloch-Pitts............................................

15

Figura 3.2a: Par de padrões linearmente separáveis.............................................

20

Figura 3.2b: Par de padrões não linearmente separáveis......................................

20

Figura 3.3: Função de transferência  (V (n))........................................................

20

Figura 3.4: Arquitetura básica do perceptron com uma camada, p unidades de entrada e seus respectivos pesos, onde xi é o vetor de entrada, wi é o vetor de pesos e i = 1,..,p.....................................................................................................

20

Figura 3.5: Modelo de Rede com aprendizado supervisionado..............................

22

Figura 3.6: Rede Adaline com p unidades de entrada e seus respectivos pesos, onde xi é o vetor de entrada, wi é o vetor de pesos, x0 é o valor do “threshold” e w0 o peso a ele associado, sendo i = 1,..,p...............................................................

24

Figura 3.7: Rede multicamadas com p unidades de entrada e seus respectivos pesos. A camada de saída dos neurônios k é conectada aos neurônios j da camada escondida.....................................................................................................

29

Figura 3.8: Direção dos fluxos encontrados em Perceptrons multicamadas fluxo para frente do sinal da função e fluxo retropropagado do sinal do erro...................

31

Figura 3.9: Modelo de Rede com aprendizado não supervisionado.......................

33

Figura 3.10: Rede Kohonen ilustrando a vizinhança da célula xh,i .........................

34

Figura 3.11: O produto interno determina a distância, sendo a mínima distância correspondente ao máximo valor do produto interno (HAYKIN, 1994)..................

38

Figura 3.12: Vizinhança na forma quadrática, i variando de tamanho em torno do neurônio vencedor destacado em preto...............................................................

40

Figura 3.13: Esquema modular da Rede ART.........................................................

48

Capítulo 4 Figura 4.1: Estrutura de um Sistema Especialista...................................................

52

Figura 4.2: Arquitetura básica de um SEC..............................................................

67

Figura 4.3: Arquitetura da Rede do modelo de Gallant para doença do sarcófago.

69

Figura 4.4: Modelo de Rede com variáveis do tipo neurônio ressonante................

72

Figura 4.5: Geração e depuração de uma base de conhecimento em um SEC usando ferramentas automáticas (desenhos com as bordas mais espessas) em conjunto com especialistas humanos........................................................................

74

Figura 4.6: Rede de Inferência (ou Rede de Confiança) onde Ni é um nó ou neurônio e Ri é uma Regra........................................................................................

78

Capítulo 5 Figura 5.1: Processo de decisão...............................................................................

86

Figura 5.2: Processo de diálogo entre paciente e médico........................................

91

Figura 5.3: Fluxograma da profilaxia anti-rábica pós-exposição............................

98

Figura 5.4: Árvore de decisão para o diagnóstico e tratamento de uma suspeita de encefalite por herpes simples...............................................................................

101

Figura 5.5: Componentes principais da base de conhecimento de um SADM.......

112

Figura 5.6: Representação Simbólica da combinação dos atributos........................

114

Figura 5.7: Classificação dos atributos em classes..................................................

114

Figura 5.8: Base lógica dos atributos D1 e D2.........................................................

116

Figura 5.9: Base lógica dos atributos S1 e S2...........................................................

116

Figura 5.10: Base lógica para sintomas e doenças..................................................

117

Capítulo 6 Figura 6.1: Modelo modificado da Planilha de Investigação de Casos...................

125

Figura 6.2: Rede de Kohonen utilizada...................................................................

129

Figura 6.3: Modelo de Gallant utilizado..................................................................

133

Capítulo 7 Figura 7.1: Modelo de Gallant proposto inicialmente.............................................

139

Apêndice A Figura 1: Passagem de um impulso nervoso no axônio...........................................

157

Figura 2: Comportamento neuronal modelado durante o período refratário absoluto Ta e relativo pela elevação deste limiar de disparo para 0   durante Tn + Ta r (t) = 0 + A. exp(- (t – Ta) /  durante o período refratário relativo......................................................................................................................

158

Figura 3: Integração espacial dos estímulos pelo neurônio.....................................

159

Figura 4: Plano separador E*...................................................................................

158

Figura 5: Representação da Sinapse........................................................................

159

Lista de Tabelas Capítulo 4 Tabela 4.1: Tabela de comparação entre Redes Neurais e Sistemas Baseados em Regras.......................................................................................................................

76

Tabela 4.2: Tabela de correspondência estrutural e de aspectos do raciocínio entre Redes de Confiança e Redes Neurais............................................................

77

Tabela 4.3: Exemplos de Sistemas de Apoio à decisão Médica............................

79

Sumário CAPÍTULO 1 .............................................................................................................................................. 3 1.1 - INTRODUÇÃO ..................................................................................................................................... 3 CAPÍTULO 2 .............................................................................................................................................. 6 2.1 - NEUROCIÊNCIA.................................................................................................................................. 6 2.2 - CONCEITOS BÁSICOS DE UMA REDE NEURAL ................................................................................. 11 2.2.1 - Propriedades da Rede ............................................................................................................. 12 2.2.2.1 - Propriedades dos Nós ....................................................................................................................... 12 2.2.2.2 - Propriedade Dinâmica da Rede........................................................................................................ 13

2.3 - CLASSIFICAÇÃO FUNCIONAL ........................................................................................................... 14 CAPÍTULO 3 ............................................................................................................................................ 15 3.1 - REDES NEURAIS ARTIFICIAIS .......................................................................................................... 15 3.2 - MODELAGEM NEURONAL ................................................................................................................ 16 3.3 - REPRESENTAÇÃO DO CONHECIMENTO............................................................................................. 18 3.4 - REDE PERCEPTRON.......................................................................................................................... 21 3.5 - REDE ADALINE ................................................................................................................................ 26 3.6 - REDE PERCEPTRON MULTICAMADAS .............................................................................................. 30 3.6.1 - Regra de Delta Generalizada .................................................................................................. 33 3.7 - REDE KOHONEN .............................................................................................................................. 35 3.7.1 - Seleção de parâmetros ............................................................................................................ 41 3.7.2 - Refinamento do Mapa ............................................................................................................. 43 3.8 - REDES RESSONANTES ..................................................................................................................... 44 CAPÍTULO 4 ............................................................................................................................................ 53 4.1 - SISTEMAS ESPECIALISTAS ............................................................................................................... 53 4.2 - REPRESENTAÇÃO DO CONHECIMENTO ............................................................................................. 59 4.2.1 - Lógica Probabilística: ............................................................................................................ 61 4.2.2 - Fator de Confiança: ................................................................................................................ 61 4.2.3 - Probabilidade Bayesiana: ....................................................................................................... 62 4.3 - MEMÓRIA DE CURTO PRAZO E DE LONGO PRAZO........................................................................... 62 4.4 - CRÍTICAS AO SE CONVENCIONAL .................................................................................................... 63 4.5 - SISTEMAS ESPECIALISTA CONEXIONISTA ........................................................................................ 65 4.6 - COMENTÁRIOS................................................................................................................................. 73 4.7 - CONSTRUÇÃO DE UM SE UTILIZANDO ARQUITETURA NEURAL ........................................................ 75 CAPÍTULO 5 ............................................................................................................................................ 80

5.1 - INFORMÁTICA MÉDICA .................................................................................................................... 80 5.2 - PROCESSO DE DECISÃO ................................................................................................................... 85 5.3 - MOTIVAÇÃO .................................................................................................................................... 92 5.4 - CLASSIFICAÇÃO DOS SISTEMAS DE DECISÃO ................................................................................... 95 5.4.1 - Algoritmos Clínicos ................................................................................................................. 97 5.4.2 - Modelos Matemáticos Para Processos Físicos ...................................................................... 99 5.4.3 - Métodos da Teoria de Decisão ................................................................................................ 99 5.4.4 - Análise de Banco de Dados Médicos .................................................................................... 102 5.4.5 - Técnicas de Reconhecimento Estatístico de Padrões ............................................................ 104 5.4.5.1 - Critério de Bayes: ........................................................................................................................... 105

5.4.6 - Raciocínio Simbólico ............................................................................................................ 110 5.5 - COMENTÁRIOS............................................................................................................................... 117 CAPITULO 6 .......................................................................................................................................... 119 6.1 - O USO DE MODELOS NEURAIS NO DIAGNÓSTICO DA D.M. ........................................................... 119 6.1.1- Considerações sobre a Área Médica...................................................................................... 119 6.2 - COLETA DOS DADOS ..................................................................................................................... 123 6.3 - MATERIAIS E MÉTODOS ................................................................................................................ 125 6.4 - REDES UTILIZADAS ........................................................................................................................ 126 6.5 - REDE KOHONEN ............................................................................................................................ 127 6.6 - REDE GALLANT ............................................................................................................................. 130 CAPÍTULO 7 .......................................................................................................................................... 134 7.1 - CONCLUSÕES E TRABALHOS FUTUROS ........................................................................................... 134 7.1.1 - Resultados da Rede Kohonen ................................................................................................ 134 7.1.2 - Resultados da Rede de Gallant ............................................................................................. 137 7.2 – OBSERVAÇÕES FINAIS E PERSPECTIVAS FUTURAS ........................................................................ 140 REFERÊNCIAS BIBLIOGRÁFICAS.................................................................................................. 143 APÊNDICE A ......................................................................................................................................... 153 A.1 - ELEMENTOS DA NEUROLOGIA ...................................................................................................... 153 A.2 - COMPUTAÇÃO ELEMENTAR EM UM NEURÔNIO ........................................................................... 156

Capítulo 1

1.1 - Introdução

O objetivo deste trabalho é fazer um estudo da aplicação de técnicas da Inteligência Artificial (IA) no desenvolvimento de Sistemas de Apoio à Decisão em Medicina (SADM), com ênfase no Diagnóstico Médico Diferencial. Foi selecionado para o

estudo experimental a área médica representada pela Meningite (DM)

caracterizada pela meningite e meningococcemia. Foram empregados modelos de classificação diagnóstica visando extrair o máximo de informações dos dados médicos, permitindo representar o processo de decisão típico no gerenciamento de pacientes. O diagnóstico médico depende da análise de dados e informações de diversas fontes de naturezas muito diferentes, incluindo a experiência prévia do médico em realizar diagnósticos do mesmo tipo, bem como o senso comum e a intuição. O diagnóstico é entendido pelas questões que se formulam, pelos testes efetuados, pelos procedimentos que se realizam e, pela determinação do valor dos resultados relativos a riscos associados e custos financeiros. O principal elemento de motivação para estas pesquisas sempre foi o de gerar um vasto potencial de benefícios que adviria quando fossem implementado sistemas eficazes de apoio à decisão médica.

Alguns autores como CROFT (1972) destacam entre os benefícios potenciais um grande impacto sobre o custo e a disponibilidade da saúde, tanto em países em desenvolvimento, quanto em países desenvolvidos. Centros Médicos operados principalmente por paramédicos usando modelos automáticos de diagnóstico poderiam dar atendimento à inúmeros pacientes por ano a um baixo custo. SZOLOVITS & PAUKER (1978) sugere que uma possibilidade radical para melhoria do sistema de assistência médica seria utilizar o computador como instrumento intelectual e dedutivo, isto é, como um consultor incorporado à estrutura do sistema de saúde. Em contrapartida os problemas de decisão em Medicina têm se tornado cada vez mais complexos nos recentes anos, tendo em vista a rápida expansão do conhecimento, o volume de informações cada vez maiores, dificultando a tarefa de um clínico ter em mente todas as alternativas relevantes a serem consideradas e a utilização de novas tecnologias mais eficazes na coleta dos dados clínicos. A proposta deste trabalho consiste na construção de uma Rede Neural Artificial ou Rede Neuronal Artificial (RNA), utilizando-se dois modelos de regras de aprendizado, o Aprendizado Supervisionado e o modelo Não Supervisionado, simulando-se deste modo o processo de Diagnose Médica. Este trabalho está organizado em 6 capítulos. O Capitulo 1 refere-se a Introdução contendo a motivação para este trabalho e organização dos capítulos. O Capítulo 2 corresponde a uma breve introdução ao estudo da Neurociência onde são abordadas as metodologias mais utilizadas e uma explanação de como se formam as manifestações inteligentes do ponto de vista computacional. O Capitulo 3 apresenta um

estudo sumarizado de RNA ilustrando a modelagem neuronal (neurônio artificial), tipos de Redes mais utilizadas, Redes clássicas do ponto de vista histórico, topologias, dinâmicas, regras de aprendizado, bem como exemplos ilustrativos. No Capítulo 4 é feito estudo dos Sistemas Especialistas (SE) incluindo uma abordagem introdutória à representação do conhecimento, contendo um breve resumo do histórico, características, domínios da operacionalidade, estruturas, exemplos de SE e suas aplicações. E por final comentários e críticas ao SE convencional. O Capitulo 5 faz uma revisão da literatura sobre Informática Médica (IM), fazendo citações aos Sistemas de Apoio à Decisão Médica contendo histórico, classificações, tipos e metodologia aplicadas, no que se refere ao processo cognitivo médico especialmente no diagnóstico diferencial. O Capítulo 6, exibe considerações sobre a área médica de interesse (Meningite). Encontra-se também o objetivo deste trabalho, no qual há uma proposta para construção um Sistema de Apoio a Decisão Médica, baseado no uso de Redes Neurais, com a descrição das ferramentas utilizadas. No Capítulo 7 é feita uma análise dos resultados obtidos, conclusões e recomendações para trabalhos futuros. No Apêndice A pode ser visto, de forma sumarizada, um estudo sobre a Neurologia de forma a capacitar o leitor no entendimento dos processos neurofisiológicos ocorridos no Sistema Nervoso.

Capítulo 2

2.1 - Neurociência

A Neurociência ou Ciência Cognitiva é um estudo interdisciplinar da mente e da inteligência humana, com intuito de compreender como os seres humanos: pensam, raciocinam, como se comunicam uns com os outros e com as máquinas e como se adaptam ao meio ambiente que vivem. Os métodos pesquisados na Ciência Cognitiva normalmente unem metodologias de mais de uma disciplina, especialmente na: IA (que será abordada logo no próximo parágrafo), Ciência da Computação, Lingüística, Neurociência Computacional, Filosofia e Psicologia. O estudo da cognição envolve: trabalhos empíricos em ambientes controlados (como em laboratórios), análises formais, simulações computacionais e formas de fenômenos cognitivos. O objetivo prioritário da Ciência Cognitiva é entender o processo computacional fundamental realizado no cérebro, isto é, o processamento das informações. Os modelos computacionais dos aspectos do raciocínio humano podem servir como “prova de conceitos” para teorias formais e podem conduzir a novas tecnologias computacionais.

Capítulo 2 - Neurociência

A IA é uma ciência que simula e formaliza o raciocínio e o processo lógico. A inteligência está associada à manipulação do conhecimento, isto é, o modo pelo qual utiliza e aplica o conhecimento adquirido (LEHRER, 1974; OSBORN, 1953). As questões de como se formam as “manifestações inteligentes”, e as causas que as provocam, têm sido estudas há muito tempo por pesquisadores da Neurociência. Existem duas respostas do ponto de vista computacional. A primeira é baseada no Simbolismo (ou cognitivismo) e a outra no Conexionismo. No Simbolismo, utiliza-se de símbolos para modelar os conceitos e ações envolvidas no pensamento, enquanto que no Conexionismo utiliza-se de conexões e pesos associados em Rede, numa analogia às Redes Neurais Biológicas, para o mesmo fim. É importante salientar que ambas possuem várias aplicações práticas de sucesso (KARTALOPOULOS, 1996). Dentro da abordagem feita no Simbolismo, a mais importante suposição (amplamente utilizada nos Sistemas de Inteligência Artificial) é a hipótese de um Sistema Físico de Símbolos proposta por NEWELL & SIMON (1976), que tem origem na psicologia. Neste trabalho, a abrangência de tal hipótese pode ser resumida pela seguinte idéia: “Um Sistema Físico de Símbolos tem os meios necessários e suficientes para gerar uma ação inteligente”. Um sistema físico de símbolos consiste de um conjunto de entidades, chamadas símbolos, que são padrões que podem ocorrer como componentes de outros tipos de entidades chamadas de expressão (ou estrutura simbólica). Símbolos designam objetos e o sistema de símbolos possui a capacidade de interpretar as designações. Na tentativa de tornar flexível a rígida Lógica, os cognitivistas aplicam regras sobre seus símbolos e meta-regras sobre regras em um processo seqüencial que se

Capítulo 2 - Neurociência

identifica fortemente com as atividades cognitivistas de “alto-nível”, tais como raciocínio, solução de problemas e o aprendizado de conceitos. A inteligência cognitivista se materializa em heurísticas capazes de tornar eficiente o processo de aplicação de regras para obtenção de um certo objetivo. São nas atividades de “baixo-nível”, tais como a percepção, controle motor e condicionamento, que o caráter seqüencial e centralizador do cognitivismo encontra suas grandes limitações como teoria da inteligência. Nestas atividades, mesmo os mais velozes computadores utilizando programas cognitivistas perdem em eficiência para o processamento neuronal humano. É para este tipo de atividade que a abordagem conexionista é mais usada. O progresso nos estudos em Neurobiologia permitiu que pesquisadores modelassem matematicamente o neurônio biológico e uma RNA foi desenvolvida para simular este comportamento. Da doutrina do neurônio, hoje aceita, concluiu-se que no cérebro humano a informação é processada simultaneamente em grupos de neurônios distantes entre si, surgindo assim o conceito de processamento paralelo e distribuído da informação. Em oposição a Teoria Cognitivista surge então a Teoria Conexionista com estreita relação com a Neurociência. Para os conexionistas a informação inteligente é processada paralelamente por elementos computacionais simples (neurônios) que trocam sinais inibitórios ou excitatórios através de conexões, cooperando ou competindo entre si. A inteligência conexionista materializa-se nas conexões existentes entre os neurônios, bem como na sua capacidade de excitar ou inibir. A inteligência,

Capítulo 2 - Neurociência

deste modo, emerge do comportamento coletivo dos neurônios de uma Rede e não há neurônios centralizadores de qualquer processo. Há um grande número de teorias e modelos conexionistas sobre os mais variados processos cognitivos, porém pode-se visualizar uma estrutura básica que é comum a todas as propostas (RUMELHART et alii, 1986). Inicialmente, qualquer modelo de processamento paralelo é constituído de um conjunto de unidades computacionais simples chamadas Neurônios. Os neurônios podem assumir variados papéis na representação de símbolos, características ou conceitos, ou ainda não assumir isoladamente nenhum papel neste sentido. Cada neurônio recebe um sinal de entrada de um outro neurônio através de ligações especiais chamadas sinapses. Alguns sinais de entrada tendem a excitar o neurônio, outros tendem a inibi-lo. Quando o efeito cumulativo excede um valor limiar (ou valor de “threshold”), o neurônio dispara um sinal de saída. Cada neurônio artificial recebe um conjunto de sinais de entrada. Cada entrada é multiplicada pelo peso (ou ganho) a ela associado. O somatório dos pesos determina o grau de disparo, chamado de Nível de Ativação. O fato de os neurônios executarem suas funções simultaneamente gera a capacidade de processamento paralelo da Rede. Em termos notacionais, cada entrada xi é modulada pelo peso wi , e o total de entradas é expresso pelo somatório:

x w i

i

ou sob a forma vetorial: X .W

i

Onde: X = [ x1, x2, ..., xn ] e W = [ w1, w2, ..., wn ] O sinal de entrada é então processado pela Função de Ativação para gerar o sinal de saída. A função de ativação pode ser o próprio “threshold” ou pode-se ainda utilizar

Capítulo 2 - Neurociência

as funções sigmóide, tangente hiperbólica e degrau. O comportamento dinâmico das RNA são descritos por equações diferenciais ou por equações de diferença. A RNA pode ser representada graficamente através de nós e arcos. Os nós correspondem aos neurônios e os arcos correspondem às conexões ao longo das quais o sinal do fluxo de entrada percorre a Rede (Figura 2.1).

Rede Neural Artificial Neurônios Conexões

Entrada

Saída

(dados e problemas)

(soluções e resultados)

Figura 2.1: Modelo básico de uma R NA, com uma camada de entrada (circunferência transparente), uma camada intermediária (quadrado) e uma camada de saída (circunferência cinza)

As vantagens computacionais das RNA segundo FU (1994) são:

 Aquisição de conhecimento mesmo ocorrendo ruídos: As RNA podem generalizar, abstrair e extrair propriedades estatísticas dos dados de entrada.  Representação flexível do conhecimento: As RNA podem criar sua própria representação por Auto-organização.

Capítulo 2 - Neurociência

 Processamento eficiente do conhecimento: As RNA podem processar em paralelo e em tempo real. Computadores especiais têm sido desenvolvidos para explorar este tipo de vantagem.  Tolerância a falhas: Devido à representação distribuída do conhecimento, a retirada de um ou mais neurônios da Rede não prejudica sua performance.

As RNA podem reconhecer, classificar, converter e aprender padrões. Padrão é uma descrição qualitativa ou quantitativa de um objeto, conceito ou evento. Uma classe de padrões é um conjunto de objetos que possuem as mesmas propriedades. Reconhecimento de padrões refere-se à categorização dos sinais de entrada em classes identificadas pelo reconhecimento de características significantes ou atributos destes sinais.

2.2 - Conceitos Básicos de uma Rede Neural

A construção de uma RNA envolve as propriedades associadas à Rede como um todo, sua dinâmica de operação e as propriedades dos nós que a compõem. A seguir descreve-se introdutoriamente estas propriedades. Em KARTALOPOULOS (1996), HAYKIN (1994) e LOESCH & SARI (1996) pode-se encontrar estes assuntos de forma mais abrangente.

Capítulo 2 - Neurociência

2.2.1 - Propriedades da Rede A topologia da Rede (conectividade) refere-se ao número de camadas e ao número de nós por camada. Pode-se ter três tipos camadas ou somente a de entrada e a de saída.  Camadas de Entrada,  Camadas Escondidas ou Intermediárias, e  Camadas de Saída De acordo com o tipo de conexão pode-se ter um fluxo para frente (“feedforward”) onde o sinal percorre a Rede em uma só direção e o fluxo recorrente (“feedbackward”), quando tem-se “loops” (de processamento). A capacidade de armazenamento da Rede é determinada pela quantidade de “bits” de informação que poderá conter. A capacidade discriminante da Rede refere-se ao número de padrões que é capaz de discriminar (classificar). Esta capacidade é baseada nas características lineares, não-lineares e multi-lineares da Rede conforme será visto no Capítulo 3.

2.2.2.1 - Propriedades dos Nós Refere-se a amplitude da ativação, ou seja, podem assumir valores discretos (0 e 1) ou contínuos entre [0, 1], de acordo com a função de ativação (de transferência) utilizada. Para a função degrau utiliza-se 0 (ou –1) e 1. No caso da função sigmóide pode-se usar o intervalo entre [0 , 1]. Os pesos podem assumir valores reais ou inteiros, positivos ou negativos.

Capítulo 2 - Neurociência

2.2.2.2 - Propriedade Dinâmica da Rede O processo de inicialização dos pesos é particular para cada Rede, em alguns casos são inicializados randomicamente com números reais pequenos. A Regra de Aprendizado é o atributo mais importante a ser especificado. Ela determina como adaptar os pesos para otimização da Rede, isto é, indica como calcular o ajuste dos pesos durante cada ciclo de treinamento. Os tipos de aprendizado têm sido inspirados nas Redes neurais encontradas na natureza (biológicas). As duas maiores categorias são: Aprendizado Supervisionado e Aprendizado Não Supervisionado. No primeiro, durante a sessão de treinamento da Rede, um estímulo de entrada é aplicado e um resultado de saída é obtido. Esta resposta é comparada, a priori, com a saída desejada (ou resposta objetivo). Se houver diferença entre a entrada e a saída desejada, a Rede gera um sinal de erro que será utilizado para calcular o ajuste dos pesos, até que não haja diferença, ou então até que se alcance um limite de erro tolerável. Em outras palavras, o erro é deste modo minimizado. O processo de minimização do erro requer o uso de uma estrutura especial que ficou conhecida como Professor ou Mestre, que tem o papel de conferir a resposta da Rede e compara-la com o padrão, gerando uma correção que só será nula se a resposta estiver correta. O exemplo clássico deste tipo de Rede é o Perceptron de Múltiplas Camadas. Em contraste com o aprendizado supervisionado, o não supervisionado não requer a figura do mestre, pois não existe o sinal de saída desejado (ou objetivo). Durante a sessão de treinamento, a Rede recebe nas suas entradas diferentes tipos de excitações, ou padrões de entrada, e arbitrariamente organiza-os em categorias. Quando um estímulo é aplicado, a Rede produz um sinal de saída que indica a que classe o

Capítulo 2 - Neurociência

estímulo pertence. Se a classe não é localizada nas classes armazenadas, então uma nova é gerada. Embora o aprendizado não supervisionado não necessite da figura do mestre, este aprendizado requer uma metodologia para que se determine como será feita a formação das classes ou grupos, extraindo características similares nos tipos dos padrões de entrada. A Rede de KOHONEN (KOHONEN, 1982) segue esta filosofia de treinamento. Existem outros tipos de aprendizado baseados no comportamento psicológico tais como: Aprendizado Competitivo (LOESCH & SARI, 1996) e Aprendizado Hebbiano (HAYKIN, 1994), entre outros.

2.3 - Classificação Funcional

O modelo computacional neural pode ser caracterizado em termos de sua aplicação:  Classificação: classifica uma entrada em um número finito de categorias.  Associação: Recupera um objeto (memória) baseado somente numa parte deste mesmo objeto.  Otimização: Calcula a melhor solução, normalmente minimizando o custo de uma função.  Auto-organização: Organização de informações recebidas utilizando-se da capacidade de aprendizado adaptativo .

Capítulo 3

3.1 - Redes Neurais Artificiais

As RNA, ou como alguns autores preferem denominar, Neurocomputação ou Rede Conexionista são sistemas computacionais de processamento paralelo que têm capacidade de armazenar conhecimento empírico e torná-lo disponível para o uso quando necessário. Em HAYKIN (1994), as RNA assemelham-se ao cérebro humano por dois fatores:

 O conhecimento é adquirido através do processo de aprendizagem.  A intensidade das conexões entre os neurônios, conhecidas como pesos sinápticos, são usados para armazenar este conhecimento.

Basicamente as RNA têm a intenção de modelar a forma de como o cérebro executa uma específica tarefa ou função de interesse, baseada em processos neurofisiológicos cognitivos e comportamentais.

Capítulo 3 - Redes Neurais Artificiais

3.2 - Modelagem neuronal

A origem da teoria de RNA é relativamente recente. Em meados da década de 40, McCULLOCH & PITTS (1943) foram os primeiros a propor um modelo computacional para o neurônio biológico, fazendo uma analogia entre as células nervosas e o processo eletrônico computacional. Segundo LOESCH & SARI (1996), as características básicas que tornaram possível a modelagem matemática do neurônio foram:  Que os neurônios comportam-se como somadores algébricos,  Possuem uma propriedade limiar, isto é, quando as entradas integradas excedem um determinado valor, disparam um sinal através do axônio. Na discussão proposta por McCULLOCH & PITTS (1943), o raciocínio é equivalente ao cálculo proposicional, que por sua vez pode ser implementado por funções booleanas, fazendo desta forma a ligação entre inteligência e atividade nervosa de forma científica. Explorando o princípio de integração espacial-temporal não linear dos estímulos, o neurônio de McCULLOCH & PITTS pode ser modelado por um caso particular de discriminador linear, tornando evidente sua capacidade de operar como um classificador de padrões. Os neurônios artificiais são unidades de processamento de informações extremamente simples compostos por 2 elementos básicos :  Função Somatório: É a combinação linear dos sinais de entrada com os respectivos pesos associados.

16

Capítulo 3 - Redes Neurais Artificiais

 Função de Ativação: Responsável pelo envio do sinal de saída. A Figura 3.1 ilustra o neurônio booleano contendo o vetor X , dos valores ou sinais de entrada, (as variáveis de entrada e de saída pertencem ao domínio binário 0 ou 1), e o vetor de pesos ou ganhos W a eles associados. x1 w1

y w2 x2



Figura 3.1: Neurônio Booleano de McCulloch-Pitts

No Neurônio propriamente dito, é feita a combinação linear, que é dada por:

y 

p

x i 1

i

wi

(eq. 3.1)

Se o resultado desta operação for maior ou igual que um certo valor limiar  (theta) ou como é conhecido, “threshold”, implicará que a saída y será um pulso, caso contrário a saída será não pulso (Equação 3.2). O que eqüivale a Verdadeiro/Falso do cálculo da lógica proposicional de ordem zero, ou então, Zero/Um da álgebra booleana.

 1 se  x i wi  0  y   0 caso contrário 

(eq. 3.2)

Este modelo propiciou uma rápida disseminação do entendimento de modelos neurais, atraindo e influenciando muitos pesquisadores.

17

Capítulo 3 - Redes Neurais Artificiais

3.3 - Representação do Conhecimento

Segundo CHURCHLAND et alii (1990), a característica fundamental do sistema nervoso é a propriedade de modificação com a experiência, propiciando uma adaptação mais rápida às novas situações. Estas mudanças adaptativas são genericamente referidas como plasticidade e refletem a habilidade do sistema nervoso de se reorganizar, até certo ponto, para atender às novas necessidades impostas pelo ambiente. Em FISCHLER & FIRSCHEIN (1987), tem-se que o conhecimento é a tarefa que o cérebro desempenha de ordenar o fluxo contínuo das informações sensoriais recebidas do ambiente e, retirar deste conjunto, dados que sejam relevantes ao aprendizado. A aquisição do conhecimento é feita em duas etapas. A primeira refere-se a Fase do Aprendizado, onde a Rede é submetida a um par de treinamento, quando ocorre a associação das entradas fornecidas com as saídas desejadas. Após a Rede “aprender” a classificar os padrões, ela é então submetida a pares de treinamento que ainda não foram testados, e assim, é verificado o grau da performance da Rede, ou seja, se a Rede adquiriu a capacidade de generalização, constituindo a Fase de Generalização. De acordo com KOVACS (1997), “Aprender implica em armazenar, de alguma forma, informações passadas e utilizá-las em momento oportuno. O conhecimento adquirido é, de alguma maneira, registrado na própria conectividade dos circuitos cerebrais”.

18

Capítulo 3 - Redes Neurais Artificiais

Aprender dentro do contexto de RNA é o processo no qual os parâmetros livres (pesos e “threshold”) são continuamente adaptados pelo ambiente no qual a Rede se encontra até que se obtenha a performance desejada. Considere o neurônio i, com sinal de entrada xi, peso sináptico wi e seja V o nível de atividade interna deste neurônio (atividade inibitória ou excitatória). Sendo que os sinais xi e V são comumente referidos como atividades pré-sináptica e pós-sináptica respectivamente. Seja wi (n) o valor de wi em um tempo n, então, o fator de ajuste dos pesos

wi (n) é aplicado ao peso sináptico wi (n), produzindo a atualização do valor de wi (n+1): wi (n  1 )  wi (n) 

 wi (n)

(eq. 3.3)

O conjunto de regras bem-definidas para solução de problemas de aprendizado é chamado de Algoritmo de Aprendizagem. Basicamente os algoritmos de aprendizagem diferem-se uns dos outros na forma pela qual o fator de ajuste wi(n) é formulado, ou seja, o tipo de aprendizado depende da maneira pela qual este parâmetro (peso) se adapta. HEBB (1949) propôs que o aprendizado que resulta nas modificações corretas das sinapses, pode ser um processo essencialmente local, envolvendo apenas as excitações pré-sinapticas (xi) e seus efeitos sobre a atividade pós-sinaptica (V) em um neurônio. Dentro deste contexto neurobiológico, HEBB argumentou que se um particular neurônio A excita um neurônio B, e B responde sistematicamente a esta excitação, ocorrem modificações metabólicas que aumentam a eficiência da conexão entre A e B,

19

Capítulo 3 - Redes Neurais Artificiais

independentemente das atividades nas demais sinapses. Este postulado deu origem assim à Teoria Conexionista no que se afirma que o conhecimento não está localizado apenas em um endereço de memória, mas se encontra nas conexões entre os neurônios (sinapses) ficando assim distribuído por todo o sistema nervoso. Deste modo o aprendizado sináptico é massivamente paralelo o que o torna flexível, rápido e eficaz. Sendo assim pode-se ter uma idéia mais clara sobre o termo Aprendizado de uma Rede neural. A formulação do aprendizado HEBBIANO (HAYKIN, 1994) para o ajuste de pesos é dado pelo fator  (Delta).

wi  k (d  y)x i

(eq. 3.4)

Substituindo-se na Equação 3.4 o fator Delta da Equação 3.3 , tem-se que:

wi (n  1 )  wi (n)  k (d  y) x i ed  y

(eq. 3.5)

Onde k é uma constante positiva que determina a taxa de aprendizagem, d é a saída desejada, y a saída obtida, sendo a diferença (d - y) o erro linear e (Equação 3.5). Por esta regra, a alteração do i-ésimo parâmetro w, isto é, o ajuste dos pesos depende, unicamente, do produto da i-ésima entrada, pelo erro linear de saída (e), e pela constante (k). Esta regra ficou conhecida como princípio HEBBIANO (HAYKIN, 1994) de treinamento.

20

Capítulo 3 - Redes Neurais Artificiais

3.4 - Rede Perceptron

ROSENBLATT (1962) propôs um modelo de Rede simplificada conhecida como Perceptron. O Perceptron é uma Rede de neurônios de limiar baseado no modelo de McCULLOCH & PITTS (McCULLOCH & PITTS, 1943) e pode ser definida como um classificador de padrões linearmente separáveis. Em RNA , classificar é o processo de atribuir a uma determinada informação recebida, o nome de uma classe ou padrão à qual ela pertence. Em seu trabalho, ROSENBLATT demonstrou que se fossem acrescidas sinapses (pesos) ajustáveis aos neurônios artificiais de McCULLOCH & PITTS, estes poderiam ser “treinados” para classificar certos tipos de padrões em duas categorias ou classes, dada à sua saída binária. Desta forma, um discriminador linear de p entradas x e uma saída y pode ser definido por: p

y  H (  x i wi   )

(eq. 3.6)

i 1

y  0 ;1

y  H ( wt x   )

A Equação 3.6 representa desta forma, um hiperplano que divide o espaço euclidiano n em duas regiões (C1 e C2) distintas. Esta separação linear requer que os padrões a serem classificados devam ser de modo que a superfície de decisão dada por esta equação, consista apenas de um hiperplano como ilustrado na Figura 3.2a .

21

Capítulo 3 - Redes Neurais Artificiais

C1

C3

C2

Figura 3.2a : Par de padrões linearmente separáveis

C4

Figura 3.2b : Par de padrões não linearmente separáveis

A topologia da Rede consiste em Neurônios de Entrada e uma Camada de Saída. Os Neurônios de Entrada têm função de armazenar as informações (ou sinal) de entrada. A Camada de Saída, ou simplesmente Neurônio, é constituída pela Unidade Sigma U(n) e pela Função de Transferência  (V(n)) (Figura 3.3). Esta camada é responsável pelo processamento e envio do sinal de saída (Figura 3.4) . 1

-1

Figura 3.3: Função de transferência  (V (n))

x1

w1

x2

w2

xp

wP

V



yj



Figura 3.4: Arquitetura básica do perceptron com uma camada, p unidades de entrada e seus respectivos pesos, onde xi é o vetor de entrada, wi é o vetor de pesos e i = 1,..,p

Na Unidade Sigma é feita a soma ponderada de todas as ativações dos neurônios de entrada. Deste valor é subtraído um valor limiar  que é constante para cada

22

Capítulo 3 - Redes Neurais Artificiais

neurônio. O resultado desta operação é aplicado à Função de Transferência que define e envia para fora do neurônio o sinal de saída. Portanto a saída do sinal, ou seja, a resposta y em relação a ativação do j-ésimo neurônio em um dado instante n é dado por:

V(n) 

p

x w i 1

U(n) 

i

p

x w i 1

i

(eq. 3.7)

i

i

   V(n)  

y (n)   ( U(n) )



 ()

(eq. 3.8)

(eq. 3.9)

Consequentemente, a intensidade de resposta y(n) (Equação 3.9), de um neurônio em função do potencial de ativação (Equação 3.8), pode ser representada através de uma função (U(n)) não linear (Função de Heaveside) que cresce monotonicamente dentro de uma faixa dinâmica, em zero por um lado até um valor máximo (ponto de saturação) por outro. A depolarização V(n) (Equação 3.7), que representa a alteração da permeabilidade da membrana celular, é expressa como uma combinação linear dos vetores de entrada xi que chegam com seus respectivos pesos sinápticos wi. A função de transferência () é responsável pela resposta dada pelo neurônio estimulado, podendo ser este estímulo excitatório ou inibitório (Equação 3.10), mas em ambos os casos a resposta é significativa, pois afetará direta ou indiretamente a resposta final da Rede.

23

Capítulo 3 - Redes Neurais Artificiais

 1 se V (n)  0  y (n)    0 caso contrário 

 pulso

(eq. 3.10)  não  pulso

Na discussão proposta por ROSENBLATT (1962) foi utilizado um algoritmo de busca, no qual a Rede começa em um estado inicial e encontra um estado solução, ou seja, encontra os pesos corretos começando com alguma estimativa da definição deixando a Rede modificá-la com base na sua própria experiência. As estimativas que proporcionarem um bom resultado global, terão seus pesos aumentados, enquanto que as outras terão seus pesos diminuídos. A Rede Perceptron suporta um aprendizado supervisionado. A Figura 3.5 ilustra o fluxo das informações neste tipo de supervisionamento. Um conjunto de treinamento é aplicado à Rede e o mestre confere a resposta obtida com a saída desejada.

Par de Treinamento

RNA

saída

Mestre

Algoritmo de Aprendizagem

Figura 3.5: Modelo de Rede com aprendizado supervisionado

O conjunto de treinamento, ou par de treinamento  = {x , d}, onde x é o vetor de entrada e d a saída desejada, deve conter dados exemplares de cada categoria que se deseja que a Rede classifique, ou melhor dizendo, “aprenda”. Basicamente treinar uma Rede até que todos os pares de exemplo tenham sido corretamente classificados significa determinar a equação do hiperplano separador (KOVACS, 1996).

24

Capítulo 3 - Redes Neurais Artificiais

O algoritmo de aprendizagem para o Perceptron permite distinguir classes no conjunto de entrada, se estas forem linearmente separáveis, em termos de alguma superfície de decisão. O algoritmo de treinamento do Perceptron é como a seguir: 1 - Arbitrar pesos para as conexões entre a camada de entrada e a unidade Sigma.

2 - Aplicar o vetor de entrada e calcular a soma ponderada V(n) =  xiwi

3 - Passar a soma ponderada para a função de transferência: * Se a saída estiver correta, voltar para o passo 2 * Senão, se saída estiver incorreta e for 0 (zero), adicionar a cada peso das conexões os sinais de entrada relativos a ela. * Senão, se saída for incorreta e for igual a 1 (um), subtrair de cada peso os sinais de entrada relativos a ela. 4 - Voltar passo 2.

O modelo Perceptron é ainda estudado atualmente, mais por razões históricas, do que por sua potencialidade. Precursor das RNA atuais, serviu para introduzir as estruturas básicas que até hoje são utilizadas. Mesmo tendo uma arquitetura simples e capacidade limitada, este modelo possui grande potencial na classificação de padrões, sendo sua teoria fundamental para muitas outras formas de RNA.

25

Capítulo 3 - Redes Neurais Artificiais

3.5 - Rede Adaline

Na mesma época

em que ROSENBLATT trabalhava na Rede Perceptron,

WIDROW & HOFF (1960) desenvolveram um modelo neuronal conhecido como Adaline - “Adaptive Linear Element” e mais tarde a sua generalização multidimensional Madaline - “Multiple Adaline”. x0

(+) saída desejada +1 / -1

 (n)

+1 w0

(-) saída obtida -1/ +1

x1

w1

-1/ +1

xp

wP

V



yj

Figura 3.6: Rede Adaline com p unidades de entrada e seus respectivos pesos, onde x i é o vetor de entrada, wi é o vetor de pesos, x0 é o valor do “threshold” e w0 o peso a ele associado, sendo i = 1,..,p

A Figura 3.6 ilustra a Rede Adaline, onde o sinal de entrada binário assume valores  1. No neurônio propriamente dito é feita a combinação linear dos vetores de entrada com os respectivos pesos associados. O sinal de saída recebe o valor +1 se esta soma ponderada for maior que o valor de “threshold”, e –1 em caso contrário.  1 se V (n)   y (n)    1 se V (n)  

(eq. 3.11)

O valor de “threshold” é tratado como um peso sináptico e está permanentemente conectado a uma entrada fixa +1. O algoritmo utilizado para

26

Capítulo 3 - Redes Neurais Artificiais

atualização dos pesos e do “threshold” é o LMS - “Least Mean Square” ou Regra de Delta (WIDROW & HOFF, 1960). Onde dado um conjunto de padrões de entrada x1 , x2 , ..., xp , e de saídas desejados d, encontre o melhor conjunto de pesos w1, w2, ...,wp, que minimize o erro quadrático (2). Este método tem por objetivo a redução do gradiente da função, de modo que se obtenha a melhor aproximação linear possível, no sentido do mínimo erro quadrático, diferentemente do Perceptron que utiliza a diferença ponderada simples. O gradiente (J) é um vetor que informa a direção em que devemos percorrer no espaço de pesos. Neste caso devemos determinar um W* , tal que o erro quadrático

2(W*) sobre todo o conjunto de observações seja mínimo possível, isto é, verifique-se que 2(W*)  2(W) para W  n. Evidentemente que, se os pontos do conjunto de treinamento estiverem relacionados linearmente e a função que se pretende aproximar for linear, então o mínimo erro quadrático será nulo. A condição necessária para que W* seja um ponto de mínimo interno é que ali o gradiente da função seja nulo.

W J  0 

J w

(HAYKIN, 1994)

(eq. 3.12)

A Regra de Delta calcula o erro linear de saída na n-ésima iteração, após ser apresentado o n-ésimo padrão de treinamento que é dado por:

e (n)  d (n)  y (n)

(eq. 3.13)

o erro quadrático para este neurônio é:

 (n) 

1  e 2 (n) N

(eq. 3.14)

onde N = n° de pares de treinamento.

27

Capítulo 3 - Redes Neurais Artificiais

O nível de atividade interna V(n) produzido pela entrada associada a este neurônio é dado por:

V (n) 

p

 w (n) x i 0

i

i

(eq. 3.15)

(n)

Onde p é o número total de entradas aplicadas, e cujo sinal de saída é:

y (n)   (V(n))

(eq. 3.16)

Então, derivando-se a função erro em relação ao peso temos:

 (n)  (n) e(n) y (n) V(n)  wi e(n) y (n) V(n) wi (n)

(eq. 3.17)

Derivando-se a Equação 3.13, 3.14, 3.15, 3.16 temos sucessivamente:  (n)  e(n) e(n)

e(n)  1 y(n)

V(n)  x i (n) wi (n)

y (n)   ' (V(n)) V(n)

Substituindo-se o resultado obtido das 4 operações na Equação 3.17 :

 (n)   e(n)  ' (V(n)) x i (n) wi

(eq. 3.18)

A correção do peso é definida pela Regra de Delta (WIDROW & HOFF, 1960):

wi ( n)   

( n) wi ( n)

(eq. 3.19)

Substituindo-se a Equação 3.18 na Equação 3.19 tem-se que:

wi (n)    [  e(n) ' (V (n)) xi (n)]

(eq. 3.20)

Chamando-se o gradiente local de  (n ) , então:

 (n)  e( n )  ' (V(n))

28

(eq. 3.21)

Capítulo 3 - Redes Neurais Artificiais

A correção de pesos deste modo será: wi ( n )   ( n ) xi ( n )

(eq. 3.22)

Basicamente a proposta de WIDROW & HOFF (1960) foi obter o ponto de mínimo através de um processo de iteração local, utilizando um exemplo de treinamento por vez, partindo-se de um ponto arbitrário w, caminhando pela superfície de erro (W) em direção do ponto de mínimo, bastando para isto evoluir sempre no sentido oposto ao do gradiente naquele ponto. O treinamento desta Rede se dará ao apresentar-se pares de exemplos formados por um vetor de entrada x, e um vetor de saída desejado d, computando-se o erro linear e(n). Então, a adaptação dos pesos de entrada será feita aplicando-se :

wi ( n  1 )  wi ( n )   wi ( n )

(eq. 3.23)

O algoritmo LMS é apresentado abaixo, o qual ilustra claramente sua simplicidade:

1 - Inicialização. wi(1) = 0 para i = 1, 2,....,p

2 - Para o tempo n = 1, 2, ......., Calcule. y(n) =  wi(n)xi(n) para i = 1, 2, ......,p e(n) = d(n) – y(n) wi (n+1) = wi(n) +  e(n)xi(n) para i = 1, 2,....,p

29

Capítulo 3 - Redes Neurais Artificiais

3.6 - Rede Perceptron Multicamadas

O método do gradiente aplicado ao problema de se determinar a melhor aproximação linear a um conjunto de dados (Regra de Delta), preparou o terreno para introduzir mais tarde, principalmente, por RUMMELHART et alii (1986), o método da Retropropagação - “BackPropagation” para RNA de múltiplas camadas que constituem a mais difundida e largamente utilizada dentre todas as arquiteturas e dinâmicas de RNA correntes conhecidas. As Redes com uma ou mais camadas intermediárias ou “escondidas” são uma extensão dos Perceptrons. Este tipo de Rede pode ser treinada para acompanhar uma larga variedade de mapeamentos complexos. Dentre as características das Redes Multicamadas destacam-se:  Capacidade de Abstração: Os neurônios das camadas intermediárias aprendem a responder às características encontradas na entrada, possibilitando uma representação abstrata da informação.  Capacidade de Generalização: A Rede é capaz de classificar corretamente um padrão complexo, mesmo quando este não pertencer ao conjunto de treinamento da Rede.  Robustez: São imunes a pequenas falhas. A retirada de algum neurônio não compromete, geralmente, as características funcionais da Rede, e são capazes de reconhecer padrões, mesmo na presença de distorções ou ruídos.

30

Capítulo 3 - Redes Neurais Artificiais

 Função de ativação: Este tipo de Rede exige que a função de ativação seja contínua e diferenciável em todo domínio de . A função de ativação comumente utilizada e que satisfaz a condição de não linearidade sigmoidal é a função logística, que tem derivada na forma simples, do tipo:

 (V(n)) = y(n)[1 – y(n)].  y (n) é a saída 1  y ( n)  onde :  V ( n ) 1e V(n) é o nível de atividade interna 

A função logística é biologicamente motivada também, pois simula o período refratário absoluto do neurônio real. Depois da emissão de um pulso, o neurônio real é incapaz de emitir um segundo sinal durante um certo tempo. Esse intervalo é conhecido como “período refratário absoluto”.

Camada j

Camada k ek(n)

Vj

x0 = -1



Vk



+ dk(n)

w0j = j - yk(n) xi

wij

wpp xp

Vj



VJ



yj(n)

wjk

Vk



Vk



Figura 3.7: Rede multicamadas com p unidades de entrada e seus respectivos pesos. A camada de saída dos neurônios k é conectada aos neurônios j da camada escondida

31

yk(n)

Capítulo 3 - Redes Neurais Artificiais

A Figura 3.7 destaca a arquitetura de uma Rede multicamada com apenas uma camada intermediária, a camada j. A Rede ilustrada acima é amplamente conectada, o que significa que os neurônios de uma camada estão conectados com todos os neurônios da próxima camada. O fluxo do sinal atravessa a Rede progressivamente, camada por camada em direção à frente. Os sinais de entrada assumem valores discretos nos intervalos [0,1] ou [-1,+1], e o sinal de saída assume os seguintes valores:   1 yk      1 ou 0

verdadeiro

se

Vj  0

falso

se

Vj  0

O algoritmo de treinamento mais comumente utilizado neste tipo de topologia é o da Retropropagação, “BackPropagation” (BP), Segundo GUALBERTO (1998), “O BP é uma algoritmo que visa resolver o problema do aprendizado de uma RNA de múltiplas camadas utilizando a Regra de Delta Generalizada. Este método combina a capacidade de tomada de decisão de sistemas não lineares do tipo perceptron com a objetividade do conceito de mínimo erro quadrático”. Neste algoritmo dois tipos de sinais são observados: o sinal da função de ativação e o sinal do erro. O sinal da função de ativação é um sinal que vem da camada de entrada e se propaga para frente através da Rede e emerge na camada de saída. Este sinal é calculado como uma função de ativação do vetor de entrada associado ao peso e aplicado ao próximo neurônio da próxima camada. O sinal do erro tem origem na camada de saída da Rede e se propaga para trás (retropropaga), camada por camada

32

Capítulo 3 - Redes Neurais Artificiais

através da Rede. Chama-se sinal de erro por que o cálculo feito em cada neurônio envolve a função erro de correção dos pesos (Figura 3.8). O método de correção de pesos utilizado no algoritmo BP é o método do gradiente descendente, cujo objetivo é reduzir o erro quadrático da Rede.

Sinal da Função Sinal do Erro

Figura 3.8: Direção dos fluxos encontrados em Perceptrons multicamadas fluxo para frente do sinal da função e fluxo retropropagado do sinal do erro

3.6.1 - Regra de Delta Generalizada Se um neurônio j qualquer, (ver Figura 3.7) for um nó na camada de saída, então, de acordo com a Equação 3.21, pode-se redefinir o gradiente local como sendo:

 j (n) 

 (n) y j (n) y j (n) Vj (n)



 (n) '  (Vj (n)) y j (n)

(eq. 3.24)

Rescrevendo a equação do erro:

 (n) 

1 N

e

2 k

(n)

(eq. 3.25)

k

Substitui-se o índice j por k, pois o índice j refere-se ao neurônio na camada escondida e k o neurônio na camada de saída. O gradiente local j(n) para o neurônio j na camada escondida é dado por:

 j (n)   'j (Vj (n))  k (n) w jk (n) k

33

(eq. 3.26)

Capítulo 3 - Redes Neurais Artificiais

Na aplicação do Algoritmo BP, duas fases distintas são observadas. O primeiro passo é a propagação do fluxo para frente e em segundo a retropropagação do erro. No fluxo de propagação para frente, os pesos mantêm-se inalterados, e a função de ativação aplicada ao neurônio j é computada. A fase de propagação para frente começa na primeira camada escondida e termina na camada de saída calculando-se o sinal de erro para cada neurônio desta camada. A fase de retropropagação começa na camada de saída e recursivamente calculase o gradiente local para cada neurônio. Este processo recursivo permite as correções dos pesos de acordo com a Regra de Delta. Para neurônios localizados na camada escondida usamos a Equação 3.26 , isto é, a Regra de Delta Generalizada e a computação recursiva continua camada por camada. Esquematizando-se o algoritmo BP procede da seguinte forma: 1º - A correção wij(n) aplicada ao peso sináptico no neurônio j associado ao o neurônio k é definida pela Regra de Delta:  wij         taxa  Correção      dos pesos   aprendizag em     

  j (n)    .  gradiente   local   

 yj    .  sinal de   saída   

2º - O gradiente local depende de onde este neurônio se encontra. Se o neurônio é um nó na camada de saída, então j(n) é igual ao produto da derivada

j’ (Vj(n)) pelo o erro ej(n), contudo se o neurônio pertence a camada escondida então, j(n) é igual ao produto da derivada j’ (Vj(n)) pela a soma ponderada

 k(n)wij(n) dos  computados para os nós da próxima camada escondida ou camada de saída conectada a este neurônio.

34

Capítulo 3 - Redes Neurais Artificiais

Em GUALBERTO (1998), encontra-se um estudo comparativo entre a implementação do Algoritmo “BackPropagation” e o modelo proposto por GALLANT (1988), o qual será abordado no próximo capítulo. Este estudo foi aplicado ao problema de estabilidade de encostas situadas ao longo de uma rodovia, tendo propiciado a introdução de uma nova metodologia para avaliação da instabilidade de taludes.

3.7 - Rede Kohonen

Diferentemente das Redes abordadas até o presente momento, a Rede KOHONEN (1972, 1982) possui um aprendizado não supervisionado, conhecido como mapeamento auto-organizável (Figura 3.9). Este tipo de Rede foi inspirada no cérebro de mamíferos, cuja entrada de dados visuais, táteis e auditivos são mapeados em regiões no cérebro. Por exemplo, quando são tocadas algumas partes do corpo humano que estão muito próximas, grupos de células neurais que localizam-se nas proximidades umas das outras são ativadas em conjunto.

Par de Treinamento

saída

RNA

Algoritmo de Aprendizagem Figura 3.9: Modelo de Rede com aprendizado não supervisionado

35

Capítulo 3 - Redes Neurais Artificiais

Neste tipo de aprendizado, não há qualquer conhecimento de qual deverá ser a resposta correta, e o que pode vir a ser uma resposta incorreta. O que pode-se esperar deste modelo é o processo de construção de grupos de padrões de entradas que sejam similares, processo este chamado de Clusterização. Este método tem a característica de reduzir a dimensão dos dados. Exemplificando: no reconhecimento da fala, os dados medidos são volumosos, se estes forem submetidos ao processo de cluster, diminuir-seá para 500 ou 100 grupos ou padrões correspondentes aos mesmos fonemas. Na Rede KOHONEN os neurônios estão dispostos em planos (ou matriz), uni ou bidimensional. Estes neurônios ou células são dotados com os mesmo componentes físicos da Rede Perceptron (Unidade Sigma e Função de Transferência). A Figura 3.10 ilustra os neurônios de saída dispostos no nó do “grid”. A vizinhança (região losangular tracejada) da célula xh,i constitui-se de células próximas a esta, que estão num raio de distância D.

xh,i

D

Figura 3.10: Rede Kohonen ilustrando a vizinhança da célula xh,i .

36

Capítulo 3 - Redes Neurais Artificiais

É mais conveniente usar dois ou mais índices subscritos quando trabalha-se com grid (ou matriz). Deste modo: Neurônio de saída: xh,i

 h é o índice da linha, i índice da coluna

Peso sináptico: wh,i ; j

 h , i índice do neurônio de saída e j índice da entrada

O aprendizado não supervisionado utilizado nesta Rede é do tipo competitivo. Neste caso, os neurônios competem entre si para serem ativados, o que resulta que somente um neurônio, ou um grupo de neurônios, estará ativado. Os neurônios que estiverem ativados receberão o nome de Neurônios Vencedores que são designados por i(x), e recebem valor +1. Neste sentido o postulado HEBBIANO de treinamento tornase ineficaz, pois a adaptação dos pesos ocorre somente em uma direção, acarretando uma saturação. Para contornar este tipo de problema são incluídos dois novos termos: o Termo de Esquecimento e a Função Vizinhança. O Termo de Esquecimento é dado por g(yj)wj, onde: wj é o peso sináptico do neurônio j e g(yj) é uma função escalar positiva da resposta yj . A única condição imposta à função g(yj) é que o termo constante na expansão da Série de Taylor seja zero. g(yj) = 0

para

yj = 0

j

(eq. 3.27)

A equação diferencial que definirá o mapeamento é dada pela equação (HAYKIN, 1994): w   y j x  g(y j )w j t

j  1,...M

37

(eq. 3.28)

Capítulo 3 - Redes Neurais Artificiais

onde:

t é o tempo

 é uma constante positiva (designada de fator de aprendizagem) O outro fator adicionado é a Função Vizinhança i(x), em torno do neurônio vencedor i(x).  1 neurônio j ativo (dentro da vizinhança i(x) )  yj    0 neurônio j inativo (fora da vizinhança  ) i( x ) 

(eq. 3.29)

O termo g(yj) pode ser expresso sob a forma:

  neurônio j ativo  g(y j )    0 neurônio j inativo 

(eq. 3.30)

Onde  é uma constante positiva, e a segunda linha da equação acima é conseqüência da Equação 3.27. Simplificando-se a Equação 3.28:  x     t  0 

w j

w j

neurônio dentro da vizinhança i( x )

(eq.3.31) neurônio fora da vizinhança i( x )

Como  e  são constantes positivas, sem perder a generalidade pode-se rescrever a equação acima na forma:   ( x  w j ) neurônio dentro da vizinhança i ( x )    t  0 neurônio fora da vizinhança i ( x ) 

w j

(eq. 3.32)

A adaptação dos pesos (em notação de tempo discreto) é feita utilizando-se:

38

Capítulo 3 - Redes Neurais Artificiais

 w j (n)   (n) [ x  w j (n)]  w j (n  1)    w (n) caso contrário  j

j  i ( x )

(eq. 3.33)

O processo de classificação de padrões obtido através da Rede KOHONEN é baseado no Grau de Similaridade existente entre os padrões de entrada Existem várias formas de se mensurar o grau de similaridade. As duas formas mais utilizadas em RNA são baseadas na Distância Euclidiana e no Produto Interno. Para ser mais específico, seja xi um vetor de dimensão mx1 Xi

= [ xi1, xi2,..., xim]T Com elementos pertencentes aos reais e T representando a matriz transposta. O

vetor xi define um espaço vetorial num espaço m-dimensional chamado espaço Euclidiano denotado por m . A Distância Euclidiana entre um par de vetores mx1 xi e xj é definida por: m

1

d (xi , xj) = xi  x j  [  ( xi k  x j k ) 2 ] 2 k 1

Onde: xik e xjk são os k-ésimos elementos dos vetores xi e xj respectivamente. Quanto mais próximos os elementos dos vetores xi e xj estão um do outro, menor será a distância Euclidiana d(xi , xj), e desta forma maior será o grau de similaridade entre eles. Logo se os vetores acima são similares, então eles devem pertencer à mesma classe ou categoria. A outra forma de calcular o grau de similaridade é baseado no Produto Interno. Dado um par de vetores xi e xj de mesma dimensão, o Produto Interno deles será xiT x j , que escrito na forma expandida:

39

Capítulo 3 - Redes Neurais Artificiais

m

xi , x j  xiT x j    xi k x j k k 1

O Produto Interno destes vetores dividido pelo produto da norma xi . x j

éo

coseno do ângulo  subtendido entre os vetores xi e xj (Figura 3.11). A Distância Euclidiana entre estes vetores está relacionada à projeção do vetor xi sobre o vetor xj . A Figura 3.11 ilustra claramente que a menor Distância Euclidiana implica em que os vetores xi e xj sejam mais similares e, consequentemente terão o maior produto interno. xi

xi  x j  xj xi + xj Figura 3.11: O produto interno determina a distância, sendo a mínima distância correspondente ao máximo valor do produto interno (HAYKIN, 1994).

Assume-se uma matriz n x n de neurônios de saída, p-entradas e um conjunto de treinamento {Ek}, na elaboração do algoritmo. Para cada exemplo de treinamento Ek tem-se um neurônio de saída xh,i cujos pesos serão wh,i;* . Utilizando-se esta notação o algoritmo de treinamento será: 1- Inicialização: Atribua valores aleatórios para o vetor de peso wj(0). A única restrição é que wj(0) seja diferente para j = 1,2,...M, onde M é o número de neurônios da Rede. (é aconselhável manter o peso com valores baixos (HAYKIN, 1994). 2- Amostragem:

40

Capítulo 3 - Redes Neurais Artificiais

Tire um exemplo do conjunto de entradas. 3 - Similaridade: Determine o neurônio vencedor i(x) no tempo n, usando o critério da mínima distância Euclidiana.

i( x )  min j

x( n)  w j

j  1,2,....M

(eq. 3.34)

4- Atualização: Ajuste os pesos sinápticos dos neurônios usando a Equação 3.33. 5- Volte ao passo 2

3.7.1 - Seleção de parâmetros O processo de aprendizagem neste caso é estocástico, o que significa que a precisão do mapeamento depende do número de iterações do algoritmo e de como os parâmetros  e i são selecionados. Lamentavelmente, não existe uma base teórica para a seleção, utiliza-se comumente o processo de erro e tentativa (HAYKIN, 1994). Em relação ao número de iterações, o que tem sido adotado por determinados pesquisadores são de 500 passos para cada neurônio na camada de saída, que é relativamente grande, se comparado com outros métodos. O parâmetro (n) utilizado para atualização dos pesos deve variar no tempo. Em particular durante as primeiras 1.000 iterações ou mais. Este parâmetro deve começar com valores próximos a unidade e decrescer monotonicamente, mas sempre mantendo-

41

Capítulo 3 - Redes Neurais Artificiais

se acima de 0.1. A variação de (n) pode ser linear, exponencial ou inversamente proporcional ao tempo n . A função i(n) geralmente inclui a vizinhança numa região quadrática em torno do neurônio vencedor. Entretanto, esta função pode apresentar outras formas como hexagonal ou triangular. Em todos os casos, i(n) inclui inicialmente todos os neurônios da Rede e então gradativamente, vai diminuindo o raio D da distância dos neurônios vizinhos ao vencedor (Figura 3.12). i = 0

i = 1

i = 2

i = 3

Figura 3.12: Vizinhança na forma quadrática, i variando de tamanho em torno do neurônio vencedor destacado em preto

Seja X o espaço vetorial das entradas no qual estão definidas as relações métricas dos vetores x  X. Seja A o espaço vetorial das saídas no qual estão arranjados os neurônios, e seja  a transformação linear das características do mapeamento que projeta as entradas X sobre a saída A, então a equação  : x  A , pode ser vista como uma abstração da Equação 3.34 que define a localização do neurônio vencedor i(x).

42

Capítulo 3 - Redes Neurais Artificiais

3.7.2 - Refinamento do Mapa O refinamento é utilizado para aumentar a eficiência da Rede neural em reconhecer classes de padrões discretos para a qual já foi treinada. Existem diversos tipos de ajustes, o que será aqui apresentado é conhecido como LVQ - “Learning Vector Quantization ”.

Ajuste do tipo LVQ: Torna-se necessário a elaboração de um novo conjunto de treinamento que contenha entradas já conhecidas pela Rede, onde procura-se fazer com que o número de iterações do ajuste seja menor que o número de iterações da fase de ordenação. O escalar (n) deve iniciar com um valor baixo (diferentemente da fase de ordenação), assumindo valores na ordem de 0.01 ou 0.02. A taxa de redução de (n) deve ser bem pequena ((n) = 1/100.000). A vizinhança deve ser ignorada, isto é, apenas os pesos do neurônio vencedor devem ser modificados, o restante permanecerá inalterado. Este tipo de ajuste dá um caráter de supervisionamento ao aprendizado. Entretanto, este supervisionamento só ocorrerá no final do treinamento, ficando por conta da fase inicial o processamento mais significativo, além do fato de que a Rede, mesmo sem este refinamento, já reconhecer padrões dados. Assim, apesar da característica supervisionada marcante no final do treinamento, a Rede KOHONEN ainda é considerada não supervisionada.

43

Capítulo 3 - Redes Neurais Artificiais

3.8 - Redes Ressonantes

A Teoria de Adaptação Ressonante ou ART, “Adaptive Resonance Theory” foi desenvolvida por CARPENTER & GROSSBERG (1991), consiste em um sistema que auto-organiza padrões de entrada em categorias ou classes, mantendo o equilíbrio entre as propriedades de plasticidade e estabilidade. A memória humana é muito mais do que um repositório passivo da informação, porém o armazenamento é um dos seus processos fundamentais. A recuperação da informação é o meio que se possui para que se averigúe se a informação foi armazenada. A memorização humana é feita de modo singular, onde o conhecimento recém adquirido é estocado, de maneira que o existente não seja modificado ou apagado. GROSSBERG (1980) define este problema como dilema plasticidade-estabilidade: “Como pode um sistema de aprendizagem ser designado a permanecer plástico, ou adaptativo, em resposta a eventos significantes, e ainda permanecer estável em resposta a eventos irrelevantes? Como fazer o sistema saber como comutar entre os seus modos estável e plástico, alcançando estabilidade sem rigidez e plasticidade sem o caos? Em particular, como ele pode preservar seus conhecimentos aprendidos anteriormente, enquanto continua aprendendo novas coisas? Como prevenir o novo aprendizado de limpar a memória do aprendizado prioritário?” Segundo WASSERMAN (1988), a arquitetura desta Rede foi feita de forma plausível biologicamente, ou seja, seus mecanismos tencionam ser consistentes com os

44

Capítulo 3 - Redes Neurais Artificiais

do cérebro. E o dilema plasticidade-estabilidade- é contornado pelo uso de um padrão ressonante na Rede. O propósito da Rede ART é mostrar como incorporar um modelo de aprendizado competitivo, dentro de uma estrutura de controle auto-organizada, cujo reconhecimento e aprendizado autônomo continuam estáveis em resposta a uma seqüência arbitrária de padrões de entrada. Autônomo significa sem controle externo, isto é, independente. Os sistemas de aprendizado autônomo têm que aprender através de seus erros, suas observações e experiências do mundo. Estes sistemas devem possuir capacidade de generalização, e para isto necessitam reorganizar-se quando necessário. Detalhes que não possuíam importância anteriormente podem tornar-se relevantes. A propriedade de se auto organizar, dentro de um conceito de tolerância, é chamada de vigilância. O diagrama da Rede Ressonante (Figura 3.13) mostra uma configuração modular, onde o sistema está dividido em dois subsistemas ou camadas: Subsistema de Comparação (F1) que recebe e armazena os padrões de entrada, e o Subsistema de Reconhecimento (F2) que responde com a classificação ou associação do padrão de entrada (fase de reconhecimento) e o compara enviando um sinal de saída que retorna (sinal de retorno) para a camada F1 (fase de comparação). Se o padrão de retorno está correto (isto é, similar ao padrão de entrada) então o processo obteve sucesso. Senão, se o padrão de retorno é substancialmente diferente do padrão de entrada, então as duas camadas (F1 e F2) tornam-se ressonantes para frente e para trás em busca do padrão objetivo armazenado. Se o novo padrão não é classificado dentro dos grupos estocados, um novo grupo é criado dentro de um nível de tolerância (parâmetro de vigilância).

45

Capítulo 3 - Redes Neurais Artificiais

Novos padrões do ambiente podem criar categorias de classificação adicionais, mas um novo padrão de entrada não pode alterar uma categoria existente dentro do controle da vigilância. Na fase de reconhecimento, a Rede calcula a resposta de saída cujo valor do peso (B – “Bottom-up”) é bem próximo ao do vetor de entrada (X) em termos do produto interno (B . X). O neurônio que possuir maior função de ativação, será designado de vencedor ou neurônio ressonante. O neurônio vencedor será o único ativo, significando que sua saída será 1 e as demais serão 0 e este valor retornará para camada F1. Na fase de comparação, a Rede efetua o teste de vigilância que consiste em calcular o grau de similaridade (s). s 

t .x x ij

i





(eq. 3.35)

i

O numerador da Equação 3.35 é igual ao número de atributos que possuem os vetores de retorno e o de entrada (vetor R e vetor X respectivamente), enquanto que o denominador é igual ao número de atributos presentes no vetor de entrada (X). Desta forma, esta fração reflete o grau de similaridade entre os dois vetores. Com um valor alto de  (parâmetro de vigilância), a Rede faz pequenas distinções entre as classes. Já com um valor baixo causa agrupamento de padrões de entrada que sejam pouco similares.

Nomenclatura adotada: X = [xi] é o vetor de entrada da Rede C = [ci] é o vetor de saída da camada F2.

46

Capítulo 3 - Redes Neurais Artificiais

Bj = [bij] é o vetor de pesos que sai de F1 para a camada F2 (“Bottom-up”). Tj = [tij] é o vetor de pesos que saem de F2 para a camada F1 (“Top-down”). R = [rj] é o vetor de saída da camada F2 para camada F1 (vetor de retorno).

 é o parâmetro de vigilância (valores entre 0 e 1).

Além das camadas F1 e F2, a Rede possui também duas entradas adicionais que são os ganhos G1 e G2. A saída do ganho G1 e G2 é somente 1 se algum dos componentes do vetor de entrada X é 1, caso contrário assume o valor 0 ( eq. 3.36).

G1 e G 2

1    0 

se (i ) x i  1 e

(j ) r j  0

(eq. 3.36) nos demais casos

Cada neurônio da camada de comparação recebe um sinal de entrada (X), o sinal G1 e o sinal de retorno R (“Top-Down”) da camada de reconhecimento, totalizando 3 sinais de entrada na camada F1. Ao menos 2 destas 3 entradas devem ter valor 1 (regra dos dois terços). Na fase de comparação, se algum dos componentes do vetor R for 1, G1 é forçado a receber valor 0. Neste ponto, o neurônio somente será ativado se o sinal de retorno (R) e o sinal de entrada (X) for 1, de acordo com a regra dos dois terços. Após o neurônio ser ativado, ele passa pelo teste de vigilância, e seu grau de similaridade é menor que o padrão de vigilância (Equação 3.35), então o efeito reset é ativado, já que o padrão de entrada não pertence a nenhuma classe armazenada na unidade de saída. Basicamente o controle “Reset” compara o vetor de entrada X com o vetor R , e é dado por:

47

Capítulo 3 - Redes Neurais Artificiais

 1 se s    Reset    0 se s   

(eq. 3.37)

O efeito do “Reset” ativado obriga que a saída do neurônio disparado na camada F2 seja 0, desabilitando-o durante a classificação corrente, e a Rede torna-se ressonante para frente e para trás, em busca de um padrão estocado que seja similar à entrada. Se não for encontrado a classe ou grupo a qual este vetor de entrada pertença, a Rede então gera uma nova classe que irá contê-lo. E assim, todos os padrões de entrada que destoarem dos estocados serão agrupados em novas classes, segundo características significantes pertencentes a eles. Deste modo, o número de unidades de saída é dinamicamente adaptado durante o processo de aprendizagem. Um padrão R que combine com X é estocado a um nível de similaridade superior ao parâmetro de vigilância, ou seja, s > . Se o teste de vigilância é concluído com sucesso, a Rede entra em um ciclo de treinamento que modifica os pesos “TopDown” e “Bottom-up”. Os pesos “Top-Down” são atualizados pelo produto interno dele próprio pelo vetor de entrada. Os pesos “Bottom-up são atualizados de forma similar, e além disso, também são normalizados. O treinamento neste caso é um processo pelo qual o conjunto de vetores de entrada é apresentado seqüencialmente à Rede, e os pesos são ajustados para que os vetores similares ativem o mesmo neurônio da camada F2. Deste modo o treinamento é realizado de maneira que não se destruam os padrões aprendidos anteriormente.

48

Capítulo 3 - Redes Neurais Artificiais

Para melhor compreensão da dinâmica da Rede ART segue abaixo o algoritmo de treinamento. Suponha-se que a Rede possua na camada de entrada (comparação) N neurônios, e na camada de saída (reconhecimento) M neurônios.

Algoritmo: 1. Inicialização:

t ij (0)  1 , L L 1  N

bij (0) 

0   1

onde L é uma constante L > 1, normalmente L=2 0  i  N 1 , 0  j  M 1

,

2. Aplique o vetor de entrada X na camada F1. 3. Calcule a saída que é dada pela função de ativação f

fj 

N 1

b i0

ij

( k ) . xi

e

0  j  M 1

4. Selecione o melhor exemplar (neurônio vencedor):

f j  máx [ f j ] j

5. Calcule: N 1

s

TX X



t i0

* ij

( k ). x i

N 1

x i0

i

6. Teste de vigilância: Se s   então vá para o passo 8, senão vá para o passo 7. 7. Faça o neurônio vencedor receber valor 0 (zero) e volte ao passo 3. 8. Ajuste os pesos de acordo com:

49

Capítulo 3 - Redes Neurais Artificiais

bij ( k  1 ) 

L .t ij* ( k ). x i N 1

L  1   t ij* ( k ). x i i 0

t ij* ( k 1 )  t ij* ( k ). x i 9. Repita: habilite todos os neurônios desabilitados, então volte para o passo 2.

Exemplificando o algoritmo: Suponha que o neurônio vencedor seja o neurônio j na camada de saída e suponha ainda que: Tj = [1,0,0,0,1,1] , X = [1,0,0,1,0,1]. Parâmetro de vigilância  = 0.6. Então: (T.X) / (i Xi) = 2/3 > . Deste modo, o peso “Top-Down” Tj é ajustado para [1,0,0,0,01]

+

+

Ganho 2

G2

-

Camada de Reconhecimento F2

R Pesos Top-Down Tij

Pesos Botton-up Bij

Vigilância

c

+

+ Ganho 1

-

Reset

Camada de Comparação F1

G1

+

x Figura 3.13: Esquema modular da Rede ART

50

Capítulo 3 - Redes Neurais Artificiais

Modelos ART são adaptáveis para aprender e responder em tempo real, para um mundo não estacionário, com um número ilimitado de entradas, até que se utilize toda a capacidade de memória. Em ROZENTHAL (1997), encontra-se um modelo de Rede utilizado como classificador de padrões no estudo da esquizofrenia, que vem recebendo grande impulso pelo aporte de técnicas modernas de avaliação da estrutura e função do sistema nervoso central,

paralelamente

ao

desenvolvimento

de

métodos

diagnósticos,

mais

operacionalizados e cunhados em estudos estatísticos sofisticados. Foi feita exploração da amostra com o modelo de Rede ART, cujo método de análise é não paramétrica e não linear, visando a busca de agrupamentos segundo padrões completos dos achados (e não comparando-se com índices individuais), por isso mesmo mais próprio a busca de padrões complexos numa amostra. Em seu estudo ROZENTHAL procura avaliar através do rastreamento com RNA as alterações cognitivas presentes em um grupo de esquizofrênicos selecionados segundo os critérios da DSM-IV - “Diagnostic and Statistical Manual of Mental Disorders”, pelo seu caráter mais restritivo, e portanto pressupondo uma amostra mais homogênea. A partir de entrevista selecionou-se 53 pacientes esquizofrênicos. Inicialmente este foram classificados segundo os achados psicopatológicos como positivos, negativos e desorganizados, de acordo com a gravidade destas dimensões no curso do transtorno. Foram submetidos a testagem neuropsicológica, sendo selecionados parâmetros objetivando o enfoque sobre os circuitos subcórtico-frontais, temporais (límbicos) e diferenças entre processamento verbal e visual.

51

Capítulo 3 - Redes Neurais Artificiais

A Rede Neuronal foi capaz de identificar um grupo I que se mostrou coeso, mesmo à imposição da variação do números de grupos à RNA. Outro grupo formado (grupo II) mostrou-se menos coeso, reagrupando-se segundo variações do numero de grupamentos impostos a RNA, sugerindo uma distribuição dimensional. O uso de RNA neste trabalho mostrou-se um método adequado de rastreamento cognitivo de uma amostra de pacientes esquizofrênicos uma vez que identifica grupamentos segundo padrões completos de parâmetros, se aproximando do método clinico.

52

Capítulo 4

4.1 - Sistemas Especialistas

Segundo DAVIS (1984), a IA pode simular algumas funções cognitivas mais complexas, todavia as mais triviais, no ponto de vista humano, tornam-se as mais difíceis computacionalmente. Exemplificando:  Armazenamento da memória;  Reconhecimento da fala e visão, e  Raciocínio sobre o senso comum. Enquanto a teoria de RNA é centrada no estudo do cérebro e suas propriedades, em IA, de um modo geral, o estudo é centrado na mente, independentemente da estrutura ou da sua funcionalidade. As principais características de IA são:  Utilização

de

símbolos

dedicados

para

representar

cada

conceito,

(representação local). Estes símbolos são manipulados por cadeias de regras e inferências. A interpretação destes símbolos dependem em grande parte da natureza da aplicação;  A existência de uma forte dependência entre as regras e o tipo de problema a ser resolvido;

Capítulo 4 - Sistemas Especialistas

 Tem controle centralizado (meta-regras), que decide quais regras devem ser aplicadas em um determinado estágio;  Normalmente possui condições terminais bem definidas, e  Toda regra tem uma precisão e um significado pré-determinado.

Em contra partida, em Sistemas Dinâmicos, tais como as Redes Neurais Artificiais, não se faz necessário o uso de condições terminais bem definidas e também não existem pré-determinações. É durante a fase de aprendizado que os dados serão classificados. Os sistemas dinâmicos utilizam-se desta forma da representação distribuída, isto é, os conceitos são definidos através da ativação de vários neurônios. Os principais problemas encontrados em IA são (HART, 1986; BUCHANAN & SHORLIFFE, 1984):  Limitação do domínio;  Aquisição de conhecimento;  Aprendizado, e  Clareza. Apesar de existirem diferenças básicas entre IA e RNA, ambas apresentam características comuns tais como:  Fazem uso qualitativo da informação de entrada e saída;  São multidisciplinares, e  São úteis na resolução de problemas de classificação. Dentre as diversas áreas de atuação existentes em IA, será aqui destacada a que referem-se aos Sistemas Especialistas (SE).

54

Capítulo 4 - Sistemas Especialistas

De um modo geral, não existe um consenso entre pesquisadores sobre a definição dos SE. De acordo com GALLANT (1995), alguns autores preferem adotar o critério da definição pelo uso, e outros já preferem pelo critério da funcionalidade. Pelo critério de uso, um SE é um programa computacional que executa tarefas, que normalmente são feitas por especialistas humanos. Em FEIGENBAUM (1982), “é um programa computacional que usa o conhecimento e procedimentos de inferência, para resolver problemas que são suficientemente difíceis e requerem um especialista humano para resolve-los”. Pelo critério da funcionalidade é um programa desenvolvido para resolver (ou ajudar a resolver) problemas, em um domínio específico, onde as seguintes características são importantes:

 programa deve ser capaz de tirar conclusões mesmo sem a visão global de todas as informações possíveis e resolver problemas dentro de uma aceitável percentagem de sucesso;  A aquisição de novas informações deve ser feita de maneira eficiente. Não é suficiente que o sistema seja capaz de apenas resolver problemas, deve resolvêlos de forma rápida e eficaz.  E a mais importante característica segundo HART (1986) é que o sistema deve ser capaz de explicar as conclusões finais, fazendo com que a lógica interna do programa possa ser checada. Os aspectos éticos, legais e morais na tomada de decisão são características intrínsecas dos seres humanos, logo a justificativa de uma resposta torna-se relevante parte do sistema , e

55

Capítulo 4 - Sistemas Especialistas

 Geralmente está subdividido em 3 partes (Figura 4.1):  Base de Conhecimento: É o modulo que contém as informações que controlam a inferência, ou seja, contêm a representação do conhecimento;  Máquina de Inferência: É o módulo condutor do programa. É o meio pelo qual o conhecimento é manipulado, e  Interface com o usuário: É o módulo que faz a ligação entre a máquina de inferência e o ambiente externo, utilizando técnicas de programação. Permite ao usuário fornecer fatos e dados e habilita o sistema a dar respostas ou fornecer explicações e recomendações.

Base de Conhecimento

Interface Usuário

Me

Máquina de Inferência

móri Figura 4.1: Estrutura de um Sistema Especialista

a 56

Dinâ

Capítulo 4 - Sistemas Especialistas

A prova do grande sucesso dos SE na resolução de problemas, pode ser observada através das diversas áreas nas quais atuam, destacando-se entre elas:  Finanças;  Medicina;  Ciências, e  Engenharia. Existem inúmeras formas de utilização de um SE tais como provedor de informações podendo deste modo ser usado como um banco de dados do tipo perguntas e respostas; solucionador de problemas que através de evidências e fatos fornecidos pode facilmente identificar possíveis e prováveis soluções; e como explicador, pois algumas vezes a resposta por ela própria pode ser insuficiente, e com isso o sistema deve ser capaz de explicar sua linha de raciocínio e de como chegou a uma conclusão. Os SE não seguem simplesmente um conjunto de regras, possuem habilidade de discernimento. Discernimento é a capacidade de perceber relacionamentos expressivos entre eventos e evidências, isto é, basicamente escolhem o melhor caminho dentre a várias possibilidades disponíveis. Geralmente utilizam-se do formalismo heurístico ao invés de algoritmos. O processo heurístico envolve a ponderação do potencial do resultado de diferentes caminhos, comparando-o com o objetivo, aquele que estiver próximo à meta é considerado o melhor resultado de busca. Normalmente os problemas a serem resolvidos requerem soluções que sejam “adequadas” e não necessariamente uma simples “resposta”. De acordo com GALLANT (1995), provavelmente os quatro mais importantes SE do ponto de vista histórico são:

57

Capítulo 4 - Sistemas Especialistas

 MYCIN (BUCHANAN & SHORTLIFFE, 1984),  PROSPECTOR (DUDA & REBOH, 1983),  INTERNIST-I (MILLER, POPLE & MYERS, 1982), e  R1/XCON (McDERMOTT & FORGY, 1980).

O MYCIN é um SE para diagnóstico de doenças infecciosas no sangue e meningite. Possui uma base de conhecimento baseada em regras de produção (IF-THEN). O PROSPECTOR é utilizado para exploração mineral. A contribuição deste sistema reside no fato de usar uma Rede de Inferência, isto é, uma árvore, onde os nós correspondem às inserções. Este sistema trabalha com estimativas de probabilidades para estes nós. O INTERNIST-I é um sistema de diagnóstico médico que utiliza da estratégia heurística para auxiliar na decisão do diagnóstico. O R1/XCON utiliza a estratégia de encadeamento para frente. É possível desenvolver um SE em linguagem computacional tradicional como PASCAL e FORTRAN. Todavia, certos tipos de linguagens especiais têm características que as tornam particularmente adequadas para se trabalhar em IA (RICH, 1984). Pode-se destacar a PLANNER e SAIL, sendo a LISP e PROLOG as mais difundidas. A linguagem LISP foi desenvolvida em 1958 e tornou-se a mais importante linguagem para maioria dos pesquisadores. Consiste em funções que são definidas em formato matemático e manipulam símbolos com extrema flexibilidade (FROST, 1986).

58

Capítulo 4 - Sistemas Especialistas

O PROLOG é uma linguagem que foi desenvolvida para manipular lógica, é uma linguagem declarativa baseada na lógica formal, a qual permite ao usuário apresentar fatos e as interações entre eles ao sistema (BRATKO, 1990).

4.2 - Representação do conhecimento

O conhecimento adquirido por um SE pode ser representado de diversas formas, uma das mais utilizadas são as regras de produção IF-THEN (LUCAS, 1991), do tipo: IF existe a evidência de que A é verdade THEN conclui-se que a evidência B é verdade Normalmente abreviada na forma IF A THEN B ou A  B, onde A é referido como premissa (antecedente à regra) e B a ação (conseqüente à regra). A máquina de inferência pode assumir várias formas. O controle da estrutura ou controle da inferência reside no fato de que existem diferentes estratégias de controle do sistema, isto é, um conjunto de regras pode ser encadeado como no exemplo abaixo: IF A THEN B (regra 1) IF B THEN C (regra 2) onde dado A conclui-se C Este encadeamento é chamado de encadeamento para frente pois o dado conhecido (no caso A) conduz às inferências, da esquerda para direita, nas regras. No encadeamento recursivo, o sistema inicia-se estabelecendo uma meta e trabalha no

59

Capítulo 4 - Sistemas Especialistas

sentido oposto à inferência das regras, ou seja, da direita para esquerda, na procura do dado que estabeleça a meta procurada. IF B THEN C (regra 1) IF A THEN B (regra 2)  IF A THEN C (regra implícita) NEWEL & SIMON (1972) popularizaram o uso destas regras para representação do conhecimento humano, e demonstraram como o raciocínio pode ser gerado utilizando-se tais regras. Apesar disso, outros formalismos têm sido sugeridos para representar o conhecimento tais como: Lógica de Predicados (KOWALSKI, 1979) e Objetos Estruturados (FINDLER, 1979). Em muito domínios de problemas, não é possível criar modelos completos, consistentes e imutáveis. O conhecimento incorreto, obscuro e que é constantemente alterado requer o uso de uma variedade de estruturas lógicas e de métodos computacionais. As técnicas de representação que modelam os sistemas de crenças nos quais em um dado momento, um fato particular é tido como verdadeiro, falso ou nenhum deles, auxiliam a descrever crenças que não são indiscutíveis, mas para as quais existem certas evidências de apoio. Existem pelo menos 3 abordagens que modelam estes sistemas de crenças, isto é, fazem o tratamento das incertezas na programação lógica, são eles:

60

Capítulo 4 - Sistemas Especialistas

4.2.1 - Lógica Probabilística: Também chamada de lógica Fuzzy (ou lógica difusa ou nebulosa) formulada por ZADEH (1965). Na álgebra booleana, os valores assumidos pelos extremos lógicos falso ou verdadeiro são representados numericamente por 0 e 1 respectivamente. Na lógica difusa pode-se ter qualquer número fracionário entre 0 e 1 de tal maneira que tem-se “verdades parciais”. São úteis para descrever conceitos que são normalmente vagos em alguma área de diferenciação, como por exemplo: p(obeso(paciente)) = 0.75 Isto é, a proposição de que o paciente é obeso é 25% falso ou 75% verdadeiro. A lógica FUZZY lida com proposições que podem ser verdadeiras dentro de um grau de certeza. O grau de certeza assemelha-se a teoria de probabilidade (probabilidade subjetiva), contudo, não é verdadeiramente semelhante (HART, 1986).

4.2.2 - Fator de Confiança: São fatores aproximados, baseados mais na pragmática do que na estatística, representados pelo Fator de Confiança (FC), isto é, expressam o grau de confiabilidade que é atribuído a uma dada conclusão como resultado da evidência associada. Fator de Confiança pode variar numa escala de –1 a 1 indicando que se FC > 0 então hipótese é confirmada, e se FC < 0 a hipótese não é confirmada. Ilustrando: SE a infecção é bacteriana primária E o sítio da cultura é estéril E a porta de entrada suspeita é o trato intestinal ENTÃO o organismo deve ser bacteróide ( FC = 0.7 )

61

Capítulo 4 - Sistemas Especialistas

Tendo a regra de inferência um Fator de Confiança igual a 0.7, isto significa que um especialista tem certeza de que este evento ocorra em somente 70% das ocasiões. A probabilidade para eventos mutualmente exclusivos não pode exceder a margem dos 100%, o mesmo não acontece com fator de confiança, por exemplo, o fator de confiança de que um evento ocorra pode ser 0.8 e, mesmo assim, o fator de confiança de que este evento não ocorra poderá ser 0.5, não existe restrição a esse respeito.

4.2.3 - Probabilidade Bayesiana: Esta abordagem exige probabilidades “reais”, ou seja, números associados a eventos e populações, obtidos por estudos estatísticos próprios. Este tópico será descrito em maiores detalhes no Capítulo 5.

4.3 - Memória de Curto Prazo e de Longo Prazo

Na discussão proposta por LAKS et alii (1995), a memória se constitui, no ser humano, num processo extremamente complexo e elaborado, envolvendo estruturas e sistemas neurotransmissores. A memória é uma função que envolve várias fases, cada qual com suas características próprias, especialmente no tocante à estabilidade do aprendizado. Pode

62

Capítulo 4 - Sistemas Especialistas

ser dividida, para fins de estudo, nas formas de curto e longo prazo. Assim sendo, a memória de curto prazo considera o material, desde o aprendizado do meio externo, até a fase em que ocorre uma relativa estabilidade do mesmo, para uso imediato ou em um tempo próximo, podendo ser este material então ser abandonado ou armazenado no reservatório de longo prazo. A memória de longo prazo, por sua vez, é responsável pelo aprendizado propriamente dito (LITTLE, 1975). O modelo de NEWEL & SIMON (1972), assemelha-se ao estudo da memória na psicologia cognitiva, onde pode-se observar dois mecanismos de armazenamento (memória de curto e longo prazo) e um processador cognitivo (máquina de inferência). A memória de curto prazo contém somente parte de um SE na qual a entrada é armazenada, que são os Fatos. A memória de longo prazo é destinada ao armazenamento permanente da informação, e corresponde às Regras de Produção. O processador cognitivo corresponde à Máquina de Inferência que manipula as regras.

4.4 - Críticas ao SE convencional

Programas computacionais convencionais são utilizados na resolução de problemas, caso estes tenham soluções algorítmicas, onde o cálculo numérico possui relevância. Em contraste, os SE são desenvolvidos para o raciocínio simbólico, isto é, computação não-numérica, nos quais os símbolos e as estruturas simbólicas são construídas para representarem conceitos e relacionamentos entre eles (GALLANT, 1995).

63

Capítulo 4 - Sistemas Especialistas

Na utilização de um SE, se faz necessário a avaliação minuciosa de requisitos que são inerentes ao problema em questão (YAZDANI & NARAYANA, 1984), incluindo:  Escolha do domínio: Alguns problemas são tão complexos que inviabilizam o uso de SE, tais como os que despendem muito tempo (mais do que uma hora) para serem resolvidos, onde existem muitas iterações e dependências nos interrelacionamentos, ou conceitos de senso comum;  Aceitabilidade: Alguns usuários ainda fazem resistência ao uso dos computadores na resolução de problemas, preferem lidar com especialistas humanos, mesmo quando o sistema desempenha satisfatoriamente as tarefas designadas em concordância com os especialistas;  Incerteza: Uma boa parte dos dados manipulados por estes sistemas são incertos e, além disso podem ser perdidos. O modo no qual os SE manipulam incertezas tendem a ser ad hoc. De fato, isto é resultado na maneira pela qual a teoria probabilística tem sido usada e a visível rejeição a outras técnicas. Um grande número de teorias tem sido desenvolvidas para trabalhar com fatores de incerteza, tais como, a Probabilidade Clássica, Probabilidade Bayesiana, Teoria de SHANNON (SHANNON, 1948), DEMPSTER-SHAFER (SHAFER, 1976) e a Lógica FUZZY (ZADEH, 1965). Quando fatores de incerteza estão envolvidos,

o

número

de

possíveis

conclusões

pode

crescer

e

concomitantemente dificultar a obtenção da melhor solução.  Atualização: O domínio onde o conhecimento é modificado freqüentemente não é bem adaptado para os SE;

64

Capítulo 4 - Sistemas Especialistas

 Testes: Primeiro, não é trivial definir o caminho a ser seguido num SE, e segundo, é custoso testar correta e completamente estes sistemas, especialmente em aplicações que possuem alto risco como por exemplo em aplicações médicas, e  Aquisição e representação de conhecimento: O maior problema prático no desenvolvimento de um SE é a construção e a depuração da base de conhecimento (GALLANT, 1995). A dificuldade em obter-se dos especialistas humanos o conhecimento que eles retêm, em termos de regras IF-THEN e do fator de confiança. O conjunto de regras é quase sempre incompleto e inconsistente, e via de regra, requer adaptação do fator de confiança. Aparentemente, alguns especialistas não se dão conta de que utilizam eles próprios, de regras IF-THEN no seu cotidiano para tomada de decisões.

4.5 - Sistemas Especialista Conexionista

A integração do Simbolismo da IA e das RNA dá origem a um sistema inteligente híbrido (KANDEL & LANGHOLZ, 1992). Os sistemas híbridos são plausíveis biologicamente, pois o cérebro humano armazena o conhecimento em moléculas complexas tais como genes e proteínas as quais determinam o que somos e como nos comportamos, e ao mesmo tempo, o sistema nervoso também coordena este comportamento. Os sistemas híbridos têm sido estudos por GALLANT (1988),

65

Capítulo 4 - Sistemas Especialistas

BRADSHAW et alii (1989), FU & FU (1990), HALL & ROMANIUK (1990) entre outros. Os SE que possuem uma RNA na sua base de conhecimento são denominados de Sistemas Especialistas Conexionistas (SEC) ou Sistemas Especialistas Baseados em Redes Neurais (SERN). Nos SEC, os atributos dos dados são nomeados de unidades de entrada (nós), os estados objetivos ou hipótese final são as unidades de saída e os estados intermediários ou hipótese são designados unidades escondidas ou intermediárias. As regras iniciais determinam como os atributos e conceitos estão associados e como esta associação é ponderada (FU, 1994). Assumindo que uma teoria inicial seja: IF 1 e 2 THEN  , Onde: i é a condição,  é a conclusão ou ação. A conjunção dos i constituem-se na premissa. A semântica desta regra é “IF todos  calculados são verdade então  é verdade. Entretanto, em SEC a semântica das regras são determinadas pela máquina de inferência que as interpreta. É apropriado dividir as regras em dois tipos: probabilística que utiliza-se da probabilidade e fator de certeza, e não probabilística que não utiliza nenhum método probabilístico (FU, 1994). Do mesmo modo pode-se classificar as máquinas de inferência como probabilística e não probabilística respectivamente. Um modelo básico de Sistema Especialista Conexionista pode ser observado na Figura 4.2

66

Capítulo 4 - Sistemas Especialistas

Regras X

IF A e B THEN X

Cam Y

Z

IF A e C THEN Y

Camada escondida

ada

IF B e E THEN Z IF A e D e E THEN X

A

B

saíd C

D

E

Camada de entrada

a

Figura 4.2: Arquitetura básica de um SEC

Um exemplo de SEC pode ser encontrado em GALLANT (1988), onde a base de conhecimento é construída através do treinamento de exemplos médicos para classificação de doenças. Neste sistema a máquina de inferência chamada MACIE - “Matrix Controlled Inference Engine” foi desenvolvida para manipular uma base de conhecimento neural. A introdução da teoria das RNA nos SE, tem se tornando objeto de estudo por alguns pesquisadores, visto que, pode-se tirar vantagens do algoritmo de aprendizado na construção e depuração da base de conhecimento. A representação neural é melhor adaptada para cálculos numéricos e estatísticos. O sistema utiliza-se do encadeamento para frente com o objetivo de fazer inferências, e o encadeamento para trás para argüir ao usuário por dados adicionais necessários à obtenção da solução (aquisição de informações adicionais).

67

Capítulo 4 - Sistemas Especialistas

Embora uma RNA por ela própria não possa gerar explicações de como certos conjuntos de pesos foram obtidos, o MACIE é capaz de interpretar as RNA e produzir regras IF-THEN gerando assim explicações sobre as conclusões tiradas. Para ilustrar como o MACIE opera no diagnóstico, será abordado o exemplo da doença do sarcófago. Foi desenvolvido um modelo que consiste em:  Sintomas;  Doenças e,  Tratamento. Cada exemplo de treinamento é dado pelo histórico do paciente, que será classificado como: presente, ausente ou desconhecido, referindo-se aos sintomas e doenças e, utilizado ou não-utilizado para o tratamento. A RNA utilizada neste exemplo é a Rede Perceptron Multicamadas. A Figura 4.3 ilustra todas as conexões e os pesos associados wij. Os números no interior dos neurônios referem-se aos valores de “Bias”, que é uma entrada adicional fixa cujo peso associado tem valor igual a 1. Nesta Rede cada neurônio recebe um rótulo que determina o que ele representa (se é sintoma, doença ou tratamento), pode-se assim, especificar a interpretação semântica para a ativação de um determinado neurônio. Então, se cada neurônio de entrada assumir valores (+1) para verdadeiro, (-1) para falso e (0) para desconhecido e, após uma iteração sobre a camada intermediária e a de saída, a Rede computará qual doença estará presente e qual medicamento prescrever.

68

Capítulo 4 - Sistemas Especialistas

Posiboost x11 3 -1

-3 5

-3

-3

xA

1 xC

xB

2

3 -2

0 2

-1

-4

-3

-2

Placibin x9

-1 2 -4

2

Superciliose x7

2

1 -4

Biramibio x10

3

0

-1

Namastose x8

3 -2

3

3

3

Pés inchados x1

Orelhas vermelhas x2

Queda de cabelo x3

Vertigem x4

Aretha sensível x5

Alergia ao placibin x6

Figura 4.3: Arquitetura da Rede do modelo de Gallant para doença do sarcófago

69

Capítulo 4 - Sistemas Especialistas

Exemplificando, se o paciente tem pés inchados (x1 = +1), mas não tem orelhas vermelhas (x2 = -1) então, pode-se concluir que superciliose é presente (x7 = +1), pois: 0 + (2)(1) + (-2)(-1) + (3)(-1) > 0 Se outros sintomas são falsos (x4, x5 ,x6 = -1), então conclui-se similarmente que namastose é ausente (x8 = -1), o tratamento com placibin não deve ser prescrito pois (x9 = -1) e consequentemente, o tratamento com o biramibio (x10 = +1) é prescrito. Os neurônios xa , xb , xc são células intermediárias que foram adicionadas para o cálculo de x11 , cujas ativações são respectivamente 1,1 e –1. Para gerar esta base de conhecimento, devem ser especificadas as seguintes informações (GALLANT, 1995): 

nome de cada célula deve corresponder a uma variável de interesse (sintomas, doenças e tratamentos neste caso).

 Devem ser feitas perguntas ao usuário, para cada variável de entrada, visando elucidar o valor desta variável. (exemplo: O paciente tem pés inchados?)  Deve conter as informações de dependência para as variáveis intermediárias (doenças) e para as variáveis de saída (tratamento). As informações de dependência são opcionais, pois todas as saídas podem ser especificadas como dependentes de todas as entradas. Estas informações também podem ser analisadas do ponto de vista das conexões, ou seja, se estão presentes ou ausentes. Se xj não está conectado a xi então, significa que pode-se calcular xi sem considerar diretamente xj, entretanto xj pode afetar outras variáveis as quais influenciam a computação de xi . A eliminação da conexão entre xi e xj faz com que o aprendizado de xi seja mais fácil, por que reduz o número de

70

Capítulo 4 - Sistemas Especialistas

entradas neste neurônio, e desta forma, reduz a complexidade do algoritmo de aprendizagem, reduzindo assim a dimensão do problema.  A informação final fornecida ao programa de aprendizado é o próprio conjunto de treinamento. Para o problema da doença do sarcófago, cada exemplo é um caso particular e específico, com sintomas e doenças presentes e tratamentos apropriados.

O MACIE é capaz de justificar as conclusões tiradas através de regras IF-THEN, e estas devem satisfazer os seguintes requisitos:  Validade: As regras devem ser válidas para todas as consultas futuras;  Aplicabilidade: Todas as condições devem ser satisfeitas na consulta corrente;  Generalidade: As regras devem ser simples quanto possíveis, sem sacrificar a validade, isto é, toda condição removida deve resultar numa regra inválida.

Dado o exemplo abaixo: SE alergia ao placibin é FALSA E superciliose é VERDADEIRA ENTÃO placibin é VERDADEIRO. Esta regra é válida pois para toda consulta no sistema, onde duas condições são satisfeitas, a mesma conclusão será deduzida. É aplicável porque as duas condições são, de fato, satisfeitas pelo exemplo em particular. É generalizável pois nenhuma condição pode ser removida sem que ocasione um alteração na conclusão.

71

Capítulo 4 - Sistemas Especialistas

No modelo MACIE apresentado, utilizou-se somente variáveis booleanas, porém, este modelo pode aceitar variáveis contínuas ou variáveis do tipo neurônio ressonante. Para variáveis de entrada contínuas pode-se:  Usar um modelo de Rede discreto com entradas contínuas;  Usar um grupo de variáveis discretas, ou  Usar um modelo de Rede contínua, tal como o Perceptron Multicamada utilizando-se o algoritmo BP. Para variáveis de saída ou intermediárias:  Somente usar as opções 2 e 3 Para variáveis do tipo neurônio ressonante:  Não existe uma representação específica, pode-se usar diretamente as opções 1, 2 e 3 acima como unidade de entrada, intermediária ou de saída (Figura 4.4).

x4

x5

Saídas neurônio ressonante

x6

Entradas x1 ??

x2 +1

x3 ??

Figura 4.4: Modelo de Rede com variáveis do tipo neurônio ressonante

72

Capítulo 4 - Sistemas Especialistas

4.6 - Comentários

Nem todos os SE são adaptáveis ao conceito do SEC se a tarefa a ser executada é mais natural e convenientemente especificada por regras de produção, então aplica-se a estratégia do SE convencional. Em particular, domínios como diagnóstico médico, detecção de falhas e controle de processos, tornam-se bons candidatos ao uso do SEC, principalmente, se existirem ruídos e/ou redundância nos exemplos de treinamento. Neste caso, pode-se fazer comparações entre os resultado obtido do Sistema e o obtido pelo especialista humano. De acordo com GALLANT (1995), depurar a base de dados num SEC não é tarefa trivial como não o é em sistemas convencionais, todavia, tem-se algumas ferramentas que auxiliam esta tarefa. Uma ferramenta muito utilizada é o próprio algoritmo de aprendizado. Quando é modificado ou são adicionados exemplos de treinamento, o algoritmo garante que uma nova base de conhecimento criada será consistente com o conjunto de treinamento. Em alguns casos, o algoritmo informa se os exemplos revistos se tornaram contraditórios, ou se um modelo de Rede mais complexo deva ser considerado. Uma outra ferramenta que pode ser utilizada é o de Ciclo de Depuração de Regras, onde são checadas se todas as regras IF-THEN simples, representadas na base de conhecimento, estão corretas. Esta metodologia é aplicada através do programa RULEX, que extrai as regras da base usando um algoritmo específico (Figura 4.5).

73

Capítulo 4 - Sistemas Especialistas

Após gerar a lista de regras simples, esta é avaliada por especialistas humanos que a aprovam, ou então, sugerem modificações. E assim, uma nova lista de regras é retornada ao sistema para nova avaliação.

Conjunto de treinamento inicial

B. Conhecimento (SEC)

Algoritmo de Aprendizagem

Conj. de exemplos adicionados

RULEX

Regras IF-THEN simples

Especialistas analisam regras e sugerem

contra-exemplos (quando necessário)

MACIE (testando exemplos)

Exemplos

Especialistas avaliam inferências e corrigem erros

Figura 4.5: Geração e depuração de uma base de conhecimento em um SEC usando ferramentas automáticas (desenhos com as bordas mais espessas) em conjunto com especialistas humanos

74

Capítulo 4 - Sistemas Especialistas

4.7 - Construção de um SE utilizando arquitetura Neural

Como foi visto no capítulo anterior, a abordagem de RNA contrasta com os SE, também conhecido como Sistema Especialista Baseado em Regras (SEBR), em vários aspectos, descritos a seguir. Nas RNA o conhecimento está situado nas conexões e pesos, já nos SEBR situase nas próprias regras. As RNA processam as informações (raciocínio) pela propagação de ativações através da Rede, porém nos SEBR o raciocínio se dá através da geração de símbolos e sentenças. Nos SEBR é dada ênfase à representação do conhecimento, estratégias de raciocínio e à capacidade de explicação, no entanto nas RNA não existe este tipo de motivação. Os SEBR podem raciocinar em vários níveis de abstração e as RNA não possuem tal capacidade. As principais diferenças entre estas duas abordagens encontram-se sumarizada na Tabela 4.1. Os SEBR (onde o conhecimento é representado por regras) podem ser transformados em Redes de Inferência, onde cada conexão corresponde a uma regra, e cada nó (ou neurônio) corresponde a uma premissa ou conclusão de uma regra (Figura 4.6). O raciocínio nestes sistemas é o processo de propagar e combinar múltiplas evidências através da Rede de Inferência até a obtenção da conclusão final. O tratamento de incerteza é geralmente feito adotando-se o Fator de Confiança (FC) ou esquemas probabilísticos, os quais associam cada fato a um número

75

Capítulo 4 - Sistemas Especialistas

denominado de Valor de Confiança (VC). O objetivo principal da Rede é determinar os valores de confiança de hipóteses predefinidas finais dados os valores de confiança das evidências observadas. Tabela 4.1: Tabela de comparação entre Redes Neurais e Sistemas Baseados em Regras

REDES NEURAIS

SIST. BAS. EM REGRAS

Conhecimento

Conexões

Regras

Computação

Numérica, simples, uniforme somatórios e valor limiar

Símbolos, complexa, variada, regras de produção

Raciocínio

Não estratégico

Estratégico

Tarefa

Nível sinal

Nível conhecimento

A Rede ou Sistemas de Inferência, através do qual o valor de confiança das evidências (ou hipóteses) é propagado é chamada de Rede de Confiança. A correspondência entre as estruturas e os aspectos do raciocínio de uma Rede Neural e de uma Rede de Confiança é dada na Tabela 4.2.

76

Capítulo 4 - Sistemas Especialistas

Tabela 4.2 : Tabela de correspondência estrutural e de aspectos do raciocínio entre Redes de Confiança e Redes Neurais

REDES NEURAIS

REDE DE CONFIANÇA

Conexões

Regras

Nós

Premissas e conclusões

Pesos

Intensidade da regra

“Threshold”

Predicados

Somatórios

Combinação de valores de confiança

Propagação da ativação

Propagação do valor de confiança

Por exemplo, a função somatório em uma RNA corresponde à função que manipula os fatores de certeza nos SEBR (como o MYCIN) ou a Formulação Bayesiana para o cálculo de probabilidades em sistemas como o PROSPECTOR. A função de “Threshold” das RNA corresponde a predicados como SAME (no MYCIN) os quais retiram da Rede de inferência qualquer valor de certeza abaixo de 0.2.

77

Capítulo 4 - Sistemas Especialistas

N0 R1 R3 R2 N1 N2 N3 R4

N4

R5

N5

N6

R7 R8

R6 N7

N8 N9

N10

Figura 4.6: Rede de Inferência (ou Rede de Confiança) onde N i é um nó ou neurônio e Ri é uma Regra

Desde que as Redes de Confiança correspondem às RNA em aspectos estruturais e atributos de raciocínio (como ilustrado na Tabela 4.2), qualquer algoritmo que for aplicável às RNA caracterizado por estes atributos podem ser aplicados às Redes de Confiança (FU, 1994). A construção da Rede de Confiança segue os seguintes padrões:  As hipóteses finais são alocadas nos neurônios da camada de saída.  Os atributos dos dados são alocados nos neurônios da camada de entrada.  Os conceitos que sumarizam ou categorizam subconjuntos de dados ou hipóteses intermediárias que fazem inferências às hipóteses finais são alocados nos neurônios da camada escondida (ou intermediária).  As regras estão associadas aos pesos das conexões.

78

Capítulo 4 - Sistemas Especialistas

Tabela 4.3: Exemplos de sistemas de Apoio à Decisão Médica

Exemplos de Sistemas de Apoio à decisão Médica Rep. do Conhecimento Sistema

Área

Esquema

Estratégia de Raciocínio Descritivo

Normativo

Glaucoma

Ligações de Rede CausalGerenciamento global da rede para escolha de alternativas; implicação entre: Rede semântica, utiliza associativa, com avaliação de hipóteses intermediárias para diagnose; utilização dos achados, algoritmos vários níveis trajetos da rede causal para prognose; regras de produção para hipóteses e descritivos planos de tratamento; explicação dos resultados tratamentos

MYCIN

Doenças infecciosas

Árvore de Árvore de contexto para escolha de alternativas; regras de produção contexto e Árvore de contexto e Utiliza Regras de para obtenção da: diagnose, prognose e terapia; explicação das propriedades das regras de produção Produção conclusões estruturas de dados

INTERNIST

Medicina interna

CASNET

PIP

Doenças renais

Rede Hierárquica Ligações de Rede hierárquica e (taxonômica) com implicação entre algoritmos heurísticos algumas ligações achados e causais hipóteses

Heurística para processamento de hipóteses

Heurísticas para escolha de hipóteses, combinando pesos das evidências para avaliação de hipóteses (diagnose)

Quadros "frames" para descrição de Restrições Heurísticas para escolha de hipóteses, trazendo-as para memória de enfermidades. Lógicas dentro de curto prazo; avaliação dos pesos das evidências para diagnose Memória de e entre quadros longo prazo

79

Capítulo 5

5.1 - Informática Médica

O termo Informática Médica (IM) vem sendo usado a partir da metade dos anos 70 oriunda do francês “Informatique Médicale”. Outros nomes também são utilizados como: Ciência da Computação Médica, Informática da Saúde, Ciência Médica da Informação. A IM pode ser definida como uma ciência que se utiliza de ferramentas (analíticas e sistemáticas) no desenvolvimento de procedimentos (algoritmos) para gerenciar, controlar, tomar decisões e analisar cientificamente o conhecimento médico (SHORTLIFFE, 1984). Em Van BEMMEL (1984), é referida como sendo uma ciência que compreende aspectos teóricos e práticos do processamento e comunicação da informação baseado no conhecimento e experiência dos processo médicos e da saúde. A Medicina enquanto Ciência, é diferente das outras com relação à descrição, raciocínio, explanação e predição. Ela deriva de contextos experimentais e de um conjunto de outras ciências tais como: Computação, Física, Matemática, Biologia, Química entre outras, para o seu suporte (BLOIS, 1984). Definida então como Ciência, logo as seguintes propriedades são aplicáveis:

Capítulo 5 - Informática Médica

 Contém o domínio real onde a teoria é desenvolvida;  Não é meramente uma ciência prática, nem tampouco determinada somente pela tecnologia;  Modelos são desenvolvidos para ilustrar e provar teorias;  Problemas são resolvidos de modo metódico segundo princípios científicos de abstração e generalização.

O domínio da IM é então determinado pela interseção dos termos Medicina e Informática, o primeiro termo indica a área de pesquisa, um campo que envolve os processos de Observação, de Julgamento e de Ação, o segundo termo (Informática) refere-se à metodologia (SALAMON et alii, 1997). A origem e a natureza do conhecimento científico médico baseiam-se em pesquisas experimentais e na prática médica, onde são desenvolvidos métodos e formalismos para a aquisição e interpretação de dados oriundos de pacientes com a ajuda do conhecimento obtido através de pesquisas científicas. As pesquisas e desenvolvimentos não objetivam tão somente a incorporação do conhecimento das Ciências Naturais mas também dos aspectos normativos do conhecimento Teórico e da Experiência Médica (Van BEMMEL, 1996). Desde sua introdução na década de 50, a IM tem desenvolvido inúmeros sistemas voltados a diversas áreas de aplicação, podendo-se citar, não por ordenação de prioridades:  Sistemas Laboratoriais: Para interpretação de valores médicos, preparação automática de relatórios, bem como no auxílio da seleção de testes apropriados.

81

Capítulo 5 - Informática Médica

 Sistemas Consultivos de drogas: Dão assistência na prescrição de medicamentos, checam interações medicamentosas, efeitos colaterais e selecionam tratamentos mais efetivos.  Estações de trabalho clínico: O volume de dados médicos aumenta consideravelmente todos os anos, e a disponibilidade destes, em tempo real, torna-se imperativo. Com a democratização das informações médicas estes dados poderão estar disponíveis para toda comunidade científica e médica através do uso de Banco de Dados Inteligentes acessíveis, como por exemplo, pela Internet.  Reconhecimento e interpretação de imagens: Sistemas automáticos oferecem a oportunidade de diagnosticar mais precisamente dados complexos (exemplos: mamografia, tomografia).  Interpretação de sinais: O desenvolvimento de dispositivos interativos em tempo real em área de unidade de tratamento intensivo permitem maior monitoramento dos pacientes (exemplo: IRM – Imagem de Ressonância Magnética).  Educação: Desenvolvimento de tutoriais inteligentes facilitando e aprimorando o aprendizado, tanto a médicos como a profissionais da área de saúde mantendo-os constantemente atualizados, pela necessidade de buscar uma alternativa para o modelo tradicional do ensino prático e teórico.  Sistemas baseados em conhecimento: Sistemas especialistas que auxiliam na área do diagnóstico médico.

82

Capítulo 5 - Informática Médica

 Protocolos médicos: Que é um conjunto de medidas (procedimento) que descrevem as seqüências das ações médicas no gerenciamento de pacientes em diferentes situações clínicas.

Nestes sistemas foram utilizadas técnicas de diversas áreas como a Teoria Estatística da Decisão, Reconhecimento de Padrões, Álgebra de Boole, Taxonomia Numérica, Heurística e IA, dentro de conceitos lógicos, probabilísticos e valorados. Estes sistemas foram desenvolvidos com o intuito de auxiliar o processo de decisão médica. Exemplos destes sistemas podem ser encontrados ao final deste capítulo na Tabela 5.1. O processo de decisão em medicina pode ser classificado de acordo com os níveis de organização do Sistema-Saúde, são eles (MACHADO, 1985):  Operacional: Refere-se à tomada de decisão rotineira feita pelo médico no gerenciamento de pacientes, por exemplo: no diagnóstico, prognóstico e planejamento terapêutico.  Tático: Relativo à vigilância epidemiológica, à avaliação da eficácia de tratamento alternativo, controle de qualidade, avaliação da produção de serviços de saúde etc.  Estratégico: Corresponde às decisões tomadas como por exemplo em avaliações do nível de saúde de uma população, planejamento estratégico, etc.

83

Capítulo 5 - Informática Médica

O primeiro trabalho nesta área deve-se a LADLEY & LUSTED (1959), que descreveram o processo do raciocínio médico inerente ao diagnóstico em termos de Conceitos Matemáticos, Simbolismo Lógico, Probabilidades. Segundo SABBATINI (1993), a área de diagnóstico médico é considerada a mais complexa e difícil na tomada de decisão. As principais razões são descritas em (SZOLOVITS, 1982; FATTU et alii., 1978) e sintetizadas a seguir. O diagnóstico médico depende da análise de dados e informações de diversas fontes de naturezas muito diferentes, incluindo a experiência prévia do médico em realizar diagnósticos do mesmo tipo, bem como o senso comum e a intuição. O diagnóstico é entendido pelas questões que se formulam, pelos testes efetuados, e pelos procedimentos que se realizam e, a determinação do valor dos resultados relativos a riscos associados e custos financeiros (WIGERTZ, 1986). Formalizar o conhecimento médico e representá-lo não é tarefa trivial (AIDA et alii., 1977), pois os mecanismos mentais e o processo de raciocínio pelo qual o clínico chega ao diagnóstico é ainda mal conhecido envolvendo, simultaneamente:  Processos Lógicos,  Avaliação Probabilística,  Encadeamento Causal. Por vezes, não existem opiniões consensuais por parte dos especialistas na área de estudo, sobre como decidir em face a evidências conflitantes (KOMAROFF, 1979). Faltam definições médicas padronizadas para doenças e sintomas. Muitos hospitais e clínicas utilizam suas próprias definições para termos médicos, sintomas, doenças e faixas de normalidade de resultados de exames de laboratório, o que impede a

84

Capítulo 5 - Informática Médica

construção de sistemas de bancos de dados médicos confiáveis, de onde pode-se extrair parâmetros para modelos matemáticos (SABBATINI, 1993).

5.2 - Processo de Decisão

O diagnóstico médico envolve não apenas o que é verdade sobre um paciente, mas também quais dados são necessários para determinar-se o que é verdade. A análise dos dados para determinar-se a explicação patofisiológica dos sintomas de um paciente é parte integrante do processo de decisão (SALAMON et alii, 1997). Por gerenciamento de pacientes entende-se o processo de decisões seqüenciais que devem ser tomadas por um médico (ou outro profissional da área de saúde) na determinação do curso de ação a ser seguido no tratamento de um paciente, com um conjunto particular de sinais e sintomas (MACHADO, 1985). De forma simplista, o processo de diagnóstico médico pode ser descrito em três fases (LEDLEY & LUSTED, 1959): Primeira Fase: quando os fatos são obtidos através dos dados do paciente, como o histórico do paciente, exames físicos, clínicos etc, é a fase da Observação. Segunda Fase: quando é avaliado a importância de cada sintoma e sinal, é a fase do Julgamento. Terceira Fase: destinada a fazer o diagnóstico, onde uma lista de hipóteses é gerada. Desta lista é extraída a hipótese mais provável, referindo-se a fase da Ação (terapêutica).

85

Capítulo 5 - Informática Médica

É interessante a analogia que pode ser feita entre este processo e outros tipos de diagnóstico como em operação de máquinas, sistemas e em controle de processos (de KLEER, 1987). ELSTEIN et alii.(1972) pesquisou o processo cognitivo do raciocínio médico, especialmente na área do diagnóstico, e sumarizou-o em um protótipo conhecido como Modelo de Investigação Médica, o qual está subdividido em 4 estágios gerais sob forma algorítmica (Figura 5.1) e sugere que a diagnose é a princípio um processo hipotéticodedutivo. Aquisição de dados

Geração de hipóteses de diagnósticos

Pesquisa de atributos

Decisão final do diagnóstico

Figura 5.1: Processo de decisão

A Primeira Fase refere-se ao processo da coleta dos dados clínicos. A coleta dos dados consiste em obter:  História do Paciente  Dados Clínicos,  Sinais Físicos,  Dados Laboratoriais  Manifestações Clínicas.

86

Capítulo 5 - Informática Médica

A história do paciente (anamnese) inclui dados passados, familiares e sociais. A Anamnese exerce diversas funções. Em primeiro lugar, uma história familiar positiva de um indivíduo afetado de modo semelhante, ou uma história de consangüinidade, podem ter importantes implicações no diagnóstico. Em segundo lugar, nas doenças de etiologia multifatorial, que tenham uma ocorrência familiar, torna possível identificar pacientes com risco de apresentar a mesma doença e intervir antes do aparecimento das manifestações clínicas. É crítico distinguir entre uma história familiar negativa e uma história familiar incompleta. Os dados clínicos referem-se aos sintomas, que são as sensações descritas pelo pacientes. Os sinais físicos são dados objetivos e observáveis pelo médico. Por vezes os sinais físicos podem ser a única evidência de doença, especialmente quando a história for inconsistente, confusa ou com falhas. Os resultados de laboratório geralmente são referidos como achados. O aumento acentuado do número e da disponibilidade de métodos de diagnósticos laboratoriais aumentou inevitavelmente a confiança no conhecimento obtido destes estudos na solução de problemas clínicos. No entanto, é necessário ter-se em mente as limitações destes procedimentos, que em virtude de sua qualidade impessoal e complexidade das técnicas empregadas, ganham muitas vezes uma aura de autoridade, independente da própria falibilidade dos exames, das pessoas que o realizam e interpretam ou dos próprios aparelhos. Além disso, os exames de laboratório raramente são solicitados de forma isolada. Ao contrário, são realizados mais como “baterias”. Alguns laboratórios realizam atualmente baterias de 24 e até mesmo 40 exames.

87

Capítulo 5 - Informática Médica

A fase de coleta dos dados não pode ser completamente separada da fase de interpretação dos dados, e este binômio coleta/interpretação é especialmente utilizado pois na escolha dos dados que serão coletados. Os clínicos normalmente formulam questões baseadas nas decisões iniciais sobre presumíveis diagnósticos (Van BEMMEL, 1986). A Segunda Fase está envolvida com a geração de uma lista de hipóteses de prováveis diagnósticos (em torno de 4 ou 5, segundo ELSTEIN et alii (1972)). Desta lista, o médico através de um processo cognitivo, busca em sua memória o conjunto de atributos clínicos que o levam a caracterizar o diagnóstico preciso, testando-a por meio de refinamento e revisão, caracterizando assim a Terceira Fase, também conhecida como diagnóstico diferencial, que determina que informações devem ser utilizadas para o refinamento da diagnose. Após um certo número de iterações, dependendo da complexidade do problema, o médico encontra a solução, ou seja, o diagnóstico final, finalizando a Quarta Fase (abstração e generalização). Durante a terceira fase, o primeiro passo a ser tomado é a redução do número de hipóteses, que consiste em ativar no banco de dados somente hipóteses para as quais ao menos algumas evidências tenham sido obtidas (ou relatadas). O conjunto de hipóteses chamadas ativas pode ser criado pela adição do conjunto de doenças relativas a cada novo achado. O segundo passo previne que o conjunto de hipóteses ativas cresça continuamente quando novos achados são obtidos. Este processo consiste em remover do conjunto original, um conjunto de hipóteses que julga-se serem inviáveis com base nas informações disponíveis. Este processo é acompanhado pela reativação de cada

88

Capítulo 5 - Informática Médica

hipótese do conjunto original baseada no total das informações, e na desativação das hipóteses cujos valores são menores que um valor limiar (threshold). Este valor limiar utilizado deve ser predeterminado ou determinado dinamicamente, e é relativo à melhor hipótese no conjunto de hipóteses ativas. O processo de ativação e desativação descrito acima proporciona um mecanismo básico para um programa que contenha um grande número de hipóteses em potencial, entretanto não equipara-se ao pequeno número de hipóteses geradas por um clínico. O que tem-se observado é que numa primeira fase de consulta, o médico experiente gera hipóteses diagnósticas específicas, bem antes de ter colhido a maioria dos dados. Em vez de convergir progressiva e sistematicamente na formulação do problema através de uma série de questões constritivas, o médico experiente parece saltar diretamente para esse pequeno arranjo de hipóteses, já no início da consulta. Essas hipóteses são ordenadas informalmente pelo médico, influindo nessa ordenação critérios de probabilidade, gravidade, tratabilidade e novidade da doença. A primeira vista, percebe-se que a experiência médica no processo de diagnose e de tratamento possui um alto grau de subjetividade o que dificulta o processo computacional. Porém este fato é parcialmente verdade, pois apesar das propriedades subjetivas encontradas, o conhecimento e a experiência que estão armazenados na memória do especialista humano apresenta-se estruturada na base de conhecimento (Van BEMMEL, 1996). A Figura 5.2 ilustra o processo de diálogo entre paciente e clínico. Os dados médicos (a história médica, exames físicos e teste laboratoriais), são fornecidos pelo

89

Capítulo 5 - Informática Médica

paciente e coletados e interpretados pelo médico. Neste contexto é importante saber como descrever as propriedades dos dados tanto qualitativa quanto quantitativamente. Como pode-se observar pela ilustração da Figura 5.2, o processo é complexo, possuindo dados objetivos e dados subjetivos. Além disso, tanto a transmissão quanto a recepção destes dados pode ser subjetiva, com considerável nível de distorção ou ruído, apresentando respostas incompletas ou incorretas. Em alguns casos o processo de coleta dos dados é instável ou não-estacionário, ou seja, o processo torna-se dinâmico e os parâmetros coletados são continuamente alterados, como por exemplo em pacientes com convulsões epilépticas ou em pacientes sob estado de choque. A variabilidade e a imprecisão dos dados médicos têm sido estudadas por KOMAROFF (1979) baseado em pesquisas na literatura médica referente à: medições imprecisas (quando da utilização de métodos inapropriados), variabilidade nas medições entre especialistas da mesma área, relevância das variáveis medidas, dificuldades em obter-se exames físicos adicionais, existência de poucas definições sobre certos tipos de doenças, descrições obscuras feitas pelo paciente sobre os sintomas sentidos. O diálogo médico emprega dois tipos de dados: dados Objetivos e os dados Subjetivos. Os dados objetivos estão relacionados com passado clínico do paciente e representam os elementos obtidos de exames físicos e laboratoriais, como análise sangüínea, biosinais (ECG – Eletrocardiograma). Cabe ainda salientar que algumas vezes não é possível coletar-se certos tipos de dados sem que para isto o paciente submeta-se a técnicas invasivas, que requerem biópsias cirúrgicas ou a inserção de cateteres, fios metálicos ou tubos no interior do organismo. Estes procedimentos são com freqüência, dolorosos e algumas vezes arriscados. Somente em circunstâncias

90

Capítulo 5 - Informática Médica

restritas, os médicos decidem pela intervenção investigatória. Por outro lado tem-se os dados subjetivos que estão relacionados com as sensações e dores que o paciente está sentindo.

Paciente fornece informações

Médico coleta e interpreta dados

Paciente procura médico

Médico formaliza Diagnóstico, Tratamento e Prognóstico iniciais

Médico descreve e explica suas decisões ao paciente O paciente decide aceitar tratamento e recomendações médicas

Saída dos cuidados médicos

Figura 5.2: Processo de diálogo entre paciente e médico

A distinção entre os dados é significativa pois o relato expresso pelo paciente consiste na sua maior parte em fenômenos subjetivos (dados subjetivos) e que passam inclusive por uma série de filtros emocionais e intelectuais e desta forma estão sujeitos também a distorções, como no caso do falsificar sintomas, ou então exagerá-los,

91

Capítulo 5 - Informática Médica

influenciando claramente nas conclusões médicas. Por exemplo, o médico comumente necessita determinar se uma pressão aplicada em alguma parte do corpo resulta em dor, e este exame pode ser facilmente mascarado pela negação da dor. As barreiras intelectuais, psicológicas e de linguagem que interferem com a memória do paciente podem também comprometer a exatidão na descrição dos sintomas (KOMAROFF, 1979). As descrições feitas pelo paciente são altamente introspectivas e sujeitas ao grau de sua inteligência com relação à familiaridade geral com a terminologia médica. Desta forma, o grau de utilidade da informação é altamente dependente da qualidade do dado armazenado, isto é, o quão fidedignos estes dados são.

5.3 - Motivação

O principal elemento de motivação para estas pesquisas sempre foi o de gerar um vasto potencial de benefícios que adviria quando fossem implementados sistemas eficazes de apoio à decisão médica. Alguns autores como CROFT (1972) destacam entre os benefícios potenciais um grande impacto sobre o custo e a disponibilidade da saúde, tanto em países em desenvolvimento, quanto em países desenvolvidos. Centros Médicos operados principalmente por paramédicos usando modelos automáticos de diagnóstico poderiam processar milhares de pacientes por ano a um baixo custo.

92

Capítulo 5 - Informática Médica

SZOLOVITS & PAUKER (1978) sugerem a possibilidade de melhoria radical do sistema de assistência médica ao se utilizar o computador como instrumento intelectual e dedutivo, isto é, como um consultor incorporado à estrutura do sistema de saúde. Além destas propostas, outras razões que justificam o estudo da utilização de computadores no auxílio médico são:  O volume de informações cada vez maior na área médica torna difícil a tarefa de um clínico ter em mente todas as alternativas relevantes a serem consideradas (BORDAGE, 1977),  As limitações cognitivas do ser humano que tornam a experiência recente mais acessível que a experiência distante (ROSATI et alii., 1973; ELSTEIN, 1972),  A incapacidade de manipular num senso estatístico, grandes quantidades de dados e descobrir padrões complexos em situações multivariadas com muitas interdependências (FEINSTEIN et alii., 1972; PREWITT, 1972),  Aumento da exatidão da diagnose clínica através de processos sistemáticos, completos e que possam integrar dados de diversas fontes (GREMY et alii., 1977),  Aumento da confiabilidade clínica ao evitar polarização errônea nas conclusões (BAKWIN, 1945),  A longo prazo, baixa no custo de testes e terapias (GREMY, et alii., 1977),  Aumento da compreensão sobre a estrutura do conhecimento médico e identificar inconsistências e inadequações nesse conhecimento (GREMY, et alii., 1977),

93

Capítulo 5 - Informática Médica

 Aumento do conhecimento do processo cognitivo do raciocínio clínico com intuito de melhorar o ensino médico, desenvolvendo-se tutoriais inteligentes, visando o amadurecimento do clínico inexperiente através da prática médica, monitorando a performance dos estudantes, e sugerindo pesquisas adicionais, isto é, livros, artigos e etc. (BORDAGE, 1977),  As limitações de memória de curto prazo que reduzem o número de diferentes hipóteses

com

que

o

ser

humano

pode

trabalhar

simultaneamente

(KOMAROFF, 1979),  O tempo necessário, normalmente em torno de 6 a 8 anos, para se adquirir conhecimento médico (estudo e experiência), bem como para manter-se atualizado.  A contribuição destes sistemas não pode ser medida simplesmente em termos de suas limitações ou falhas. Experimentos como estes proporcionam uma vasta abordagem sobre o processo diagnóstico e estimula considerações explícitas e sistemáticas sobre Como, Quando e Qual formato ou situação o computador pode auxiliar em todo processo médico (BARNETT, 1982)

Apesar de todas estas contribuições para o auxilio dos processos em Medicina, a não aceitação expressa pela comunidade médica ainda é muito grande devido ao receio de que o relacionamento paciente-médico possa vir a ser minimizado ou até mesmo eliminado ao ponto de que as interações e comunicações entre as partes, tornem-se impessoais. Tais comentários refletem a percepção comum de que existem diferentes opiniões com relação ao uso do computador, pois por outro lado, existe ampla aceitação

94

Capítulo 5 - Informática Médica

no que se refere a novas tecnologias para obtenção de dados laboratoriais (SHORTLIFFE, 1989).

5.4 - Classificação dos Sistemas de Decisão

Diferentes formas de classificar os Sistemas de Apoio à Decisão Médica (SADM) foram publicados na literatura, a que segue abaixo foi adotada por SABBATINI (1993), e é baseada no tipo de capacidade do sistema:  Sistemas com capacidade de decisão própria ou ausente  Recuperação de dados sobre pacientes  Cálculos matemáticos assistidos por computador  Análise e interpretação primária de dados  Sistemas com capacidade de raciocínio automático e de inferência  Sistemas de classificação de doenças  Sistemas especialistas baseados em consulta  Sistemas especialistas baseados em crítica

A metodologia mais comum para implementação de raciocínio automático em um computador é através do sistema de consulta, o qual é essencialmente interativo. Nele, o médico fornece ao computador os dados sobre o paciente, e em resposta, o programa fornece os diagnósticos mais prováveis, tratamento, podendo ainda citar

95

Capítulo 5 - Informática Médica

dados da literatura que respaldem as afirmações e avaliações propostas (capacidade explicativa). Outra metodologia, mais recente, é a dos chamados sistemas de crítica. Nele, o médico fornece sinais, sintomas e resultados de exames, assim como o diagnóstico, ou diagnósticos presumidos. O programa elabora, a partir destes dados, uma crítica sobre o diagnóstico hipotético fornecido pelo médico, e o orienta como determinar diagnósticos mais precisos e, que tipo de dados adicionais devem ser conseguidos etc. Outra forma de classificação foi sugerida por SHORTLIFFE (1979) e SZOLOVITS (1979), e estão subdivididos da seguinte forma em:  Algoritmos Clínicos  Modelos matemáticos para processos físicos  Métodos da teoria de decisão  Análise de Banco de Dados médicos para prognose e seleção de terapia  Técnicas de reconhecimento estatístico de padrões  Critério de Bayes  Critério de Clusterização  Critério de mínimo erro quadrático  Raciocínio Simbólico

Os dois últimos modelos, Raciocínio Simbólico e Técnicas de Reconhecimento Estatísticos de Padrões, (e dentro deste com ênfase ao critério de Bayes) serão abordados em maior detalhe devido à importância histórica e larga utilização.

96

Capítulo 5 - Informática Médica

5.4.1 - Algoritmos Clínicos Os Algoritmos Clínicos são fluxogramas que traduzem a seqüência das ações médicas na avaliação e gerência de doenças. Os nós intermediários do fluxograma correspondem a questões e os nós terminais a resultados como por exemplo um diagnóstico. Embora o algoritmo clínico tenha boa aceitação da parte médica, sua área de aplicação é restrita ao campo de conhecimento superficial como a triagem, devido a sua inflexibilidade, extrema dependência do contexto decisório encontrado nos estágios iniciais do processo de consulta, e por serem ineficazes ao manipularem dados parciais, incorretos ou inexatos, diferentemente da realidade do trabalho de um clínico (KOMAROFF, 1979). A simplicidade de sua lógica torna claro por que esta técnica não pode ser aplicada na maioria dos domínios médicos. Em MESEL et alii.(1976), encontra-se um exemplo de SADM baseado no formalismo algorítmico, onde oncologistas desenvolveram um protocolo de tratamento da doença de Hodgkin (câncer pulmonar). Este tratamento pode ser feito à distância por médicos auxiliares com o supervisionamento de uma equipe clínica especialista. O médico auxiliar preenche um relatório com os achados físicos, histórico, resultados do laboratório e a quimioterapia administrada e o envia ao centro regional habilitado. No centro regional estes dados são analisados e um algoritmos clínico customizado (protocolo) é elaborado, este retorna ao médico auxiliar, cujo papel é monitorar o tratamento deste paciente, seguindo os passos determinados pelo protocolo até que novos relatórios sejam feitos.

97

Capítulo 5 - Informática Médica

A pessoa foi mordida ou lambida num ferimento aberto ou mucosa por um animal possivelmente raivoso?

Não Profilaxia da Raiva nenhuma

Sim Não

A presença de raiva é conhecida ou suspeitada nas espécies animais e na área?

Profilaxia da Raiva nenhuma

Sim Não RIG e Vacina

O animal foi capturado?

Sim O animal era um cão ou um gato de comportamento normal?

Sim

O animal ficou doente durante a observação nos 10 dias subsequentes? Não

Não Sim

O exame laboratorial do cérebro por anticorpos fluorescentes confirma a presença da raiva?

Profilaxia da Raiva nenhuma

Não Profilaxia da Raiva nenhuma Sim RIG e Vacina

Figura 5.3 : Fluxograma da profilaxia anti-rábica pós-exposição

98

Capítulo 5 - Informática Médica

5.4.2 -

Modelos Matemáticos Para Processos

Físicos Os processos patofisiológicos podem ser bem definidos matematicamente, num limitado número de áreas de problemas clínicos. As técnicas atuais utilizadas nestes sistemas tendem a refletir detalhes de aplicações individuais. Apesar disto, estes sistemas possuem deficiências típicas inerentes aos fluxogramas, como por exemplo possuir um lógica altamente estruturada e inflexível, principalmente quando ocorrem circunstâncias não descritas anteriormente no algoritmo. Por outro lado, poucas áreas da medicina são passíveis de uma descrição quantitativa exata e não ambígua. É pequena a utilidade de programas puramente determinísticos. Normalmente, a área médica trabalha em domínios de problemas mal definidos que não podem ser expressos por formalismos matemáticos ou estatísticos. Um exemplo típico deste sistema pode ser encontrado em BLEICH (1972), que desenvolveu um programa interativo de medição do equilíbrio ácido-base do sangue.

5.4.3 - Métodos da Teoria de Decisão Em termos gerais, a análise de decisão pode ser vista como uma tentativa de considerar valores associados às escolhas assim como às probabilidades, com intuito de avaliar os processos pelos quais as decisões médicas são tomadas ou deveriam ser tomadas.

99

Capítulo 5 - Informática Médica

Um conjunto de axiomas delimita a situação de decisão para um único decisor, juntamente com algumas noções intuitivas de “racionalidade” conduzem a uma definida prescrição para a realização ótima de decisões. Este método requer que sejam atribuídos valores numéricos a todas as conseqüências que podem advir de uma decisão clínica. Os métodos da teoria de decisão permitem representar o processo seqüencial de decisão típico do gerenciamento de pacientes, tanto no processo de diagnóstico quanto nas ações terapêuticas. Basicamente este método utiliza-se de uma Árvore de Decisão (Figura 5.4), formada por nós de decisão, onde o clínico deve escolher uma dentre um conjunto de ações, e por nós de acaso onde o resultado é uma resposta probabilística do paciente a uma ação realizada. Na construção da árvore deve-se delinear antecipadamente todos os nós pertinentes de decisão e de acaso, todas as conseqüências plausíveis, bem como os caminhos pelos quais essas conseqüências podem ser atingidas. Em GORRY et alii. (1973), encontra-se um exemplo de sistema baseado em Árvores de Decisão para o diagnóstico da doenças renais agudas.

100

Capítulo 5 - Informática Médica

Complicações graves com vidarabina Tratar com vidarabina

D Encefalite herpética S/ complicações

F Encefalite não-herpética

Encefalite herpética Não tratar com vidarabina

A

G Encefalite não-herpética

Complicações graves da biópsia Complicações graves com vidarabina Positiva tratar com vidarabina

B

E

Fazer biópsia

Encefalite herpética

S/ complicações

S/ complicações

C

H Encefalite não-herpética

Negativa tratar com vidarabina

Encefalite herpética

I Encefalite não-herpética Figura 5.4: Árvore de decisão para o diagnóstico e tratamento de uma suspeita de encefalite por herpes simples.

A análise de decisão representa graficamente dois tipos de eventos no processo de tomada de decisão: primeiro, apresenta-se as decisões (ou escolhas) disponíveis ao médico, e segundo, as probabilidades de todos os eventos que podem resultar de cada decisão. A Figura 5.4 ilustra uma análise de decisão de quando realizar uma biopsia cerebral, tratar, ou aguardar num caso de encefalite herpética. Nesta figura o quadrado

101

Capítulo 5 - Informática Médica

designado pela letra A indica a tomada de decisão pelo médico, os outros quadrados enumerados de B a I indicam os prognósticos diferentes e possíveis, cada qual com sua probabilidade estimada. Cada um dos resultados possíveis para um paciente é designado como “utilidade”, que consiste na eleição relativa do prognóstico, onde 1.0 é um resultado perfeito e 0 é o pior possível. Cada ramo terminal da árvore de decisão designa a utilidade correspondente ao seu prognóstico, e o valor esperado de cada ramo terminal é calculado pela multiplicação de sua probabilidade por sua utilidade. O modo de ação preferível, ou seja, o melhor caminho, é aquele que, considerados todos os resultados possíveis, abrange o valor esperado mais alto, que é a soma do produto da probabilidade multiplicada pela utilidade de cada um dos prognósticos possíveis.

5.4.4 - Análise de Banco de Dados Médicos Embora os primeiros Bancos de Dados Médicos (BDM) tenham sido desenvolvidos apenas como um dispositivo de armazenamento de dados clínicos, à semelhança dos prontuários e fichas médicas, recentes trabalhos, na construção de BDM, exibem uma evolução no sentido de permitir que se faça a análise das informações armazenadas através de sistemas consultores com recuperação dos dados. O médico frente a uma decisão complexa pode fazer consultas ao Banco de Dados (BD) sobre informações armazenadas de pacientes que possuam sintomas e/ou achados clínicos similares, analisando assim, como este paciente respondeu às várias terapias aplicadas.

102

Capítulo 5 - Informática Médica

As vantagens permitidas por este tipo de sistema são:  Cálculo das correlações entre as variáveis,  Medições dos indicadores de prognóstico e  Comparação das reações entre diferentes terapias, isto é, fazer diretamente a inferência diagnóstica.

Apesar dos BDM possuírem as vantagens acima citadas, é destacado um problema fundamental que o impede de elaborar diagnoses em situações complexas, uma vez que as informações armazenadas não estão estruturadas. Além disso, o conhecimento adquirido é empírico, ou seja, retirado basicamente da literatura ou de um especialista. É importante destacar, que o conhecimento médico é da mesma forma baseado em informações empíricas. Mesmo quando um especialista utiliza da “intuição” no processo de diagnose, ainda assim é baseado em observações e em dados coletados da literatura, além dos anos de experiência clínica. Nestes sistemas, não existe correlação formal entre o modo como os clínicos raciocinam no processo de decisão médica e o modo como o programa chega a determinadas recomendações. O processo de decisão requer a manipulação de uma grande quantidade de dados provenientes de diversas fontes, tornando assim o BD volumoso. Outros problemas são decorrentes da própria construção do BD, como foi abordado no Capitulo 4. Um dos mais conhecidos sistemas nesta categoria é o ARAMIS (FRIES, 1972), que foi desenvolvido originalmente para uso em pacientes com reumatismo, tendo sido adaptado mais tarde para clínica médica em geral.

103

Capítulo 5 - Informática Médica

Em WARNER et alii. (1972) tem-se um BD que utiliza uma coleção de regras lógicas que definem o critério de uma decisão médica. Outros sistemas de interesse podem ser encontrados em FEINSTEIN et alii. (1972) no qual o clínico interage com o sistema auxiliando-o na estimativa da prognose ou no próprio gerenciamento do paciente com câncer. Em ROSATI et alii. (1975), tem-se um sistema que manipula um vasto BD de pacientes que se submeteram a arteriografia coronariana.

5.4.5 - Técnicas de Reconhecimento Estatístico de Padrões O Reconhecimento Estatístico de Padrões, é um método classificatório que define relacionamentos matemáticos entre as características medidas na classificação dos objetos, aplica-se especialmente nas decisões de diagnose e prognose. Em medicina, a presença ou ausência de algum sintoma, sinal ou achado em um paciente pode ser definitiva para classificação deste como “normal” (saudável) ou então classifica-lo como pertencente a determinada categoria ou classe de doença. Neste sistemas os pacientes são associados a uma classe definida (diagnóstica ou prognóstica) e a observações diagnósticas. As observações diagnósticas ou descritores são informações médicas tais como: sintomas, sinais, história e resultados de exames podendo assumir valores contínuos ou discretos. O objetivo deste sistema é classificar o paciente de acordo com a doença, síndrome, estados clínicos ou estados fisiológicos. A classificação dos indivíduos é feita

104

Capítulo 5 - Informática Médica

de acordo com algum critério de decisão. A classe de pacientes pode ser descrita por um vetor característico da forma x = [x1, x2, ...,xn] onde xi é uma de n variáveis descritivas que produz uma equação P(CiX) = a1x1 + a2x2 +...+ anxn , das relações probabilísticas final de cada classe de diagnóstico através do conjunto de n coeficientes (ai). Para aplicação deste método é necessário que o paciente encontre-se num estado fixo, impondo-se uma série de pressuposições correspondendo a uma situação básica, recorrente em medicina, o diagnóstico diferencial. As maiores dificuldades deste método são: a escolha do conjunto de características, a coleta de medidas seguras num grande conjunto de amostragem e validação das classificações iniciais com os dados de treinamento. ARMITAGE & GEHAN (1977) propõem 3 exemplos de estudos de prognose com ênfase no método de regressão. GOLDWYN et alii. (1971), por outro lado já utiliza técnicas de clusterização.

5.4.5.1 - Critério de Bayes: A maioria dos SADM desenvolvidos foram baseados neste critério como meio de diminuir o número de parâmetros a estimar. Utiliza a abordagem de construir uma matriz contendo as probabilidades de um dado sintoma, sinal etc., a ser associado a uma doença, como resultado de algum estudo estatístico numa amostra de pacientes. Por exemplo: a probabilidade de que um paciente apresente perda de peso persistente, dado que ele tem tuberculose miliar, é de 0,8. O objetivo do modelo bayesiano de classificação diagnóstica é o de alocar o paciente, sob análise, em um conjunto finito de classes diagnósticas, com base nos sinais e sintomas apresentados por este.

105

Capítulo 5 - Informática Médica

Primeiramente, discute-se os conceitos de probabilidade total e probabilidade condicional. O conceito de probabilidade total é referente a seguinte questão: suponha que seja selecionado um paciente de um grupo indivíduos. A “chance”, ou probabilidade total, que este paciente apresente os atributos f (x, y,...z) é por definição a probabilidade total, ou seja, é a média do número de pacientes que possuem estes atributos em relação ao total do número de pacientes deste grupo. Se o numero total de pacientes é N, e N( f ) é o número de pacientes com atributo f, então a probabilidade total de que o paciente possua o atributo f é P( f )=N( f ) / N. Por exemplo a probabilidade que um paciente possua o complexo Ci será P(Ci) = N(Ci) / N. A probabilidade condicional é análoga à probabilidade total, onde a seleção é retirada somente de uma subpopulação que possua determinada condição. A probabilidade condicional é denotada por P (Gf ), cujos pacientes possuam o atributo ou condição f e, um paciente retirado deste subgrupo possui também o atributo G , e é definido como a média dos pacientes que possuem ambos atributos G . f , em relação ao número de pacientes que têm o atributo f. Note que nesta notação, a condição aparece no lado direito da barra e o atributo de seleção aparece no lado esquerdo: P(atributocondição), e pode ser expressa na forma: P( Gf ) = P( G.f ) / P( f ). O objetivo na diagnose é determinar a probabilidade de que o paciente tenha a doença f , onde é sabido o sintoma G, isto é, avaliar P(Gf ) para um paciente em particular. Por exemplo, seja f = Ci e G = Ck , a probabilidade condicional que um paciente possua um complexo de doença Ci e tenha o complexo de sintomas Ck será P(CkCi ) = P(Ck. Ci ) / P(Ci)

106

Capítulo 5 - Informática Médica

O raciocínio médico atua desta forma pois a probabilidade condicional é relativamente independente dos fatores ambientais locais tais como: geográficos, sazonais etc. O diagnóstico depende inicialmente dos aspectos fisio-patológicos (sintomas) da doença propriamente dita. A maioria dos médicos tenta encaixar um dado problema dentro de uma série de Síndromes. A síndrome é um grupo de sintomas e sinais, decorrentes de um distúrbio funcional, relacionados uns aos outros por meio de peculiaridades anatômicas, fisiológicas ou bioquímicas. Uma síndrome geralmente não identifica a causa precisa de uma doença, mas reduz bastante o número de possibilidades e muitas vezes sugere certos estudos clínicos e laboratoriais especiais. O diagnóstico pode ser bastante simplificado quando um problema clínico se adapta de maneira exata a uma síndrome bem definida, pois assim poucas doenças devem ser consideradas no diagnóstico diferencial. Ao contrário, a procura de causa de uma doença que não encaixe em uma síndrome é mais difícil, porque um número maior de doenças deve ser investigado. É por esta razão que na maioria da literatura médica, é discutido sintomas associados a doenças ao invés de doenças associadas à sintomas. Em termos gerais, a Regra de Bayes é dada por: P (C i C )  k

P (C i ) P (C k C i )

 P(Cw)P(C

k

eq. 5.1

Cw )

w

Onde o índice w indica o somatório de todas os possíveis complexos de doenças (isto é, se existem m doenças em consideração, então w assume o valor de 0 a 2m –1). O teorema de Bayes fornece uma abordagem para calcular as probabilidades para cada diagnóstico, dado um conjunto de indicações. É um modo simples de

107

Capítulo 5 - Informática Médica

combinar as probabilidades condicionais, produzindo uma probabilidade final, como por exemplo: a probabilidade de um paciente possuir: ENDOCARDITE BACTERIANA é de 0,85 TURBERCULOSE MILIAR é de 0,23 FEBRE TIFOIDE é de 0,01 DOENÇA DE HODGKIN é de 0,0011 O problema observado experimentalmente neste método encontra-se no número de possíveis alternativas de P(CkCi ) tornando-se assim num problema prático. Por exemplo, suponha Ci = 10 (doenças) e que Ck = 100 (sintomas), e que todas possuam valores binários. O números de estados de P(CkCi) será então 2110 , tornando assim impossível seu armazenamento. Além da limitação prática, outras limitações encontram-se em:  A adoção de independência condicional normalmente não se aplica e pode conduzir a erros substanciais em certos grupos, levando alguns pesquisadores a buscarem por novas técnicas numéricas que evite a adoção da independência. Se a formulação Bayesiana é feita sem a adoção de independência, o número de probabilidades condicionais torna-se proibitivo para problemas de um mundo real complexo.  Em alguns domínios pode ser impreciso assumir que a probabilidade condicional relevante é estável no tempo (isto é, a probabilidade que uma bactéria específica seja sensível a um determinado antibiótico). Além do que, categorias e definições de diagnósticos estão constantemente mudando a

108

Capítulo 5 - Informática Médica

medida que novos sintomas, sinais, doenças, são descobertos (Van BEMMEL, 1996).  Raramente, é encontrado na literatura médica valores numéricos para se determinar probabilidades. O que é comumente utilizado são termos como: freqüentemente, muito freqüente, quase sempre, normalmente, etc. (WIGERTZ, 1986). Um exemplo desta metodologia encontra-se em DOMBAL (1974) que foi desenvolvido para diagnóstico gastrointestinal originalmente para diagnosticar a dor aguda no abdômen. Seu programa foi aplicado na enfermaria de emergência de um hospital. Os dados de 304 pacientes com dor aguda foram utilizados como atributo, e submetidos à análise Bayesiana. A probabilidade condicional foi computada previamente e retirada de um grupo de pacientes de um das setes doenças prováveis (apendicite, diverticulite, úlcera perfurada, coleosistite, obstrução intestinal, pancreatite e dores abdominais não específicas). A formulação Bayesiana assume que cada paciente possui uma destas doenças e selecionando a mais provável, com base nas observações registradas. O diagnóstico é obtido no máximo em 15 minutos. O diagnóstico foi feito com margem de 91.8 de acertos dos 304 casos. Salientado-se que para a apendicite, cuja diagnose é feita incorretamente na maioria dos casos pelos clínicos, em nenhum deles o programa falhou ao fazer diagnóstico correto da doença.

109

Capítulo 5 - Informática Médica

5.4.6 - Raciocínio Simbólico Os SADM que utilizam esta metodologia estão relacionados com as heurísticas da IA, isto é, estão mais envolvidos com inferências simbólicas que estritamente com cálculos numéricos. Utilizam-se de modelos simbólicos de entidades e suas relações com os fatores ligados ao paciente e às manifestações clínicas. Uma das tarefas mais importantes que os desenvolvedores de sistemas baseados em IA enfrentam hoje é caracterizar de forma acurada os aspectos da prática médica. O objetivo da IA na medicina é tentar simular a cognição de um especialista médico no auxilio a situações difíceis e complexas como por exemplo na manipulação de dados e na manipulação do conhecimento. Os sistemas especialistas, ou baseados em conhecimento são os tipos mais comuns. Embora existam muitas variações, o conhecimento definido dentro de um SE é tipicamente representado na forma de um conjunto de regras do raciocínio categórico do tipo IF-THEN. Os programas baseados nesta metodologia seguem uma linha de raciocínio, ao invés de seguirem uma seqüência de passos predefinida. O objetivo básico é reproduzir o comportamento inteligente e o desempenho de um médico competente em sua área de trabalho, tendo a vantagem adicional de gerar conclusões. Esta conclusões devem representar adequadamente o processo do raciocínio e devem permitir que seja examinada em vários níveis de detalhamento. O programa deve ser capaz de responder questões sobre como chegou a uma determinada conclusão em particular (a que regra pertence esta inferência), e sobre porque uma determinada questão foi formulada (quais regras podem ser usadas).

110

Capítulo 5 - Informática Médica

Ao reconhecer uma enfermidade como uma instância específica de uma doença e ao selecionar um tratamento apropriado, o sistema consultor está aplicando várias normas e regras de interpretação. As regras existentes que coordenam o processo decisório são conhecidas pelo nome global de Conhecimento Normativo (conhecimento empírico) que podem ser formulados em modelos ou algoritmos, constituindo as regras Táticas e Estratégicas (Figura 5.5). As regras Táticas são aquelas que interpretam conjuntos de fatos específicos em termos de hipótese clínica. Características das Regras Táticas:  Focalização: focalizar um conjunto hipótese de diagnóstico,  Diagnose: Utilizar raciocínio discriminatório para chegar a um diagnóstico diferencial,  Confirmação: Medir o grau de certeza do diagnóstico,  Prognose: Avanços que a enfermidade poderá ter,  Terapia: administrar tratamento adequado,  Explanação: Explicar as conclusões do sistema.

As regras Estratégicas são aquelas que interpretam as condições ou o contexto no qual é apropriado aplicar regras táticas para derivar interpretações de mais alto nível ou sugerir ações. Características das Regras Estratégicas:  Bases teóricas,  Tratamento,

111

Capítulo 5 - Informática Médica

 Avanço da doença,  Mecanismos da doença,  Doenças,  Enfermidades,  Achados.

O Conhecimento Descritivo (conhecimento teórico) pode ser documentado, ou seja, armazenado na base de conhecimento ou num banco de dados. Refere-se a fatos médicos sobre tratamento, enfermidades, doenças, sintomas e é usualmente expresso por relacionamentos causais, taxonômicos, temporais ou associativos que se observou existirem entre esses conceitos generalizados.

Regras Estratégicas Conhecimento Normativo Regras Táticas

Conhecimento Descritivo Figura 5.5: Componentes principais da base de Conhecimento de um SADM

112

Capítulo 5 - Informática Médica

São três os componentes dos conceitos lógicos relativos ao diagnóstico médico, são eles (i) conhecimento médico, (ii) sinais e sintomas presentes no paciente, (iii) diagnóstico propriamente dito. O conhecimento médico contém as informações sobre as relações existentes entre sintomas e doenças. Os sintomas são todas as informações relativas a um paciente em particular. Com estas fontes de informações (conhecimento médico e histórico do paciente) disponíveis, utilizando-se o raciocínio lógico, a diagnose é feita. Ao se fazer uma análise lógica de um processo, é necessário rever alguns simbolismos associados à lógica proposicional. Os símbolos x, y, z,... etc são utilizados para representar atributos de um paciente, isto é, se o paciente apresenta um sinal como a febre, ou então uma doença, a pneumonia. As correspondentes letras em maiúsculas representam as sentenças, isto é, as declarações destes atributos. Exemplificando, Y representa a sentença: O paciente tem o atributo y. A negação desta declaração: O paciente não tem o atributo y. É representado por Y , onde a “barra” (chamada negação) sobre o Y indica “não”. A combinação dos símbolos X.Y representa a declaração: O paciente tem ambos atributos x e y, onde o “ponto” (chamado produto lógico) indica “e”. A combinação dos símbolos X+Y representa a declaração: O paciente tem o atributo x ou o atributo y, ou ambos, onde o sinal de “mais” (chamado de soma lógica) indica “ou”. A sentença: Se paciente tem atributo x, então tem atributo y. É simbolizada por X  Y. Todos estes símbolos e seus significados podem ser visualizados na Figura 5.6.

113

Capítulo 5 - Informática Médica

Símbolo

Nome

Interpretação

Y

negação

não y

X.Y

produto

XeY

X+Y

soma

X ou Y ou ambos

X Y

implicação

se X então Y

Figura 5.6: Representação Simbólica da combinação dos atributos

Note-se que com apenas dois atributos uma população de pacientes pode ser classificados em 4 classes, indicadas por C0, C1, C2, C3, Figura 5.7.

C0

C1

C2

C3

Y

X.Y

X+Y

X Y

Figura 5.7: Classificação dos atributos em classes

Naturalmente, mais de dois atributos são utilizados, e expressões complexas podem ser formadas pela combinação destes atributos. Tais expressões são chamadas de funções Booleanas e denotadas por ƒ (X, Y,..., Z). Similarmente, para mais de dois atributos pode-se classificar os pacientes em mais de 4 classes de doenças. Note-se que para m atributos, existem 2m possibilidades de que o paciente tenha ou não m atributos, e existem 2m de classes Ci = C0, C1, ..., C2m-1 de doenças.

114

Capítulo 5 - Informática Médica

Suponha que Si seja o conjunto de sintomas e Di o conjunto de doenças, então os três componentes do diagnóstico médico podem ser expressos em termos de uma função Booleana. Os relacionamentos (E) entre doenças e sintomas que compreende o conhecimento médico pode ser expresso na forma: E (S1,...,Sn, D1,...,Dm). Similarmente, os sintomas apresentados pelo paciente pode ser expresso da forma: G(S1,...,Sn), e o diagnóstico da doença (f) é dado por: ƒ(D1,...,Dm). O aspecto lógico do diagnóstico médico é determinar o diagnóstico da doença ƒ tal que, se o conhecimento médico (E) é conhecido, então: se paciente apresenta sintoma G, ele tem a doença ƒ. Em notação simbólica, o problema está em determinar a função Booleana ƒ que satisfaça a condição E  (G ƒ). Esta é a formula fundamental do diagnóstico _

médico, podendo ser escrita equivalentemente como E  ( f  G ) . Significando que se doença f foi curada, então o sintoma do paciente desapareceu

(LEDLEY &

LUSTED, 1959). Para ilustração do método, considere 2 atributos presentes, então existem 4 combinações possíveis. A Figura 5.8 representa as combinações em bases lógicas das Doenças. O Zero (0) indica que a correspondente doença não ocorre, e o Um (1) caso contrário. Cada coluna Ci

representa um complexo. Estas listas de complexos são

mutuamente exclusivas, isto é, um paciente em particular somente pode ser classificado dentro de um complexo por vez.

115

Capítulo 5 - Informática Médica

C0

C1

C2

C3

D1

0

1

0

1

D2

0

0

1

1

Figura 5.8: Base lógica dos atributos D1 e D2

Igualmente, pode-se representar em bases lógicas os Sintomas, onde as colunas agora serão designadas por Ck e referem-se à lista de complexo de sintomas (Figura 5.9).

C0

C1

C2

C3

S1

0

1

0

1

S2

0

0

1

1

Figura 5.9: Base lógica dos atributos S1 e S2

Então, para 4 atributos S1, S2, D1, D2 as combinações dos complexos de doenças e dos sintomas podem ser agrupadas em colunas de acordo com as bases lógicas (Figura5.10) cada coluna representa um produto diferente de Ck . Ci que será denotado por Cik .

116

Capítulo 5 - Informática Médica

C0

C1

C2

C3

C0

C1

C2

C3

C0

C1

C2

C3

C0

C1

C2

C3

S1

0

1

0

1

0

1

0

1

0

1

0

1

0

1

0

1

S2

0

0

1

1

0

0

1

1

0

0

1

1

0

0

1

1

D1

0

0

0

0

1

0

1

1

0

0

0

0

1

1

1

1

D2

0

0

0

0

0

1

0

0

1

1

1

1

1

1

1

1

C0

C1

C2

C3

Figura 5.10: Base lógica para sintomas e doenças

Exemplificando, a coluna na figura acima destacada em negrito corresponde a C1.C2 e será denotada por C21 representando a situação do paciente, ou seja, o paciente possui S1 e não possui S2, e concomitantemente possui D2 e não possui D1, que em termos lógicos é dado por: S 1 . S2 . D 1 . D 2

5.5 - Comentários

De um modo geral, os modelos baseados em conhecimento como os Algoritmos Clínicos e Modelos Matemáticos, utilizam raciocínio categórico enquanto que os modelos baseados em dados (árvores de decisão, teoria estatística e raciocínio simbólico) utilizam o raciocínio probabilístico (SZOLOVITS & PAUKER, 1979). Uma decisão categórica depende relativamente de poucos fatos, sua conveniência é fácil de

117

Capítulo 5 - Informática Médica

julgar e seu resultado é ambíguo. Os médicos, muito freqüentemente, trabalham com decisões categóricas. Porém nem todas as decisões podem ser deste tipo. Não existe uma regra simples para decidir se será realizado um procedimento médico ou não. Para tomar estas decisões deve-se pesar cuidadosamente toda a evidência disponível. Desconhece-se como os médicos pesam as evidências que favorecem ou não certas hipóteses. Na área computacional, existem vários formalismos com o objetivo de medir evidência, sendo mais amplamente utilizado o probabilístico. Outros enfoques menos convencionais são funções de credibilidade (fator de confiança) e as aplicações da teoria de conjuntos nebulosos, isto é, a Lógica Fuzzy (KALMANSON & STEGALL, 1975).

118

Capitulo 6

6.1 - O Uso de Modelos Neurais no Diagnóstico da D.M.

6.1.1- Considerações sobre a Área Médica Em HARRISON (1988), tem-se que as infecções do Sistema Nervoso Central (SNC) variam desde processos sépticos fulminantes, a patologias arrastadas, as quais exigem pesquisas exaustivas para identificar sua presença e definir sua causa. As seqüelas neurológicas e a sobrevida dependem, em grande parte, da extensão da lesão do SNC presente antes do inicio do tratamento eficaz. Assim sendo, é essencial que o médico atue rapidamente no sentido de obter um diagnóstico específico e instrua uma terapia apropriada. No entanto, a avaliação inicial deve levar em conta tanto a urgência em se introduzir a antibioticoterapia ou quimioprofilaxia, quanto o risco potencial envolvido na realização de uma punção lombar, em presença de infecções neurológicas focais. A Doença Meningocócica (DM) é causada por processos de natureza infecciosa ou não, e manifesta-se de duas formas:  Meningite  Meningococcemia

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Na Meningite, o processo inflamatório se dá na presença do micróbio localizado nas leptomeninges. Os tipos mais comuns são: Meningite Infecciosa (bacteriana, viral, tuberculósica e a fúngica) e as Não-Infecciosa (hemorragia subaracnoide, sarcoíde e o câncer). Na Meningococcemia, o micróbio agride o organismo como um todo, multiplicando-se na corrente sangüínea, assumindo a forma de infecção generalizada. Os pacientes com infecção do SNC costumam apresentar como conjunto de sintomas alguma combinação de febre, cefaléia, vômito, convulsões, coma, rigidez na nuca, sinais de Kernig e Brudzinski (obtidos através de exames neurológicos), moleira elevada (principalmente em crianças pequenas e lactentes) e petéquias (que são equimoses provocadas pela liberação de toxinas pelas bactérias na epiderme, e são características da Meningococcemia). O esteio do diagnóstico é proporcionado pela (HARRISON, 1988):  Anamnese,  Exame Físico,  Raquecentese (Punção Lombar) Na primeira fase o médico coleta os dados diretamente do paciente através da anamnese e do exame físico, verificando os sintomas presentes. Após a primeira fase é coletado o líquido da medula óssea através do procedimento conhecido como punção lombar. Ao líquido retirado da medula espinhal, dá-se o nome de Liquor, nele são feitos testes que comprovem o diagnóstico e são eles:

120

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

 Observação do aspecto do liquor que pode apresentar-se nas formas: límpido, turvo, purulento, xantocrômico, hemorrágico ou outros tipos não definidos.  Análise Citoquímica, na qual são feitas as contagens dos leucócitos, neutrófilos (polimorfonucleares) e monócitos.  Dosagens de proteína e glicose.  Cultura.  Bacterioscopia para determinação do tipo de bactéria presente (coloração pelo GRAM, gram-negativas ou gram-positivas)  Aglutinação pelo Látex, para detecção do antígeno.  Contra-imunoeletroforese que é um exame complementar para detecção do antígeno. Neste caso em particular este tipo de exame não foi feito.

A meningite é uma doença que causa preocupação tanto na população quanto nos Órgãos Governamentais, pois ela ocorre de 10-40% na forma bacteriana endêmica, sazonalmente em todo mundo. A meningite epidêmica também ocorre em qualquer parte do mundo, porém a maior e mais freqüente acontece no Continente Africano (SubSahara). As implicações sócio-econômicas da meningite epidêmica podem ser diminuídas através do controle e prevenção requerendo grande quantidade de vacinas, remédios e suporte técnico/financeiro das Autoridades Nacionais de Saúde. A taxa de meningite endêmica na Europa e Norte América varia de 1-5 por 100.000 da população. Em Países subdesenvolvidos, particularmente na África a incidência varia de 10-20 por 100.000 da população. Acima de 80% dos casos de meningite bacteriana são causados por 3 tipos de bactérias:

121

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

 Neisseria meningitidis  Streptococcus pneumoniae  Haemophilus influenza

Durante as condições não epidêmicas em países desenvolvidos, 50-60% dos casos ocorrem em crianças de 3 meses a 5 anos, porém casos com adolescente e adultos jovens (25-30 anos) têm sido observados. Em países onde a meningite tem maior incidência (África) é normalmente encontrada em crianças de 5-10 anos. A infecção afeta ambos os sexos, entretanto em mulheres ocorre com maior incidência. Jovens que vivendo em comunidades, como por exemplo escolas, agremiações, clubes entre outros são mais afetados que populações individuais. A meningite também é considerada uma doença militar, a incidência em recrutas não vacinados é 4-10 vezes maior que no geral da população. No Hemisfério Norte, incluindo os países Subtropicais, o aparecimento da doença ocorre durante o inverno e primavera, início de Dezembro-Janeiro e culmina em Março-Abril. A epidemia é favorecida por múltiplos fatores relacionados com o microorganismo, com o hospedeiro e com o meio ambiente. Interações entre esses fatores podem explicar a periodicidade e a sazonalidade dos padrões epidêmicos, assim como a distribuição por idade sobre indivíduos que contraíram meningite durante a fase epidêmica. Fatores climáticos também influenciam a sazonalidade da doença. O auge da atividade ocorre em períodos de baixa umidade relativa do ar, como no inverno em locais de clima temperado e nas estações de seca na África. Outros fatores como as condições de pobreza, baixa higiene e alcoolismo também favorecem ao aparecimento

122

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

da meningite. A globalização que permitiu o acesso rápido a outros países, as migrações espontâneas e refugiados facilitam a transmissão e a circulação da doença. São estimados que ocorram 1.2 milhões de casos de meningite bacteriana por ano, e destes 135.000 serão fatais (Fonte: World Health Organization, 1998). A título de ilustração, somente na Grande São Paulo foram constatados até agosto/98, 550 casos de meningite Meningocócica, dos quais 104 ocasionaram óbito. Os números são semelhantes ao do ano de 1997, no qual, para o mesmo período foram registrados 647 casos, com 99 óbitos. O trabalho experimental realizado teve como objetivo explorar as técnicas de Apoio à Decisão em Medicina apresentadas nos Capítulos 3 e 4. A área médica escolhida para o estudo foi a Doença Meningocócica devido a sua importância intrínseca tanto como uma das principais doenças infecciosas podendo inclusive levar à óbito quanto sua importância no Controle Epidemiológico e monitoração da evolução da doença ao longo do tempo.

6.2 - Coleta dos Dados

O Banco de Dados de casos foi construído utilizando-se informações de pacientes com suspeita da Doença Meningocócica na Divisão de Vigilância Epidemiológica da Prefeitura Municipal de Teresópolis, sob a coordenação do Dr. Luiz Guilherme Peixoto, médico sanitarista e chefe deste departamento.

123

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Optou-se por uma abordagem retrospectiva de coleta de dados, isto é, os dados a serem analisados foram coletados diretamente das Planilhas de Investigação de Casos da Divisão de Vigilância Epidemiológica compreendendo os anos de 1992 à 1997 com 163 pacientes com suspeita da doença. Foram selecionados apenas 100 casos de pacientes que realizaram os exames capazes de fornecer a classificação diagnóstica correta. São em números de 8 as Classes da Doença Meningocócica a serem classificadas encontradas nas planilhas de investigação de casos, sendo elas:  Meningite por Hemófilo  Meningite por Vírus  Meningite Tuberculósica  Meningite por Pneumococo  Meningite Meningocócica  Meningite Meningocócica + Meningococcemia  Meningococcemia  Meningite Não Específica

Os casos estudados apresentam a seguinte distribuição por classes diagnósticas:

 12 casos Meningococcemia  18 casos Meningite Meningocócica  12 casos Meningite Não Específica  04 casos Meningite Tuberculósica

124

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

 24 casos Meningite Pneumocócica  08 casos Meningite Viral  11 casos Meningite Meningocócica + Meningococcemia  11 casos Meningite Hemófila

6.3 - Materiais e Métodos

Para esta simulação utilizou-se um Computador PC com processador MMX de 200MHz com 64 Kbytes de memória RAM. A Figura 6.1 apresenta uma cópia da Planilha de Investigação de Casos modificada. Para reduzir o seu tamanho foram selecionados apenas os dados médicos de reconhecido valor diagnóstico. Como pode-se observar a planilha está dividida em seções de identificação: Dados Pessoais, Aspectos do Liquor, Citoquímica,

Manifestações Clínicas

Figura 6.1: Modelo modificado da Planilha de Investigação de Casos

125

Coma

Petéquias

Ab. Font.

Kern/Bd.

R. Nuca

Convulsão

Vômito

Febre

Cefaléia

Cultura Látex

Bacterioscopia

Proteína

Glicose

Mono

Célula

PMN

Citoquímica

Asp. Liquor Idade

Num

Dados Pessoais

Bacterioscopia, Cultura, Látex, Manifestações Clínicas.

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

O Banco de Dados construído, pelo fato de ter sido colhido retrospectivamente das Planilhas de Investigação de Casos ao longo de 6 anos, foi afetado diretamente pela maioria dos problemas que prejudicam a qualidade dos dados médicos discutidos no Capítulo 5. Além do fato de existirem falhas humanas tanto no preenchimento das Planilhas, quanto na execução dos exames laboratoriais, persistem ainda, falhas técnicas dos equipamentos utilizados nos testes laboratoriais. Conforme será visto no Capítulo 7, tal tipo de falha é particularmente comum no trabalho de Vigilância Sanitária da Cidade de Teresópolis e terá profundas conseqüências na forma com que os diagnósticos serão formulados. Os modelos de Redes Neurais aplicados ao diagnóstico demonstraram claramente que devido a estas falhas freqüentes nos exames laboratoriais, os médicos de Teresópolis adotam procedimentos de diagnóstico distintos daqueles previstos por uma Literatura Médica em Países onde tais falhas de laboratório são praticamente inexistentes.

6.4 - Redes utilizadas

Foram utilizadas dois tipos de Redes Neurais, o primeiro modelo cujo aprendizado é não supervisionado foi a Rede de KOHONEN (1982) que capta similaridades e correlações nas entradas fornecidas, e o segundo modelo, com aprendizado supervisionado foi a Rede de GALLANT (1988).

126

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

6.5 - Rede Kohonen

Para os testes foi utilizado um simulador disponível em RAO & RAO (1993), escrito sob a Programação Orientada a Objeto (POO) em C++, e adaptado às necessidades impostas ao problema. Para a Rede de Kohonen foram utilizados dados discretizados na forma que se segue abaixo, correspondendo às respectivas entradas: Aspectos do Liquor : Alterado e Límpido, Polimorfonucleares (PMN): predominante e não-predominante, Mononucleares (Mono): Predominante e não predominante, Proteína (PTN): com faixas de 0 à 30, 30 à 40, 40 à 100, maior que 100, Bacterioscopia: Diplococos gram negativos (DGN): presente e ausente, Negativa: presente ou ausente, Diplococos gram positivos (DGP): presente e ausente, Desconhecida: presente ou ausente, Bacilos gram negativos (BGN): presente e ausente, Criptococos: presente e ausente, Fungo: presente e ausente, Cultura: Negativa: presente e ausente, Positiva: presente e ausente, Outras: presente e ausente,

127

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Positiva para Hemófilo: presente e ausente, Positiva para Meningococo: presente e ausente, Látex: Negativo: presente e ausente, Positivo: presente e ausente, Positivo para Pneumococo: presente e ausente, Positivo para Meningococo: presente e ausente, Positivo para Hemófilo: presente e ausente, Cefaléia: presente e ausente, Febre: presente e ausente, Vômitos: presente e ausente, Convulsões: presente e ausente, Rigidez na nuca: presente e ausente, Manifestações de Kernig e Brudzinski: presente e ausente, Abaulamento da fontanela: presente e ausente, Petéquias: presente e ausente, Coma: presente e ausente.

A Rede possui desta forma 34 neurônios de Entrada correspondendo às variáveis discretizadas acima e 16 neurônios na Camada de Saída, e nenhuma camada escondida. Observe-se que o número de saídas utilizado (16) é maior que as saídas esperadas (8) conforme recomendação de RAO & RAO (1993) para esta Rede (Figura 6.2).

128

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

........................ ... Figura 6.2: Rede de Kohonen utilizada

A Constante de Aprendizagem utilizada no treinamento da Rede foi  = 0.165 e o Fator de Vizinhança i(n) = 1, com 200 Ciclos, sendo um ciclo o período no qual o Fator de Vizinhança e a Constante de Aprendizagem serão decrementados. Foram selecionados 65 casos para treinamento da Rede e reservados 35 casos para os testes finais. Os 65 casos selecionados para o treinamento apresentam a seguinte distribuição por classes diagnósticas:  07 Casos de Meningococcemia,  06 Casos de Meningite Não Específica,  04 Casos de Tuberculósica,  08 Casos de Viral,  15 Casos de Pneumocócica,  11 Casos de Meningite Meningocócica,

129

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

 07 Casos de Meningite Meningocócica + Meningococcemia,  07 Meningite Hemófila.

Utilizando-se os parâmetros como Fator de Vizinhança e Constante de Aprendizagem acima descritos, foi observado que a Rede de Kohonen gerou grupos de classificação distintos, ou seja, obteve-se uma classificação considerada satisfatória e já prevista para cada grupo. Os grupamentos formados serão analisados separadamente no Capítulo 7.

6.6 - Rede Gallant

O simulador utilizado para esta Rede foi o BrainMaker Simulated Biological Intelligence V2.51, California Scientific Software, 1992. Da mesma forma como para a Rede Kohonen os dados foram discretizados na forma: Aspectos do Liquor : Alterado e Límpido, Polimorfonucleares (PMN): predominante e não-predominante, Mononucleares (Mono): Predominante e não predominante, Proteína (PTN): com faixas de 0 à 30, 30 à 40, 40 à 100, maior que 100, Bacterioscopia: Diplococos gram negativos (DGN): presente e ausente,

130

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Negativa: presente ou ausente, Diplococos gram positivos (DGP): presente e ausente, Desconhecida: presente ou ausente, Bacilos gram negativos (BGN): presente e ausente, Criptococos: presente e ausente, Fungo: presente e ausente, Cultura: Negativa: presente e ausente, Positiva: presente e ausente, Outras: presente e ausente, Positiva para Hemófilo: presente e ausente, Positiva para Meningococo: presente e ausente, Látex: Negativo: presente e ausente, Positivo: presente e ausente, Positivo para Pneumococo: presente e ausente, Positivo para Meningococo: presente e ausente, Positivo para Hemófilo: presente e ausente, Cefaléia: presente e ausente, Febre: presente e ausente, Vômitos: presente e ausente, Convulsões: presente e ausente, Rigidez na nuca: presente e ausente,

131

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Manifestações de Kernig e Brudzinski: presente e ausente, Abaulamento da fontanela: presente e ausente, Petéquias: presente e ausente, Coma: presente e ausente.

Por possuir Aprendizado Supervisionado foi necessário elaborar o conjunto de Saída Desejado. Devido ao problema verificado quando do treinamento da Rede Kohonen com respeito à classificação correta da Meningite Tuberculósica e da Meningite Viral, estas duas classes foram colocadas num mesmo grupo. A discretização feita foi na forma: 0 (zero) para presente e 1 (um) para ausente e o conjunto de Saída Desejado foi construído do seguinte modo:  Meningococcemia,  Meningite Não Específica,  Tuberculósica e Viral,  Pneumocócica,  Meningite Meningocócica,  Meningite Meningocócica + Meningococcemia,  Meningite Hemófila.

A Topologia da Rede é da seguinte forma (Figura 6.3):  34 neurônios de Entrada,  Nenhuma camada escondida ou intermediária,  07 Neurônios na camada de Saída.

132

Capítulo 6 - O uso de Modelos Neurais no Diagnóstico da D.M.

Diagnóstico Final

..... Variáveis de caracterização Dados Clínicos e Resultados dos Exames de Laboratório

Figura 6.3: Modelo de Gallant utilizado

Foi aplicada uma Constante de Aprendizagem no treinamento de  = 0.01. A Função de Transferência utilizada foi Função Linear com “Threshold” e o Fator de Tolerância de valor igual a 0.05. Da mesma forma, foram selecionados 65 casos para treinamento da Rede e reservados 35 casos para os testes finais. Nos 65 primeiros casos apresentados à Rede, obteve-se um aprendizado de 90%, o que de certa forma era esperado, devido ao agrupamento de duas classes diagnósticas.

133

Capítulo 7

7.1 - Conclusões e trabalhos futuros

7.1.1 - Resultados da Rede Kohonen A análise dos resultados será vista separadamente para cada classe diagnóstica:

 Meningococcemia:

Dentro

deste

grupamento

obteve-se

uma

taxa

de

classificação correta de 71%, sendo ativado o neurônio de índice n 15. Com relação aos erros que a Rede cometeu ao classificar esta doença deve-se ao fato de que nestes casos, as variáveis referentes aos Dados Laboratoriais como Bacterioscopia, Cultura e Látex não foram feitos, e o diagnóstico médico foi confirmado apenas pelo Dados Clínicos presentes, em particular pela presença de petéquias (equimoses).

 Meningite Não Específica: Este grupamento obteve uma taxa de classificação correta de 83%, sendo ativado o neurônio de índice n 2. Pelo mesmo motivo apresentado acima, a classificação incorreta deve-se ao fato de que as variáveis referentes aos Dados de Laboratório não terem sido feitos.

Capítulo 7 - Conclusões e trabalhos futuros

 Pneumocócica: Este grupamento obteve uma taxa de classificação correta de 100%, sendo ativados os neurônios de índice n 8, 6 e 7. Esta classificação sem margem de erro deve-se ao fato de todas as varáveis referentes ao correto diagnóstico estarem presentes no conjunto de entrada.

 Meningite Meningocócica: Este grupamento obteve uma taxa de classificação correta de 100%, sendo ativado o neurônio de índice n 9. Pelo mesmo motivo apresentado acima, esta classificação correta deve-se ao fato da presença de todas as variáveis diagnósticas no conjunto de entrada.

 Meningite Meningocócica + Meningococcemia: Este grupamento obteve uma taxa de classificação correta de 71%, sendo ativado o neurônio de índice n 10. Os erros cometidos pela Rede com relação à classificação incorreta deve-se ao fato de que nestes casos de meningite os dados obtidos pelo Laboratório podem conter erros inerentes à manipulação dos próprios equipamentos técnicos, quanto erros inerentes à manipulação humana, ocasionando dados não fidedignos.

 Meningite Hemófila: Este grupamento obteve uma taxa de classificação correta de 100%, sendo ativado o neurônio de índice n 4. A classificação correta devese ao fato da presença de todas as variáveis diagnósticas no conjunto de entrada.

135

Capítulo 7 - Conclusões e trabalhos futuros

 Meningite Tuberculósica e Viral: Neste caso a Rede agrupou estes dois tipos de meningite no mesmo cluster (grupo), ativando os neurônios de n 12, 13 e 14. Isto deve-se ao fato que, para o correto diagnóstico é necessário a realização de exames complementares específicos que não foram feitos. O diagnóstico para a Meningite Tuberculósica é sustentado por esfregaços ou por cultura de secreções pulmonares através de Testes para os Bacilos álcool-ácidos-resistentes (Teste de BAAR) que são identificados em apenas 20% dos pacientes ou através do teste cutâneo com Tuberculina de potência intermediária, identificando-se como positivos 65 % dos casos. No caso da Meningite Viral é necessário a realização de pesquisa sorológica pareada, nas fezes e no liquor. Apesar da Rede agrupar a Meningite Tuberculósica e a Viral num mesmo cluster, este grupo mostrou-se coeso, não havendo alteração com relação à variações no índice do neurônio vencedor.

Na totalidade dos casos analisados a Rede comportou-se de forma uniforme, com margem de acertos em torno de 83%, indicando que quando estão presentes no conjunto de entrada todas as varáveis para o correto diagnóstico, a Rede converge com uma margem de erro considerada pequena (17%). Mas de acordo com a Literatura Médica especializada, o diagnóstico médico é feito com bases em dados condicionados e resultados laboratoriais satisfatórios, onde a margem de erro é relativamente pequena. O que observou-se na realidade é que devido evidências conflitantes e condições adversas, ou seja, quando as varáveis referentes aos dados laboratoriais estão ausentes

136

Capítulo 7 - Conclusões e trabalhos futuros

ou mesmo quando presentes não refletem a realidade, o diagnóstico médico é então baseado na própria experiência médica passada e nos dados clínicos. Ficando este fato claramente evidenciado nos resultados obtidos pela Rede de Kohonen.

7.1.2 - Resultados da Rede de Gallant Ao analisar a matriz de pesos gerada, observa-se que os erros cometidos na correta classificação dos diagnósticos deve-se aos mesmos fatores apontados pela Rede de Kohonen, ou seja, faltam Resultados Laboratoriais que confirmem o diagnóstico médico. Cabe aqui salientar que a princípio a Rede de Gallant foi construída em duas etapas (Figura 7.1). A primeira Rede possuiu como entrada os somente os Dados Clínicos, e após o treinamento, obteve-se uma Lista de Hipóteses Intermediárias (provável diagnóstico). Ao analisar os resultados obtidos pela primeira Rede de Gallant, propôs-se então construir uma segunda Rede com a seguinte topologia:  Uma camada de entrada formada somente pelos Dados Clínicos, que geram uma lista de Hipóteses Intermediárias. Esta Lista de Hipóteses Intermediárias geradas junto com os Resultados Laboratoriais, formam a camada intermediária originando assim o Diagnóstico Final.

O observado foi que a Rede de Gallant, segundo esta Topologia, não convergiu, isto é, não foi obtido um resultado satisfatório de classificação.

137

Capítulo 7 - Conclusões e trabalhos futuros

Isto deve-se ao fato de que o Clínico ao fazer um diagnóstico, baseia-se muitas vezes na própria experiência em casos passados, na intuição e na Literatura Médica. No caso estrito em Teresópolis, os resultados provenientes do Laboratório vêm somente confirmar um diagnóstico previamente elaborado. Isto pode ser prejudicial pois somente com os Dados Clínicos pode-se apenas gerar uma lista de hipóteses intermediária muito pequena. Pior, pode-se criar regras de diagnóstico conflitantes entre os médicos envolvidos, criando procedimentos que são incapazes de diferenciar corretamente a doença do paciente. Convém ressaltar que a Decisão Médica para diagnósticos diferenciais em Países de medicina laboratorial avançada é baseada principalmente nos Resultados Laboratoriais. Ressalta-se também que esta crítica não é dirigida aos médicos em si mas ao alto índice de falhas nos resultados laboratoriais da Cidade de Teresópolis. Tal índice leva a uma falta de confiança do profissional neste tipo de dado que passa a ser um dado auxiliar enquanto em outras localidades o mesmo dado é o norteador principal do diagnóstico.

138

Capítulo 7 - Conclusões e trabalhos futuros

Diagnóstico

Hipóteses intermediárias Resultados dos Exames de Laboratório

..... Variáveis de caracterização Dados Clínicos Figura 7.1: Modelo de Gallant proposto inicialmente

139

Capítulo 7 - Conclusões e trabalhos futuros

7.2 – Observações finais e Perspectivas Futuras

Vários são os motivos que levam os médicos a discordarem dos Resultados Laboratoriais, tais como:  Respostas falso-positvos ou falso-negativos: Presentes nos exames de Cultura e Bacterioscopia.

 Quantidade de Líquido Céfalo-Raquidiano (LCR) retirado do paciente: São necessários no mínimo 2 mililitros para todos os testes.

 Temperatura: Alguns organismos exigentes podem não sobreviver por períodos prolongados em temperaturas abaixo da temperatura corporal.

 Meningite Bacteriana parcialmente tratada: Tendência de organismos grampositivos apresentarem coloração gram-negativa. A Contra-imunoeletroforese é mais sensível tendo resultados positivos nos testes, mesmo quando a coloração pelo gram não o é. A detecção de antígenos pelo LCR muita vezes é o único método existente de identificação de um agente infeccioso de pacientes com meningite parcialmente tratada.

140

Capítulo 7 - Conclusões e trabalhos futuros

Todos estes dados devem ser avaliados e pesados pelo clínico, para o correto diagnóstico, mas como algumas vezes estes procedimentos são falhos, é necessário uma revisão e refinamento do processo de diagnose para obtenção de resultados satisfatórios. O diagnóstico errôneo cometido (que ocorre em 40% dos casos) levados por falhas alheias a perícia médica e o retardo quanto ao início do tratamento são fatores que influenciam na morbidade, e o médico com sua experiência deve esforçar-se por contrabalançar. Neste trabalho procurou-se mostrar que enquanto persistir a falta de confiança nos dados laboratoriais, o diagnóstico da meningite fica comprometido pois sem estes mesmos dados não é possível estabelecer um conjunto de regras procedurais uniforme entre os médicos que atuam neste processo. Isto ficou demonstrado pela incapacidade de se convergir uma rede de Gallant em que os dados laboratoriais apenas serviriam para confirmação de um diagnóstico prévio. O uso do modelo de Kohonen para este mesmo diagnóstico, agora com os dados laboratoriais incluídos, mostram que a pouca confiabilidade nestes últimos resulta em dificuldade de diferenciar o diagnóstico na Meningite Tuberculósica e Meningite Viral. Os diagnósticos em que estes dados eram fundamentais (Meningite Meningocócica e Meningite Meningocócica + Meningococcemia) também foram o que obtiveram o menor índice de acerto. Nas infecções do Sistema Nervoso Central (SNC), como no caso da Doença Meningocócica, é essencial que o médico atue rapidamente no sentido de obter um diagnóstico específico e instrua uma terapia apropriada, a avaliação inicial deve levar em conta tanto a urgência em se introduzir um tratamento adequado, quanto o risco

141

Capítulo 7 - Conclusões e trabalhos futuros

potencial envolvido. A meningite é uma doença que causa preocupação tanto na população quanto nos Órgãos Governamentais, devido ao seu alto grau de morbidade se não forem aplicadas medidas preventivas apropriadas. Pelos motivos apresentados acima, faz-se necessário um estudo mais profundo, avaliando e acompanhando desde os dados que são colhidos pelo clínico até os resultados laboratoriais obtidos, principalmente nas localidades mais distantes ou seja, no interior do País, onde os recursos técnicos são mais escassos, e assim será possível a construção de um Banco de Dados Médicos do tipo progressivo e robusto, evitando ao máximo a incidência de erros.

142

Referências Bibliográficas

Referências Bibliográficas 1. AIDA, K.; Minamikawa, T.; Takai, Y.; Fujimasa, I.; Takasugi, S.; Miwa, T. - “A Simulation Oriented System for Diagnosis and Treatment in Cardiology”, Medinfo 77, 1977. 2. ARMITAGE, P.; Gehan, E. A. - “The statistical Methods for Identification and Use of Prognostic Factors”, International Journal of Cancer, 13, 16-36, 1974. 3. BAKWIN, H. - “Pseudoxia Pediatrica”, The New England Journal of Medicine, 232, 691-697, 1945. 4. BARNETT, O. G. - “The Computer and Clinical Judgment”, The New England Journal of Medicine, 307, 493-494, 1982. 5. BLEICH, H. L. - “Computer-based consultation: electrolyte and acid-base disorders”, American Journal of Medicine, 53, 285, 1972. 6. BLOIS, M. S. - “The Nature of Medical Descriptions”, Informatics and Medicine, Berkley, CA: Univ. of California Press, 1984. 7. BORDAGE, G. - “Computers and Medical Diagnostic Problem-Solving”, Medinfo, 863-867, 1977. 8. BRADSHAW, G.; Fozzard, R.; Ceci, L. - “A connectionist Expert System that Really Works”, Advances in Neural Information Processing, 2, Morgan Kaufmann, Palo Alto , CA., 1989. 9. BRATKO, I. - Programming for Artificial Intelligence, Addison-Wesley Co. Inc., 3rd ed., 1990.

143

Referências Bibliográficas

10. BUCHANAN, B.; Shortliffe, E. - Rules-Based Expert Systems, Addison-Wesley Co. Inc., 1984. 11. CARPENTER, G. A.; GROSSBERG, S. - Pattern Recognition by Self-Organizing Neural Networks, MITPress, 1991. 12. CHURCHLAND, P. S.; Koch, C.; Sejnowski, T. J. - “What is Computational Neuroscience?”, Computational Neuroscience, E. Schwartz ed., 46-55, MITPress, 1990. 13. CROFT, D. J. - “Is Computerized Diagnosis Possible?”, Computers and Biomedical Research, 5, 351-367, 1972. 14. De KLEER, J.; William, B. C. - “Diagnosing multiple faults”, Artificial Intelligence, 32, 97-130, 1987. 15. DAVIS, R. - Diagnostic Reasoning Based on Structure and Behavior. Artificial Intelligence Laboratory, AI MEMO n° 739, MITPress, 1984. 16. DOMBAL, F. T. - “Computer-aided Diagnosis: Conclusions from an Overall Experience involving 4469 Patients”, Medinfo, 581-585, 1974. 17. DUDA, R. O.; Reboh, R. - AI and Decision-Making: The Prospector Experience, Artificial Intelligence Applications for Business, Ablex Pub. Co., 1983. 18. ELSTEIN, A. S. Schulman, L.; et alii. - “Methods and Theory in the Study of Medical Inquiry”, Journal of Medical Education, 47, 85-92, 1972. 19. EGGERMONT, J. J. - The Correlative Brain-Theory and Experiment in Neural Interaction, Springer-Verlag, 1990.

144

Referências Bibliográficas

20. FATTU, J. M.; Silverman, H.; Pauker, S. G. - “Capturing Clinical Expertise: a Computer Program that Considers Clinical Response to Digitalis”, American Journal of Medicine, 54, 452-460, 1978. 21. FEIGENBAUM, E. A. - Knowledge Engineering in the 1980’s. Dept. of Computer Science, Stanford University, 1982. 22. FEINSTEIN, A. R. et alii. - “Estimating Prognosis with the aid of a Conversational Mode Computer Program”, Arch. Int. Medicine, 76, 911-921, 1972. 23. FINDLER, N. V. - “STRIPS: A New Approach to the Application of Theorem Proving to Problem Solving”, Artificial Intelligence, 2,189-208, 1979. 24. FISCHLER, M. A.; Firschein, O. - “Intelligence: The Eye, The Brain, and The Computer”, Addison-Wesley Co. Inc., 1987. 25. FRIES, J. F. - “Time-oriented Patient Records and a Computer Databank”, Journal of American Medicine, 222, 1536-1542, 1972. 26. FROST, R. - Introduction to Knowledge Base Systems, William Collins Sons & Co. ltd., 1st ed., 1986. 27. FU, L. M.; Fu, L. C. - “Mapping rule-based System into Neural Architecture”, Knowledge-Based Systems, 3, 48-65, 1990. 28. FU, L. M. - Neural Networks in Computer Intelligence, McGraw Hill, 1st ed., 1994. 29. GALLANT, S. I. - “Connectionist Expert Systems”, Communications of ACM, 31, 152-169, 1988. 30. GALLANT, S. I. - Neural Network Learning and Expert Systems, MITPress, 3rd ed., 1995.

145

Referências Bibliográficas

31. GIARRATANO, J. - Experts Systems : Principles and Programming, PWS-Kend Pub. Co., 1st ed., 1989. 32. GOLDWYN, R. M.; Friedman, H. P.; Siegel, J. H. - “Iteration and Interaction in Computer Data Bank Analysis: as case study in the physiologic classification and assessment of the critically ill”, Computer Biomedical Research, 4, 607-622, 1971. 33. GORRY, G. A.; Kassirer, J. P. Essig, A.; Schwartz, W. B. - “Decision Analysis as the Basis for Computer-aided Management of Acute Renal Failure”, American Journal of Medicine, 55, 473-484, 1973. 34. GRÉMY, F. et alii. - “Theory of Medical Decision Processes Introductory Remarks”, Medinfo, 95-100, 1977. 35. GROSSBERG, S. - “How Does a Brain Build a Cognitive Code?” , Psychological Review, 87, 1-51, 1980. 36. GUALBERTO, P. H. - Aplicação do Algoritmo Back Propagation para o Problema de Avaliação da Estabilidade de Taludes, Tese de Mestrado. IPRJ-UERJ, 1998. 37. HALL, L. O.; Romaniuk, S. G. - A Hybrid Connectionist Symbolic, Learning System. Proceeding Of AAAI-90 (Boston), 783-788, 1990. 38. HART, A. - Knowledge Acquisition for Experts Systems, McGraw-Hill Book Co., 1st ed., 1986. 39. HAYKIN, S. - Neural Networks : A Comprehensive Foundation, Prentice Hall International Editions, 1st ed., 1994. 40. HEBB, D. O. - The Organization of Behavior”, New York: Wiley, Introduction and Chapter 4, “The First stage of perceptions: growth of the assembly”, 11-19, 1949.

146

Referências Bibliográficas

41. KALMANSON, D.; Stegall, H. F. - “Cardiovascular Investigations and Fuzzy Sets Theory”, The American Journal of Cardiology, 35, 80-84, 1975. 42. KANDEL, L.; Langholz, G. - Hybrid Architectures for Intelligent Systems, CRC Press, Boca Raton, FL., 1992. 43. KAPLAN, S.; Quadra, J. A. F. - Diagnóstico Diferencial em Medicina Interna, Atheneu, 1983. 44. KARTALOPOULOS, S. V. - Understanding neural networks and fuzzy logic- Basic concepts and applications, IEEE Press understanding science & technology series, 1996. 45. KOHONEN, T. - “Correlation Matrix Memories”, IEEE Transaction on computers, 21, 353-359, 1972. 46. KOHONEN, T. - “Self-Organized Formation of Topologically Correct Feature Maps”, Biological Cybernetics, 43, 59-69, 1982. 47. KOMAROFF, A. L. - “The Variability and Inaccuracy of Medical Data”, Proceedings of the IEEE, 67, 1196-1207, 1979. 48. KOVACS, Z. L. - Redes Neurais Artificiais: Fundamentos e Aplicações, São Paulo Edição Acadêmica, 1ª ed., 1996. 49. KOVACS, Z. L. - O Cérebro e Sua Mente - Uma Introdução à Neurociência Computacional, São Paulo Edição Acadêmica, 1ª ed., 1997. 50. KOWALSKI, R. A. - Logic for Problem Solving, Amsterdam, North-Holland, 1979. 51. KULIKOWSKI, C. A.; Weiss, S. - “Representation of Expert Knowledge for Consultation. The CASENET and EXPERT projects”, Artificial Intelligence in Medicine, 21-55, 1982.

147

Referências Bibliográficas

52. LAKS, J. et alii. - “Neuropsicologia – Introdução”, Rev.

Brasileira de

Neuropsicologia, 31, 39-41, 1995. 53. LEDLEY, R. S.; Lusted, L. B. - “Reasoning Foundation of Medical Diagnosis”, Science, 130, 9-21, 1959. 54. LEHRER, K. - Knowledge, Oxford University Press, 1974. 55. LITTLE, W. A.; Shaw, G. L. - “A Statistical Theory of Short and Long Memory”, Behavioral Biology, 14, 115-133, 1975. 56. LOESCH, C.; Sari, S. T. - Redes Neurais Artificiais, Fundamentos e Modelos, FURB, 1ª ed., 1996. 57. LUCAS, P.; Van Der Gaag, L. - Principles of Experts Systems. Addison-Wesley Co. Inc., 1st ed., 1991. 58. MACHADO, R. J. - Sistemas de Apoio à Decisão Médica- Diagnóstico Diferencial e Geração de Planos de Investigação, Tese de Doutorado, COPPE-UFRJ, 1985. 59. McCULLOCH, W.; Pitts, W. - “A Logical Calculus of the Ideas Immanent in Nervous Activity”, Bulletin of Mathematical Biophysics, 5,115-133, 1943. 60. McDERMOTT, J.; e Forgy, C. L. - “R1: An Expert in the Computer System Domain”, Proceedings of National Conference on Artificial Intelligence, 269-271, 1980. 61. MESEL, E. Wirtschafter, D. D.; Carpenter, J. T. et alii. - “Clinical Algorithms for Cancer Chemotherapy – Systems for Community-based Consultant-extenders and Oncology Centers”, Methods of Information in Medicine, 15, 168-173, 1976.

148

Referências Bibliográficas

62. MILLER, R. A.; Pople, H. E.; Myers, J. D. - “Internist-I, An Experimental Computer-Based Diagnostic Consultant for General Internal Medicine”, New England Journal of Medicine, 307, 468-476, 1982. 63. MONAT, A. - Métodos de Raciocínio Impreciso para Sistemas Especialistas Baseado em Regras, Tese de Mestrado, COPPE-UFRJ, 1988. 64. MUSEN, M. A.; van der Lei, J. - “Knowledge Engineering for Clinical Consultation Programs: Modeling the application Area”, Methods of Information in Medicine, 28, 28-35, 1989. 65. NEWELL, A.; Simon, H. A. - Human Problem Solving, Prentice Hall International Editions, 1972. 66. NEWELL, A.; Simon, H. A. - “Computer Science as Empirical Inquiry: Symbols and Search”, Communication of ACM, 19, 113-126, 1976. 67. OSBORN, A. F. - Applied Imagination Scribner, New York, 1953. 68. PREWITT, J. M. S. - “Experiments with Statistical and Quasi-statistical Methods in Diagnosis”, ed. Jacques, J. A., Computer Diagnosis and Diagnostic Methods, CC. Thomas, 1972. 69. RAO,V.; Rao, H. – C++ Neural Networks and Fuzzy Logic, 2nd ed., Miss Press, 1993. 70. REITER, R. - “A theory of Diagnosis from First Principles”, Artificial Intelligence, 32, 57-96, 1987. 71. RICH, E.; Knight, K. - Artificial Intelligence, McGraw-Hill, 2nd ed., 1991. 72. ROSATI, R. A.; Wallace, A. G. Stead, E. A. - “The Way of the Future”, Arch. Int. Medicine, 131, 285-287, 1973.

149

Referências Bibliográficas

73. ROSATI, R. A.; McNeer, J. F.; Starmer, C. F.; et alii. - “A New Information System for Medical Practice”, Arch. Intern. Of Medicine, 135, 1017-1024, 1975. 74. ROSENBLATT, F. - Principles of Neurodynamics, Spartan Books, 1962. 75. ROZENTHAL, M. - “Estudo dos Aspectos Neuropsicológicos da Esquizofrenia com Uso de Redes Neurais Artificiais”, Tese de Doutorado, UFRJ, 1997. 76. RUMELHART, D. E.; Hinton, G. E.; William, R. J. - Learning Internal Representations

by

Error

Propagation,

Parallel

Distributed

Processing:

Explorations in the Microstructure of Cognition, vol. I, D. E. Rumelhart and J. L. McClelland (eds.), 318-362, MIT Press, 1986. 77. SABBATINI, R. M. E. - “O Uso do Computador no Apoio ao Diagnóstico Médico”, Informédica, 1, 5-11, 1993. 78. SALAMON, R.; Leroy, V.; Tison, S. M.; Le Blanc, B. - “Health Informatics: Handle with Caution”, Methods of Information in Medicine, 36, 79-81, 1997. 79. SHAFER,G. - A Mathematical Theory of Evidence, Prince University Press, pp. 10, 1976. 80. SHANNON, C. - “The Mathematical Theory of Communication”, The Bell System Technical Journal, 27, 379-423 e 623-656, 1948. 81. SHORTLIFFE, E. H. et alii. - “Knowledge Engineering for Medical DecisionMaking: A Review of Computer-Based Clinical Decision Aids”, Proceedings of The IEEE, 67, 1207-1224, 1979. 82. SHORTLIFFE, E. H. - “The Science of Biomedical Computing”, Medical Informatics, 9, 185-193, 1984.

150

Referências Bibliográficas

83. SHORTLIFFE, E. H. - “Testing Reality: The Introduction of Decision-Support Technologies for Physicians”, Methods of Information in Medicine, 28, 1-5, 1989. 84. ŠIMA, J. - “Neural Expert Systems“, Neural Networks, 8, 261-271, 1995. 85. SEJNOWSKI, T. J.; Rosenberg, C. R. - “NETtalk: A Parallel Network That Learns to Read Aloud”, Johns Hopkins University Electrical Engineering and Computer Science Technical Report JHU/EECS 86/01, 1986. 86. SZOLOVITS, P.; Pauker, S. G. - “Categorical and Probabilistic Reasoning in Medical Diagnosis”, Artificial Intelligence, 11, 115-144, 1978. 87. SZOLOVITS, P.; Pauker, S. G. - “Computer and Clinical Decision-Making: Whether, Hom, and For Whom?”, Proceedings of The IEEE, 67, 1224-1226, 1979. 88. SZOLOVITS, P. - Artificial Intelligence and Medicine. In Szolovits, P. (ed.) Artificial Intelligence in Medicine, Westview Press, Boulder, CO, 21-55, 1982. 89. Van BEMMEL, J. H. - “The Structure of Medical Informatics”, Medical Informatics, 9, 175-180, 1984. 90. Van BEMMEL, J. H. - “Formalization of Medical Knowledge”, Methods of Information in Medicine, 25, 191-193, 1986. 91. Van BEMMEL, J. H. - “Medical Informatics Art or Science”, Methods of Information in Medicine, 35, 157-172, 1996. 92. WALLIS, J. W.; Shortliffe, E. H. - “Explanatory Power for Medical Expert Systems: Studies in the Representation of Casual Relationships for Clinical Consultations”. Methods of Information in Medicine, 21, 127-136, 1982. 93. WARNER, H. R.; Otmsted, C. M. Rutherford, B. D. - “The HELP- a Program for Medical Decision-Making”, Computer of Biomedical Research, 5, 65-74, 1972.

151

Referências Bibliográficas

94. WASSERMAN, P. D. - “Combined Back Propagation/Cauchy Machine”, Neural Networks: Abstracts of the 1st INNS Meeting, 1, 556. Pergamon Press, 1988. 95. WIDROW, B.; Hoff, M. E. Jr. - “Adaptive switching circuits”, IRE WESCON Convention Record, 96-104,1960. 96. WINSTON, P. H. - “Logical vs. Analogical or Symbolic vs. Connectionist or Neat vs. Scruffy”, Artificial Intelligence, 1, MITPress, 1991. 97. WIGERTZ, O. - “Making Decisions Based on “Fuzzy” Medical Data- Can Expert Systems Help?”, Methods of Information in Medicine, 25, 59-61, 1986. 98. YAZDANI, M.; Narayanan - A. Artificial Intelligence – Human Effects, Ellis Horwood, 1984. 99. ZADEH, L. A. - “Fuzzy Sets”, Information and Control, 8, 338-353, 1965. 100.

HARRISON, T. R. et alii - Medicina Interna, Editora Guanabara, volume I e II,

11ª edição, 1988.

152

APÊNDICE A A.1 - Elementos da Neurologia Diante da imensa complexidade do seu objeto de investigação, a ciência que estuda o sistema nervoso e as suas manifestações é convenientemente dividida em diversas áreas de especialização: neuroanatomia, neurofisiologia, neuropsicologia, psicofísica, psicologia, para citar as mais importantes (KOVACS, 1997).Por sua vez cada uma destas áreas compõe-se de uma diversidade crescente de subespecializações, com suas metodologias próprias e agendas específicas de investigação. Mais recentemente, a Neurociência Cognitiva procura unir em uma única teoria integrada e coerente a Neurociência e a ciência cognitiva – ciência que se propõe a modelar os processos de percepção e cognição com metodologias emprestadas da psicologia, inteligência artificial e modelos matemáticos associados. A grande maioria dos organismos, durante a evolução, desenvolveu células e tecidos especializados para a percepção de modificações do meio exterior e responderem a essas modificações. Estas modificações do meio que provocam respostas destas células especializadas, são chamadas de estímulos. Essas células e tecidos formam os sistemas nervosos que controlam, regulam e integram as atividades das várias partes do ser vivo. Os sistemas nervosos podem ser descritos como uma rede organizada de células nervosas muito diferenciadas, chamadas Neurônios, cuja capacidade básica é propagar ao longo de toda sua extensão um sinal elétrico em resposta a estímulos provocados por ações do ambiente ou por outras células. A célula nervosa é como qualquer outra célula biológica, delimitada por uma membrana celular que além da função biológica normal (seletividade), possui propriedades que são essenciais para a sua capacidade de processar e transmitir a informação. No neurônio são identificadas três porções com funções distintas: o corpo celular ou soma, a árvore dendrital e o axônio (Figura 3). O corpo celular contém o núcleo celular e o citoplasma. Os dendritos e o axônio, este

153

sempre único em cada célula, são prolongamentos da célula nervosa. Os dendritos levam a corrente nervosa em direção ao corpo celular e o axônio em direção contrária. Os dendritos são a parte receptiva da célula nervosa. Sua característica mais importante é oferecer uma ampla área de contato para a recepção da informação. Estes contatos ocorrem através de estruturas conhecidas como sinapses. Na sinapse, distinguem-se uma parte anterior composta pela membrana de um axônio pelo qual chega o pulso nervoso, chamada de membrana pré-sináptica ou terminal pré-sináptico, e uma parte posterior composta pela membrana do dendrito, chamada de membrana pós-sináptica ou terminal pós-sináptico, que receberá a informação (Figura 5) . Estima-se que o número de neurônios no sistema nervoso central seja da ordem de 1011 a 1012 . O número de conexões sinápticas é da ordem de 5.000 nos grandes neurônios motores da medula espinhal e chega a 95.000 em certos neurônios do córtex cerebelar. Quando chega um pulso nervoso pelo axônio pré-sináptico, sua membrana libera vesículas com mediadores químicos, chamados de neurotransmissores, os quais alcançam a membrana dendrital, provocando uma alteração na sua polarização elétrica. Portanto, uma característica fundamental da sinapse é de propagar informação apenas numa única direção: da membrana pré-sináptica em direção a pós-sináptica. Dependendo do tipo de neurotransmissor, esta alteração poderá ser no sentido de facilitar ou de inibir a formação de um potencial de ação no axônio do neurônio receptor. Assim, as sinapses são classificadas de excitatórias e inibitórias. Foi demonstrado experimentalmente que a parte exterior da célula não estimulada é eletricamente positiva, devido a alta concentração de íons de sódio, enquanto que a parte interior é eletricamente negativa (alta concentração de íons de potássio). Essa diferença entre cargas elétricas externas e internas é chamada de polarização e a membrana está, desta forma, polarizada. Esta corrente iônica diferente nos dois lados da membrana sustentam um potencial de repouso, E0: o interior da célula é mais eletronegativo que o exterior da membrana e E0 < 0. Quando o potencial E, através da membrana está menos eletronegativo do que seu valor de repouso, E > E0, diz-se que a membrana está depolarizada e quando está mais eletronegativo E < E0, dizse que está hiperpolarizada.

154

Quando os dendritos de um neurônio são estimulados, modificações elétricas indicam o início de um impulso nervoso (também conhecido como potencial de ação): o interior do neurônio, no ponto estimulado, torna-se positivo e o exterior negativo (E > 0). O próprio impulso causa uma mudança similar na região imediatamente próxima do segmento e o mesmo vai ocorrendo ao longo de toda célula. O impulso propaga-se, assim, ao longo de toda a célula como uma onda de impulsos químicos e elétricos localizados. Em seguida o fluxo de sódio diminui e o fluxo de potássio se restabelece, reconduzindo a membrana ao potencial de repouso (Figura 1). Este evento dura alguns milisegundos e determina uma duração Tn para o potencial de ação. Após a ocorrência do potencial de ação, a membrana fica incapaz de gerar outro potencial, independentemente da depolarização imposta. Este período, chamado de período refratário absoluto, Ta limita a freqüência de pulsos no neurônio em um valor máximo fmáx = 1 / (Tn + Ta). A formação de um potencial de ação em um ponto arbitrário ao longo da membrana axonal, ocorre quando, por qualquer razão, esta sofre uma depolarização suficiente para que o potencial de ação E cruze um valor conhecido como limiar de disparo. As várias depolarizações ou hiperpolarizações impostas ao neurônio pelos potenciais pós-sinápticos em cada sinapse, terão magnitudes Es que dependentes: do tamanho da sinapse, da quantidade de neurotransmissor liberado por cada pulso e do tipo de sinapse (depolarização no caso de sinapse excitatória e hiperpolarização no caso de inibitória). Este potenciais pós-sinápticos, via difusão passiva, contribuirão com uma certa porção ao potencial E no axônio. Numa aproximação razoável, pode-se considerar que este potencial E é simplesmente o resultado da soma de todas estas contribuições sinápticas, ou seja, E = E1 + E2 +...+ Em (KOVACS, 1997). Este princípio é conhecido como princípio da integração espacial dos estímulos, isto é, a resposta do neurônio depende da totalidade dos estímulos excitatórios e inibitórios que a ele chegam. Outro princípio igualmente relevante é a integração temporal dos estímulos pela membrana na região de cada sinapse. Este princípio resulta do fenômeno de armazenamento de carga pela capacitância elétrica C da membrana pós-sináptica, sempre que a sinapse é ativada por um pulso nervoso. Após a extinção deste pulso, a

155

carga armazenada é descarregada pela condutância transversal gt da membrana com uma constante de tempo  = C / gt . Ilustrando um modelo de primeira ordem, que considera apenas a característica funcional dominante de um axônio, a saber, a existência de um limiar de disparo, de um período de refração absoluta e de um período de refração relativa que se extingue exponencialmente, permitindo simular adequadamente o princípio de codificação neural, pelo qual a intensidade da excitação é transformada em um código de freqüência (Figura 2). Para uma membrana axonal em repouso, seja 0 o limiar de disparo, e Tn a duração do potencial de ação. O comportamento neuronal é modelado durante o período refratário absoluto Ta e relativo pela elevação deste limiar de disparo, ou seja, 0   durante Tn + Ta e para r (t) = 0 + A. exp(- (t – Ta) /  durante o período refratário relativo, sendo u a depolarização imposta à membrana. Determina-se a expressão para a freqüência f(u) dos impulsos no axônio em função desta depolarização

E = u

(Figura 2). Uma vez que o axônio disparou em t=0, o próximo disparo ocorrerá no instante T(u), tal que: u >= A + 0  u < A + 0



T(u) = Tn + Ta

u = 0 + A. exp(- (T(u) – Tn +Ta) / 

 T(u) = Tn + Ta - . Ln (u - 0)/A

A.2

-

Computação

Elementar

Em

Um

Neurônio Considere a situação representada pela Figura 3. Suponha numa primeira aproximação que a polarização Esi da membrana pós-sináptica é proporcional a freqüência média wi dos pulsos que chegam à sinapse, através de uma constante de

156

proporcionalidade ki cujo sinal e magnitude dependem da característica da sinapse. Assim, no axônio, a polarização resultante será de:

E = a1Es1 + a2Es2 = a1k1w1 + a2k2w2 = b1w1 + b2w2 Onde as constantes b1 = a1k1 e b2 = a2k2 incorporam a atenuação devido a difusão passiva e o ganho da sinapse. Suponha que a função de transferência do neurônio é dada pela função logística: f (E)

1 1  eE

Em particular, assume-se uma constante de tempo de recuperação do período refratário de  = 100 ms. . A função de transferência f (E) se aproxima de um degrau em E  9.5 mV = E* com uma faixa de transmissão de aproximadamente igual a  =  0,5. Assim pode-se definir no plano (w1 , w2 ) uma reta separatriz. E = E*  b1w1 + b2w2 = E* Tal que, para qualquer par de valores das excitações sinápticas w1, w2 , tem-se que: b1w1 + b2w2 > E* +   f(E) = f(b1w1 + b2w2)  1000 pulsos/seg. b1w1 + b2w2 < E* -   f(E) = f(b1w1 + b2w2)  0 pulsos/seg. Desta forma o neurônio idealizado com duas sinapses, permite classificar o padrão w1 e w2 em duas categorias A e B correspondentes às duas freqüências de saída acima. Genericamente, um classificador que separa, mediante um plano, o espaço euclidiano n em duas regiões é conhecido como discriminador linear. No caso deste exemplo, o plano euclidiano 2 é separado em duas regiões, e o neurônio funciona como um discriminador linear de dimensão 2. Esta situação está representada na Figura 4. + + + + + +          + + + + + + Axônio

      + + + + + + + + +

     

      + + + + + + + + +

     

+ + + + + +          + + + + + +

Figura 1: Passagem de um impulso nervoso noxônio

157

0  

u

0 Tn + Ta

T(u)

t

Figura 2: Comportamento neuronal modelado durante o período refratário absoluto T a e relativo pela elevação deste limiar de disparo para 0   durante Tn + Ta r (t) = 0 + A. exp(- (t – Ta) /  durante o período refratário relativo

w2 + A f(E) = 1000

-

w1

B f(E) = 0

Figura 4: Plano separador E*

158

b1w1 + b2w2 = E*

Es1

Es2

Soma

Esm

Dendritos

Axônio

E = E1 + E2 +...+ Em E = a1Es1 + a2Es2 +...+asEsm Figura 3: Integração espacial dos estímulos pelo neurônio

Terminal pré-sináptico

Terminal pós-sináptico

Figura 5: Representação da Sinapse

159

Copyright © 2024 DOKUMEN.SITE Inc.