Hvad er connectionism?

link: http://www.ucs.louisiana.edu/~isb9112/dept/phil341/wisconn.html

István S. N. Berkeley Ph.D.

Bibliografi

Connectionism er en stil af modellering baseret på netværk af indbyrdes forbundne simpel forarbejdning enheder. Denne stil af modellering går af en række andre navne også. Connectionist modeller er også nogle gange omtalt som “Parallel Distributed Processing’ (eller PDP) modeller eller netværk. 1 Connectionist systemer er også nogle gange refereret til som “neurale netværk” (forkortet til NN’er) eller “kunstige neurale netværk” (forkortet til ANNs). Selv om der kan være nogle retoriske appel til denne neurale nomenklatur, det er i virkeligheden misvisende, da connectionist netværk er almindeligt betydeligt forskellig neurologiske systemer. Af denne grund, jeg vil undgå at bruge denne terminologi, andre end de direkte citater. I stedet, jeg vil følge den praksis, jeg har vedtaget ovenfor og bruger ‘connectionist’ som min primære betegnelse for systemer af denne art.

De grundlæggende komponenter i en connectionist system er som følger;

  1. Et sæt af behandling enheder
  2. En række modificerbare forbindelser mellem enheder
  3. En læring procedure (valgfri)

Jeg vil beskrive hver af disse komponenter igen. Læsere, der kræver yderligere tekniske detaljer, bør rådføre sig med de generelle rammer for connectionist systemer beskrevet ved Rumelhart, Hinton og McClelland (1987).

Behandling Enheder

Behandling af enheder, der er de grundlæggende byggeklodser, hvorfra connectionist systemer er opbygget. Disse enheder er ansvarlige for at udføre den behandling, der foregår inden i en connectionist netværk. De nøjagtige detaljer om den behandling, som foregår inden for en bestemt enhed afhænger af den funktionelle delkomponenter af den enhed. Der er tre afgørende delkomponenter. Disse er,

  • a) net2 input funktion
  • b) aktivering funktion
  • c) output funktion

De forskellige komponenter i et edb-enhed kan repræsenteres som følger,

Figur 3-1

Net input funktion af en processing unit bestemmer den samlede signal om, at en bestemt enhed modtager. Nettet input funktion tager som input signal, som en enhed modtager fra alle kilder (ii-m ), herunder andre enheder, som det er sluttet til. Det er ofte tilfældet, at nettet input funktion af en enhed, er relativt simpel. Almindeligt, netto input funktion for en enhed vil bare summen af input signaler, som apparatet modtager på et bestemt tidspunkt (t).

Aktivering funktion af en særlig enhed afgør den interne aktivitet af den enhed, afhængigt af net-indgang (som fastsat af net input funktion), at enheden modtager. Der er mange forskellige former for aktivering funktioner som særlige enheder kan anvende. Den ‘type’ af en særlig enhed er bestemt af dens aktivering funktion. Måske er den enkleste form for aktivering funktion er illustreret nedenfor,

Figur 3-2

Aktivering af funktioner som denne handling snarere som skifter og er undertiden kaldes “trin funktioner’. Hvis nettet, input til en enhed, der anvender en sådan aktivering funktion er større end tærskel værdi, q, den enhed, der bliver fuldt aktiv.3, Hvis nettet input er under dette niveau, processing unit er helt inaktive. Aktivering funktion, aj, for en sådan enhed, j, kan være udtrykt mere formelt som følger;

 hvor ij er netto input, der modtages af enheden på gang t og qj er den tærskel værdi for enhed j.

Aktivering af funktioner af denne type blev brugt i de tidligste dage af netværk for forskning. Desværre, selvom de er underlagt visse væsentlige begrænsninger (se Minsky ‘ & Papert 1968). I særdeleshed, er det ikke muligt at træne netværk, som anvender denne form for enhed arrangeret i mere end to lag.

I øjeblikket er der i det domæne af trainable netværk, som er langt den mest almindelige form for behandling af enhed, der er ansat af connectionists er, hvad Ballard (1986) har kaldt en ‘integration enhed’. Den logistiske funktion, der er beskrevet af Rumelhart et al (1986a: s. 324-325), for eksempel, er et eksempel på en integration enhed. Integration-enheder har en sigmoidal aktivering funktion, der svarer til en illustreret nedenfor, og kan beskrives som en kontinuerlig tilnærmelse af en step-funktion.

Figur 3-3

Aktivering funktion, aj, for en enhed, j, af denne slags, der modtager netto input ij er;

Integration-enheder i deres aktivering funktion for noget kendt som ‘bias’. Bias tjener til at ændre niveauet af input til en enhed, som er nødvendig for, at enheden for at blive aktive og er derfor svarer til tærsklen af en step-funktion. I mere tekniske termer, bias tjener til at oversætte aktivering funktion langs en akse, der repræsenterer netto input, og derved ændre placeringen af aktivering funktion i netto input plads. j sigt i den logistiske ligning er den bias sigt af, at aktivering funktion.

Et vigtigt element i sigmoidal aktivering funktioner er, at de er differentiable. Grunden til at dette er vigtigt er, at det gør det muligt at træne netværk med mere end to lag af behandling enheder, ved hjælp af kraftfulde læring regler, såsom den generelle delta-reglen, som er beskrevet af Rumelhart, Hinton og Williams (1986a: pp. 322-328). Denne evne til at træne netværk med flere lag har i høj grad øget magt netværk.

Selv om integration enheder er velsagtens den mest almindeligt anvendte enhed type i trainable netværk på nuværende tidspunkt, anden aktivering funktioner er også blevet undersøgt. For nylig, Dawson og Schopflocher (1992) har beskrevet en slags processing unit, som de kalder, efter Ballard ‘ s (1986) terminologi, en ‘værdi enhed’ . Værdi enheder anvender en Gauss-aktivering funktion, som den nedenfor,

Figur 3-4

Aktivering funktion, aj, for en enhed, j, af denne slags, der modtager netto input ij er;

Som netto input, ij, til en værdi enhed stiger, niveau af aktivering af enheden, ,aj, øges, men kun op til et vist punkt, j. Når ij = j, aktivering aj er maksimeret og har en værdi på 1. Hvis enheden modtager netto input større end j, aktivering af enheden begynder at falde igen, ned til 0. Som en konsekvens af at have denne form for aktivering funktion, værdi enheder kun vil generere en stærk aktivering til et snævert udvalg af net-indgange. Værdi enheder, som integration enheder, kan bruges til at konstruere trainable flerlags-netværk.

En enhed i en connectionist netværk typisk sender et signal til andre enheder i netværket eller udenfor netværket. Det signal, at en enhed sender ud, er bestemt af output-funktion. output funktion afhænger af staten for aktivering af enheden. Det er almindelig praksis, på nuværende tidspunkt, at produktionen funktion af en bestemt enhed er sådan, at det bare sender et signal, der svarer til dens aktivering værdi. Der er dog ingen teoretisk grund til, at dette nødvendigvis må være tilfældet.

Ændres Forbindelser

For at en bestemt connectionist netværk til at bearbejde information, er de enheder i netværket skal være forbundet med hinanden. Det er via disse forbindelser, at de enheder, der kommunikerer med hinanden. Forbindelserne i et netværk, er normalt ‘vægtet’. Vægten af en forbindelse, som er bestemmende for størrelsen af det signal som input i den forbindelse, som vil blive overført mellem enheder. Forbindelse vægt (undertiden også kaldet ‘forbindelse styrker’) er positive eller negative reelle numeriske værdier. Mængden af input en særlig forbindelse forsyninger til en enhed, som den er tilsluttet, er værdien af resultatet af output-funktion, der af den afsendende enhed, multipliceret med vægten af den forbindelse.

Figur 3-5

I princippet er der ingen grænse for antallet eller mønster af forbindelser, som en given enhed kan have. Enheder kan have vægtet forbindelser med sig selv, og der kan endda være sløjfer eller cykler af forbindelser. Men for nuværende formål, der er ingen grund til at undersøge sådanne kompleksiteter. I stedet, der vil være begrænset til simple tre-lags systemer, som illustreret nedenfor.

Figur 3-6

Hvis særlig behandling enheder i et system, der kan modtage input fra kilder uden for selve netværket, så disse enheder er normalt kaldet input-enheder. Alternativt, hvis særlig behandling enheder kan sende signaler uden for selve netværket, så disse enheder er normalt kaldet output enheder. Endelig, behandling enheder, som kun kan kommunikere direkte med andre enheder på netværket (dvs enheder, som ikke har nogen direkte input eller output, der er eksterne til netværket) er normalt kaldet skjulte enheder. Lag af skjulte enheder er ikke et vigtigt element af netværk, selvom mange netværk kræver et enkelt lag af skjulte enheder til at løse bestemte problemer. Det er også tilfældet, at der er ingen grund til, at et netværk skal bare have et enkelt lag af skjulte enheder. For eksempel, et netværk, der er beskrevet af Bechtel og Abrahamsen (1991: p. 169) har to lag af skjulte enheder.

Læringsregler

En læringsregel er en algoritme, som kan bruges til at ændre styrken af vægten af forbindelserne mellem behandlingsenheder. Mens alle forbindelsessystemer har behandlingsenheder og mønstre af forbindelser mellem enhederne, er det ikke alle systemer, der har læringsregler. Nogle netværk (f.eks. Jets and Sharks Interactive Activation and Competition Network, beskrevet i McClelland og Rumelhart (1988)) er bygget manuelt (eller “håndkodet”). Håndkodede netværk har vægten af forbindelserne mellem de behandlingsenheder, der er indstillet manuelt af netværksbyggeren. Men i de fleste forbindelsesmæssige netværk er en lære regel af en eller anden art ansat. I denne afhandling vil jeg først og fremmest være bekymret over netværk, der anvender læringsregler.

En læring regel bruges til at ændre den forbindelse vægt på et netværk, så som (forhåbentlig) til at gøre nettet bedre i stand til at producere det rigtige svar til et givet sæt af indgange. Netværk, der anvender læring regler, der er nødt til at gennemgå en uddannelse, for at lære regel at have en mulighed for at indstille den forbindelse vægt. Uddannelsen består normalt af det netværk, der bliver præsenteret med mønstre, der repræsenterer input stimuli på deres input lag. Det er fælles for tilslutning vægte for at blive sat tilfældigt før træning.

For eksempel, kan du overveje en af de mest populære læring regler for connectionist netværk, Rumelhart, Hinton og McClelland ‘ s (1986) generaliseret delta-reglen. Når du bruger denne regel, netværket er vist eksempel mønstre fra en uddannelse. Formålet med den generelle delta-reglen er at ændre netværkets forbindelse vægt på en sådan måde, at netværket genererer en ønsket reaktion, at hver enkelt mønster i træningssættet.

Mere specifikt, med generaliseret delta-reglen læring provenu ved at præsentere en af de mønstre, der fra uddannelse til netværkets input lag. Dette medfører et signal, der skal sendes til det skjulte lag(s), som igen resulterer i et signal, der sendes til output lag. I den generelle delta-reglen, den faktiske aktivering værdier for hver output-enhed i forhold til aktivering værdier, der ønskes for input mønster. Den fejl for hver output-enhed er forskellen mellem den faktiske og ønskede aktivering. Den generelle delta regel bruger denne fejl sigt at ændre vægten af de forbindelser, der er direkte knyttet til den output-enheder. Fejl sendes derefter gennem disse ændrede vægte som et signal om, at de skjulte enheder, der bruger dette signal til at beregne deres egen fejl. De fejl, der beregnes på dette tidspunkt er derefter brugt til at ændre den forbindelse vægt mellem input-enheder og de skjulte enheder. I alle tilfælde, hvor en vægt er ændret, generaliseret delta-reglen sikrer, at denne ændring vil mindske netværk af fejl til den aktuelle indgang mønster.

Normalt, læring regel kun gør små ændringer i den forbindelser vægte mellem lagene, hver gang det anvendes. Som et resultat uddannelse kræver ofte mange præsentationer af det sæt af input mønstre. Ved gentagne præsentation af uddannelse og anvendelse af læring regel, netværk kan lære at producere den korrekte svar til det sæt af indgange, som gør op træningssættet. At lære regler og dermed være et middel til at producere netværk med input/output-tilknytninger egnet til særlige opgaver eller problemer. Hver præsentation af det sæt af input mønstre og output mønstre er kendt som en “epoch” eller et “sweep”. Når netværket producerer et output for hver indgang mønster, som er tæt nok (som bestemmes af forsøgslederen) til det ønskede output for hvert mønster, uddannelse stopper og netværket siges at have nærmet sig hinanden’.

Forord


Noter

  • 1) Men i nuværende forbrug, vil de vilkår ‘connectionist’ og ‘PDP’ er effektivt blevet synonymer, de to begreber, når haft forskellige betydninger. Oprindeligt, de såkaldte “Connectionist” modeller var generelt forbundet med Ballard ‘ s arbejde ved University of Rochester. Såkaldte “PDP-modeller”, på den anden side, var forbundet med PDP Research Group of San Diego (for flere oplysninger om etymologi af disse vilkår, se Smolenskijs 1991: p. 225, fn. 5). Jeg vil følge med i, hvad er nu den nuværende praksis og bruge de to begreber som synonymer.
  • 2) Udtrykket “nettet” her er ikke ment som en forkortelse af begrebet “netværk”. Den tilsigtede mening er, at ‘nettet’ som modsætning til ‘grov’.
  • 3) Bemærk, aktivering niveauer behøver ikke at være 0 og 1. Disse værdier er ansat kun til illustrative formål.

N. B. Hit ’tilbage’ – knappen på din browser for at vende tilbage til din plads i teksten.