vendredi 12 août 2022

L'affaire du Perceptron

Research trends, Vol. VI, N°2, 
 Cornell University, été 1958 

 Report MARK 1 Perceptron operators’ manual, 
Cornell Aeronautical Laboratory,février 1960

                                                                Crédit: Université de Cornell

Résumé : Il y a soixante ans, la première réalisation matérielle d’un neurone artificiel posa les bases de l’interfécondation entre neuro sciences et data sciences. Cette machine, le Perceptron, suscita des controverses sur des problématiques toujours d’actualité.

« The Navy revealed the embryo of an electronic computer today that it expects will be able to walk, talk, see, write, reproduce itself and be conscious of its existence. »

Quelle est donc cette machine, cette IA, vouée à se reproduire d’elle-même et à être dotée de conscience ? Ces dernières années, les médias se font régulièrement écho de telles promesses fracassantes, y compris cet été 2022, où Blake Lemoine s’est répandu en témoignages de l’émergence d’une conscience au sein de LaMDA, projet dans le quel il opérait comme ingénieur chez Google (qui l’a licencié). L’article évoqué, du très sérieux New York Times, est bien plus ancien. Il date de 1958 et fait référence au Perceptron, suite à une interview de Frank Rosenblatt, son concepteur.

Monstre sacré ou star déchue, le Perceptron a marqué les débuts de l’intelligence artificielle. Son histoire constitua toute une affaire dans la communauté naissante de l’IA, elle demeure significative des idées qui ont conduit aux réseaux de neurones artificiels célèbres aujourd’hui, et aussi aux spéculations pseudo scientifiques qui ne cessent d’entourer l’IA.

Le Perceptron marque la première réalisation matérielle de neurones artificiels. Les moyens d’observation confortant la théorie d’un cortex constitué de neurones ne datent que de la toute fin du 19e siècle. Les premières modélisation de fonctionnement viennent un demi siècle plus tard, avec la description de la transmission d’impulsion par McCulloch et Pitts, et la règle d’apprentissage de Donald Hebb, toutes deux restées sur le papier jusqu’à ce que Rosenblatt conçoive son Perceptron. Chercheur en psychologie, son but était d’étudier nos processus d’apprentissage. A cette fin, l’architecture du Perceptron reprend le modèle de McCulloch et Pitts et l’algorithme d’apprentissage s’inspire de la règle de Hebb.

Une expérience typique était de faire apprendre la machine à reconnaître des lettres de l’alphabet. La « rétine » de lecture était un tableau de 20 lignes de 20 « pixels » blancs ou noirs (les pixels noirs représentaient la lettre) fournis par une caméra ou directement par un tableau de 400 interrupteurs manuels! La machine « répondait »en allumant ou non chaque lampe d’une rangée de huit voyants. On convenait une fois pour toute d’un code pour les lettres (par exemple « A » doit allumer seulement la lampe 1, « B » doit allumer seulement la lampe 2, etc (avec 8 lampes, on peut coder 256 caractères, mais le Perceptron n’est jamais allé jusque là). L’« allumage » de pixels aboutissait à l’allumage ou non d’un voyant selon les lois de l’électricité à travers un fouillis de câblages et de relais munis de résistances variables qui simulaient les coefficients synaptiques. On présentait dans un ordre quelconque, et autant de fois qu’on le voulait, des écritures différentes de chaque lettre. Si la réponse n’était pas le code attendu de la lettre – autrement dit si « le Perceptron se trompait » - certaines résistances étaient modifiés selon la loi de Hebb.

Si au bout d’un nombre indéterminé de « lectures » le Perceptron finissait par donner la bonne réponse pour chaque variante de chaque lettre, l’apprentissage était réussi. Et si alors on lui présentait de nouvelles variantes de lettres, qu’il n’avait jamais lues, il donnait en général la bonne réponse là ou un humain fait de même.

Que ce soit avec des lettres de l’alphabet, avec les chiffres, avec quelques figures géométriques simples, en général l’apprentissage réussissait mais pas toujours, et un détail dans un échantillon pouvait faire échouer. On ne savait pas prédire si l’apprentissage réussirait, ni pourquoi il réussissait ou échouait, mais on constatait à l’expérience qu’il s’améliorait souvent au fil des tests, c’est-à-dire que le Perceptron commettait de moins en moins d’erreurs.

Chacune de ces expériences, prenait plusieurs jours, car les manipulateurs devaient pour beaucoup intervenir en tournant des molettes et en réglant au tournevis. Il faut se représenter ce qu’étaient les moyens techniques de l’époque. Pas de caméras numériques1 mais des cellules photoélectriques, des fils de cuivre et des rhéostats. Le coeur du Perceptron était un enchevêtrement de câbles à faire pâlir un central téléphonique de l’époque, avec des opérateurs qui maniaient les connections comme les « Dames des PTT ». Le tout intégré à ce qui se faisait de mieux comme calculateur, un Mark1 d’IBM, de cinq tonnes, non pas électronique mais électro-mécanique, avec des engrenages et des poulies. Une multiplication prenait six secondes. Durant mes études nos rares profs qui avaient eu le privilège d’accéder à de telles machines racontaient qu’à la longue ils distinguaient au son si la machine était en train de réaliser une multiplication ou une division.

Si ces conditions d’expérience font maintenant sourire, il n’en demeure pas moins que les résultats d’apprentissage soutenaient la comparaison avec l’humain, ce qui alimenta d’intenses controverses sur les capacités potentielles de ce type de machine, controverses qui aboutirent dix ans plus tard au livre de Marvin Minsky et Seymour Papert « Perceptrons: An Introduction to Computational Geometry2 ». Cet épais ouvrage délimite clairement les possibilités des Perceptrons, et établit l’incapacité de ce type de dispositif à classer des exemples très simples – le cas du XOR est célèbre. XOR désigne le « OU exclusif », c’est-à-dire « l’un ou l’autre mais pas les deux », ou encore « soit l’un soit l’autre ». Il est peu usité dans le langage courant mais omniprésent dans les circuits électroniques. Ceci revient à dire que si on se donne un rétine de deux pixels en entrée et une lampe en sortie, un Perceptron devrait apprendre à allumer la lampe réponse si un des pixels est allumé mais pas les deux. On montre facilement que c’est impossible3.

Si l’on mit plusieurs années à y voir clair dans les capacités d’un Perceptron, sa nature mathématique et ses limites, c’est que la machine historique4, son manuel d’utilisation de 67 pages5, aussi bien que la publication scientifique qui l’accompagna6 étaient particulièrement confus. En soi, le fait qu’il faille du temps et des travaux de la communauté de chercheurs pour décanter, clarifier, valider, simplifier un concept fait partie de la marche normale de la science. Aussi faut-il replacer l’« affaire » dans son contexte historique et humain pour en comprendre les ressorts.

C’est encore l’après guerre, Hiroshima, les camps et la médecine nazie ne sont pas loin. La guerre froide bat son plein, les USA se vivent plus que jamais comme défenseurs du monde libre, ils vont s’enliser au Viêt Nam. Sur les campus, les laboratoires d’idées foisonnent, en quête de spiritualité nouvelle aussi bien que d’innovations stratégiques. Les spéculations débridées exhalent souvent un parfum de mystère, ce qui inspira « La Gnose de Princeton7». En 1956, une poignée de chercheurs se réunissent durant deux mois à Dartmouth dans le New Hampshire. Beaucoup deviendront des grands noms des sciences du numérique. C’est là qu’est inventé le terme Artificial Intelligence. Rosenblatt ne participe pas à cette conférence, pourtant il connaît très bien Minsky, une des fortes personnalités du groupe, ils avaient étudié ensemble un an à New York.

Rosenblatt survendit son Perceptron. En témoigne la légende de sa présentation dans la revue interne de Cornell8 «Le Perceptron, une machine qui perçoit, reconnaît, mémorise et répond comme l’esprit humain ». Machine que Minsky s’acharna à dénigrer.

Quand il conçut le Perceptron, Rosenblatt n’avait que trente 30 ans. Il passa vite à autre chose, il mena des expériences en injectant à de jeunes rats des extraits de cervelle de congénères expérimentés, afin de tester une hypothèse qui courait sur la possible transmission de cette façon de connaissances acquises. Evidemment, ce fut en vain. Il mourut d’un accident de bateau le jour de son 43e anniversaire. Des hommages appuyés lui furent rendus, jusqu’au Congrès des Etats-Unis, évoquant une personnalité et un scientifique hors des sentiers battus9.

Minsky, d’un an son aîné, mourut à 89 ans, couvert d’honneurs. La presse salua la disparition d’un père de l’IA. Il s’était fait connaître d’un large public par son ouvrage « La société de l’esprit 10», recueil de réflexions où il expose comment selon lui l’« esprit » est induit par l’interaction d’agents simples. A la fin de sa vie, il s’affirma transhumaniste11, aspirant à des post-humains faits de pièces remplaçables sans fin, quitte à dériver le contenu du cerveau dans des IA le temps d’une intervention, un peu comme on dérive la circulation sanguine durant une opération cardiaque. Pour lui, la frontière entre humains et IA avait vocation à s’estomper, rendant caduque l’«escroquerie que sont les religions ». Il militait pour la cryogénisation dans l’attente que la science progresse suffisamment pour nous rendre éternels. Deux jours après son décès, la société de cryogénisation Alcor dont il était administrateur publia un communiqué entretenant le doute sur sa congélation12.

***********

Il s’amorce à la croisée des neuro sciences et des data sciences un corpus de lois de l’information13 comparable à celui de la physique. Forts d’un socle de lois communes à la matière, la biologie et la technologie, on a su construire des avions volant comme des oiseaux pour développer l’internationalisation industrielle. Forts d’un socle de lois communes à la pensée et aux technologies de l’information, nous saurons construire les instruments permettant l’essor d’un humanisme nouveau. Tel est du moins la thèse de ce blog.


Sans aller si loin pour le moment, nous verrons dans de prochains articles comment le Perceptron à mis en lumière les similitudes entre un neurone et un classifieur linéaire, ouvrait la voie aux problématiques actuelles.

- Similitude entre un Perceptron, un neurone et un classifieur liénaire.Les débats suscités par le Perceptron – à commencer par les travaux de Minsky – ont mis en lumière la similitude entre un neurone (nous en avons presque cent millards) et un séparateur linéaire (outil aussi courant pour le statisticien que la règle pour l’écolier)14.

- La règle de Hebb qui régit le renforcement ou l’inhibition des liaisons entre les neurones fournit un algorithme d’apprentissage qui donne des résultats bluffants en reconnaissance d’images (ce sont les expériences menées sur le Perceptron) mais bute aussi sur des exemples élémentaires.

- Cette règle permet d’apprendre à classifier des formes sans avoir à en faire la moindre analyse géométrique.

- Il est nécessaire de présenter un grand nombre de variantes pour avoir un apprentissage statistiquement satisfaisant.

- Le choix du câblage entre les neurones importe grandement.

Il faut noter que sur ces deux points Rosenblatt s’est techniquement trompé. En l’occurrence le modèle élucidant les capacités du Perceptron relève de l’algèbre linéaire et non des probabilités, et les unités d’association n’accroissent pas les capacités. Mais l’intuition est là.

Nous détaillerons au fil des articles ces points et leurs développements de façon abordable sans aucune formation mathématique, physique ou informatique. Il est en effet déterminant qu’une large partie de la société comprenne les tenants et aboutissants de la révolution scientifique qui se met en marche pour en faire un objet de progrès social et humain.

En attendant, on ne peut que recommander l’excellent article de l’université de Cornell, berceau du Perceptron, à l’occasion du soixantième anniversaire de cette machine. Son intitulé résume bien la situation : « Rosenblatt montra le chemin, 60 ans trop tôt15 ».

_____________________________

1Le terme « pixel » a été forgé dix ans plus tard.

2MIT Press, 1969.

3Voir article suivant de ce blog.

4Elle gît démantelée dans une cave de l’université de Cornell.

5Cornell Aeronautical Laboratory, Report MARK 1 Perceptron operators’ manual, février 1960. Ce document est librement consultable mais difficile à trouver. Je l’ai placé dans

https://www.dropbox.com/s/3jnkft5ufyyl0eb/P4%20236965%20manuel%20perceptron%20%281%29.pdf?dl=0

6The perceptron: a probabilistic model for information storage and organization in the brain. F Rosenblatt - Psychological review, 1958

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.335.3398&rep=rep1&type=pdf

7Raymond Ruyer, éditions Fayard, 1974. Cet ouvrage, entre fiction et réalité, eut une certaine audience. Sa tonalité frise parfois parfois le complotiste.

8Photo en tête de cet article.

10The Society of Mind, Simon and Schuster ed., 1987.

11The Jerusalem Post titrait en 2014, à l’occasion du prix Dan David, un article « For artificial intelligence pioneer Marvin Minsky, computers have soul »

13von Neumann, Shannon et Kolmogorov furent visionnaires en la matière.

14Ce sera l’objet du prochain article de ce blog.

samedi 6 août 2022

L’évolution de l’intelligence comme apprentissage




                     
Stanislas Dehaene                                                             Yann Le Cun
crédit wikipedia                                                                crédit: wikipédia

Résumé : ce que je retiens dans l’optique de ce blog d’un petit livre de deux grands chercheurs sur l’intelligence humaine et l’intelligence machine.


Je suis récemment tombé sur le recueil d’une interview1 de deux chercheurs français mondialement connus et reconnus : Stanislas Dehaene pour notre cerveau et notre intelligence, et Yan Le Cun pour les machines bio-inspirées comme le deep learning et leur intelligence. Ce livre est passé sous les radars des media car il privilégie la science au détriment du buzz.

Il se lit d’un trait. Voici ce que j’en retiens.

L’intelligence est présentée comme la capacité générale à s’adapter à une situation. Selon cette définition, l’intelligence émotionnelle est un aspect de l’intelligence, à laquelle contribuent aussi bien nos sens, nos mains que notre cortex, le tout constituant un système de saisie et de traitement d’informations qui accroît les chances de survie de l’espèce en fonction de son environnement, ainsi que celles de l’individu au sein de son espèce. Il s’agit d’une organisation qui n’est pas nécessairement basée sur des neurones, ainsi l’intelligence d’une moule consiste en son aptitude à filtrer l’eau pour en tirer des nutriments. Néanmoins, au fil du temps, les systèmes interconnectant les petites cellules grises ramifiées se sont avérés particulièrement performants. Quant à l’humain, il a bénéficié de circonstances ayant permis l’extension de la boite crânienne et son cortex.

Tout le développement de la vie peut ainsi être vu comme un apprentissage compétitif de perpétuation. Le cerveau et son cortex ne sont pas de simples réseaux de neurones interconnectés au hasard, il sont doté de zones organisées et spécialisées et de processus de contrôle des connexions synaptiques sophistiqués. Les structures cérébrales les plus favorables ont été sélectionnées et figées avec plus ou moins de souplesse selon les avantages procurés. Ces zones ont constitué au fil du temps la partie innée de notre cerveau, dont les « noyaux gris » tels le striatum évoqué par Bohler2. Le fonctionnement hérité de ces structures est inconscient, qu’il s’agisse de la régulation vitale de notre organisme, du traitement de la vision ou de tout autre signal capté par nos sens. L’évolution a conjointement à la structuration cérébrale de l’espèce préservé une plasticité cérébrale qui assure un avantage adaptatif à court terme, voire une capacité à se reconfigurer en cas d’accident ou d’invalidité. Cette plasticité permet chez l’humain une large part d’acquis à deux échelles. A l’échelle individuelle, il s’agit de l’apprentissage par l’expérience, le groupe, l’école, la culture. Cet apprentissage se traduit en l’établissement de circuits de neuronaux grâce à des « réglages » des synapses, qui sont des millions de milliards de points de transmission d’informations électrochimiques entre les neurones. Les connaissances ainsi apprises par un individu durant sa vie disparaissent avec lui. Mais elles sont transmises à l’échelle collective par un processus qui sort du cadre de l’hérédité génétique et est spécifique aux hominidés : la civilisation, ses constructions, ses outils, ses objets, ses cultures, ses croyances, ses sciences et ses arts – et en dernier lieu l’écriture et la capacité à se construire une histoire. Au lieu de coévoluer avec sa savane, sa mer ou sa forêt, l’humain coévolue avec l’accumulation de ses créations. Pour illustrer la dualité inné-acquis, Dehaene prend l’exemple des langues et de la causalité. Un bébé peut apprendre n’importe quelle langue, mais c’est parce que toutes les langues ont des principes communs, et qu’une zone du cerveau s’est spécialisée dans leur traitement. Pour la causalité, imaginons deux populations sur une île3. L’une fait le lien entre une chute de pierre et un danger, entre un crocodile et un danger, entre un signe de congénère et son attitude envers lui, autant d’exemples de lien entre cause et effet. L’autre population ne fait pas le lien, celle-ci disparaîtra et à la longue l’espèce survivante héritera de structures ou zones du cerveau « câblés » pour la recherche de causalités.

Ces considérations donnent la tonalité du récit de l’évolution de l’intelligence proposé dans ce livre et font consensus dans les milieux scientifiques actuels. Il faut néanmoins souligner qu’il ne s’agit que de récits, pas de modèles aussi éprouvés que l’électromagnétisme ou la relativité. Il s’agit d’une tentative de dresser le tableau d’ensemble d’un puzzle dont de nombreuses pièces sont manquantes. Il en est de même du récit darwinien en général, à une différence considérable près : en neurosciences, on peut monter des expériences pour conforter ou infirmer des hypothèses, et Dehaene en relate quelques-unes, alors qu’en paléontologie ou en anthropologie on est réduit à fouiller à la recherche d’indices peut-être disparus.

Pour ce qui est des machines, Le Cun fait à juste titre remarquer que le terme « intelligence machine » serait plus adéquat que celui consacré d’« intelligence artificielle » car l’intelligence est un système évolutif et interactif, dont l’organisation importe plus que le support, biomoléculaire ou silicium. On pourrait même voir l’écologie et l’évolution de la planète comme une intelligence, sans pour autant verser le moins du monde dans le culte de Gaïa (un chapitre du livre s’intitule d’ailleurs « L’intelligence de la vie »). Remarquons au passage que cette idée évoque la mouvance nord américaine de l’Intelligence design, à ceci près – nuance qui n’est pas des moindres - que dans cette vision épurée du judéo-christianisme, l’intelligence évoquée est finaliste, elle est la main de Dieu. Alors que dans le darwinisme nul objectif, nulle réalisation de dessein ne sont assignés au cheminement de l’évolution. Ce qui fait envisager en fin d’interview le dépassement de l’intelligence humaine sur le temps long, le passage par un couplage humain-machine semblant aux auteurs une étape probable. A noter qu’il n’est heureusement pas pour autant question dans l’ouvrage de transhumanisme, ensemble de micro-mouvements pseudo scientifiques surfant entre crainte d’un grand remplacement (par des cyborgs) et quête d’immortalité.

L’intelligence machine est survolée dans cet opuscule à travers sa comparaison à l’humain, et sous l’angle des machines bio-inspirées, comme l’est le deep learning dont Le Cun est un des pères. Le neuro et le data scientiste ne voient pas de limites a priori à l’intelligence machine, des progrès majeurs restant pour cela à accomplir dans la capacité de planification d’ensemble d’une stratégie, qui constitue un avantage majeur du cerveau humain. A noter que le mot « conscience » apparaît 22 fois sans être explicitement défini, car pour les interlocuteurs il est évacué de toute considération philosophique. Les activités innées sont inconscientes, celles apprises comme la conduite automobile le deviennent au fil de l’habitude. Les activités conscientes sont celles qui nécessitent de la réflexion.

Sur un plan technique, la rivalité historique entre l’approche symbolique (par le raisonnement) et l’approche connexionniste (par les réseaux neuronaux) de l’IA est brièvement rappelée. Le Cun y évoque ce que l’on a baptisé « l’hiver de l’IA », fait de discrédit et d’assèchement des financements, dans lequel les déconvenues du Perceptron avait plongé le connexionnisme. Il souligne un fait souvent passé inaperçu qui éclaire pourtant la triomphale résurgence des réseaux de neurones. Il s’agit des travaux activement menés durant cet « hiver » de deux décennies sous la modeste appellation de « traitement du signal et des images » pour ne pas agiter le chiffon rouge d’une intelligence artificielle bio-inspirés. Ces travaux ont notamment mené aux réseaux de convolution (CNN Convolution Neural Network) chers à Le Cun et qui sont à la base du succès du deep learning.

Enfin les auteurs pointent un principe essentiel, qui lui est largement connu mais qu’il est bon de marteler : « Apprendre, c’est éliminer » dit Dehaene en écho à une expression fétiche de son maître Jean-Pierre Changeux. Et l’on peut ajouter qu’apprentissage et créativité sont les deux faces d’une même pièce. Pas seulement au sens de la connaissance terreau du progrès, mais en un sens beaucoup plus fondamental relevant des bases de la data science au même titre que la chute de la pomme relève des lois physiques. En deux mots, apprendre par coeur ne sert à rien, si l’on apprend à reconnaître un visage en retenant par coeur chaque pixel d’un photo, on ne saura pas reconnaître la personne sur une autre photo, il faut approximer un visage par quelques caractéristiques, c’est à dire « éliminer » intelligemment les informations inutiles. Et il se crée ainsi des représentations internes du monde qui en sont des approximations utiles pour nous. Cependant, aucune pression évolutive n’a « verrouillé » l’usage de ces représentations en les limitant aux instances qui les avaient suscitées. Ainsi notre propension « câblée » à la causalité, déjà évoquée, sorte d’approximation de la logique usuelle du monde qui nous entoure, nous a fait imaginer des dieux comme causes des évènements naturels, et nourrit aussi le complotisme4 et sa recherche de causes cachées.

Nous reviendrons largement au fil des articles de ce blog sur les propos des deux paragraphes précédents, étant donnée leur importance sur la « façon de penser le monde ». En attendant, on ne peut que chaudement recommander au lecteur motivé les vidéos des cours donnés au Collège de France par Stanislas Dehaene, Yan Le Cun et aussi ceux de Stéphane Mallat en sciences des données, ces derniers portant sur les réseaux de neurones comme approximateurs au sens des lignes qui précédent.

______________________________

1La Plus Belle Histoire de l’intelligence. Des origines aux neurones artificiels : vers une nouvelle étape de l’évolution. Stanislas Dehaene, Yan Le Cun. Ed. Robert Laffont, collection La Plus Belle Histoire, 2018. Le format kindle est pratique.

2Le défi écologique. II. Un bug du Sapiens ?, article de ce blog.

3Cet exemple est de mon cru, son éventuel caractère inapproprié de ma seule responsabilité.

4Dans le livre seuls les dieux sont évoqués comme « inventions », le complotisme n’est pas cité. Plus généralement les considérations sur les approximations extrapolent les propos du texte. Selon moi, le sujet serait venu dans les débats si Stéphane Mallat y avait été associé.