Avancées théoriques sur la représentation et l’optimisation des réseaux de neurones

Publication

Les réseaux de neurones artificiels ont été abondamment utilisés dans la communauté de l’apprentissage machine depuis les années 80. Bien qu’ils aient été étudiés pour la première fois il y a cinquante ans par Rosenblatt [68], ils ne furent réellement populaires qu’après l’apparition de la rétropropagation du gradient, en 1986 [71]. En 1989, il a été prouvé [44] qu’une classe spécifique de réseaux de neurones (les réseaux de neurones à une couche cachée) était suffisamment puissante pour pouvoir approximer presque n’importe quelle fonction avec une précision arbitraire : le théorème d’approximation universelle. Toutefois, bien que ce théorème eût pour conséquence un intérêt accru pour les réseaux de neurones, il semblerait qu’aucun effort n’ait été fait pour profiter de cette propriété. En outre, l’optimisation des réseaux de neurones à une couche cachée n’est pas convexe. Cela a détourné une grande partie de la communauté vers d’autres algorithmes, comme par exemple les machines à noyau (machines à vecteurs de support et régression à noyau, entre autres). La première partie de cette thèse présentera les concepts d’apprentissage machine généraux nécessaires à la compréhension des algorithmes utilisés. La deuxième partie se focalisera plus spécifiquement sur les méthodes à noyau et les réseaux de neurones. La troisième partie de ce travail visera ensuite à étudier les limitations des machines à noyaux et à comprendre les raisons pour lesquelles elles sont inadaptées à certains problèmes que nous avons à traiter. La quatrième partie présente une technique permettant d’optimiser les réseaux de neurones à une couche cachée de manière convexe. Bien que cette technique s’avère difficilement exploitable pour des problèmes de grande taille, une version approchée permet d’obtenir une bonne solution dans un temps raisonnable. La cinquième partie se concentre sur les réseaux de neurones à une couche cachée infinie. Cela leur permet théoriquement d’exploiter la propriété d’approximation universelle et ainsi d’approcher facilement une plus grande classe de fonctions. Toutefois, si ces deux variations sur les réseaux de neurones à une couche cachée leur confèrent des propriétés intéressantes, ces derniers ne peuvent extraire plus que des concepts de bas niveau. Les méthodes à noyau souffrant des mêmes limites, aucun de ces deux types d’algorithmes ne peut appréhender des problèmes faisant appel à l’apprentissage de concepts de haut niveau. Récemment sont apparus les Deep Belief Networks [39] qui sont des réseaux de neurones à plusieurs couches cachées entraînés de manière efficace. Cette profondeur leur permet d’extraire des concepts de haut niveau et donc de réaliser des tâches hors de portée des algorithmes conventionnels. La sixième partie étudie des propriétés de ces réseaux profonds. Les problèmes que l’on rencontre actuellement nécessitent non seulement des algorithmes capables d’extraire des concepts de haut niveau, mais également des méthodes d’optimisation capables de traiter l’immense quantité de données parfois disponibles, si possible en temps réel. La septième partie est donc la présentation d’une nouvelle technique permettant une optimisation plus rapide.