Ziel: Abstraktion von Datensätzen
Convolutional Neural Networks
Schichten: Convolutional & (Max-)Pooling + vollvernetzt + Softmax
Erfassung von Konzepten
Hintere Schichten: abstrakter
Backpropagation
Sind die Konzepte überhaupt linear trennbar?
Grundidee: Multilayer-Perzeptrone anstelle von linearen Filtern
Vollvernetzte Schicht nun nicht mehr nötig
Feature Maps der letzten Schicht entsprechen bereits Konfidenz
Lin: „In conventional CNN, the abstraction of each local patch is done through a linear classifier and a non-linear activation function [...] definitely not a strong abstraction“
⇒ „Starke Abstraktion“ ist besser
Bessere Funktionsapproximierung (vgl. Maxout)
Versteckte Schichten sind geteilt
Wie assoziieren wir Klassen?
Problem: Overfitting ⇒ Dropout
Gibt es einen einfachereren Ansatz mit MLPs?
Durchschnitt jeder Feature Map → Softmax
Zahl der Feature Maps = Zahl der Kategorien
Methode | Testfehler |
---|---|
mlpconv + vollvernetzt | 11.59% |
mlpconv + vollvernetzt + Dropout | 10.88% |
mlpconv + Global Average Pooling | 10.41% |
Fotos (32×32 RGB) · 50.000 + 10.000 Stück · 10 Kategorien
Methode | Testfehler |
---|---|
Stochastisches Pooling | 15.13% |
CNN + Spearmint | 11.68% |
Konv. Maxout + Dropout | 11.68% |
NIN + Dropout | 10.41% |
Methode | Testfehler |
---|---|
CNN + Spearmint | 11.68% |
Konv. Maxout + Dropout | 15.13% |
DropConnect + 12 Netzwerke | 11.68% |
NIN + Dropout | 10.41% |
*Kontrast erhöht und aufgehellt
Fotos (32×32 RGB) · 50.000 + 10.000 Stück · 100 Kategorien
Methode | Testfehler |
---|---|
Gelerntes Pooling | 43.71% |
Stochastisches Pooling | 42.51% |
Konv. Maxout + Dropout | 38.57% |
Tree based priors | 36.85% |
NIN + Dropout | 35.68% |
Ziffern (32×32 RGB) · Hausnummern
Methode | Testfehler |
---|---|
Stochastisches Pooling | 2.80% |
Rectifier + Dropout | 2.78% |
Rectifier + Dropout + Synthetic Translation | 2.68% |
Konv. Maxout + Dropout | 2.47% |
NIN + Dropout | 2.35% |
Multi-digit Number Recognition | 2.16% |
DropConnect | 1.94% |
Ziffern (28×28 S/W) · Handgeschrieben
Methode | Testfehler |
---|---|
K-NN (shape context matching) | 0.63% |
2-Schicht CNN + 2-Schicht NN | 0.53% |
NIN + Dropout | 0.47% |
Konv. Maxout + Dropout | 0.45% |
35 CNNs | 0.23% |
>100.000 Kategorien · ~1000 Bilder pro Kategorie
Methode | Parameter | Performanz (Top 1) | Trainingszeit |
---|---|---|---|
AlexNet | 60 Millionen (230 Megabytes) | 40.7% | 8 Tage |
NIN | 7.5 Millionen (29 Megabytes) | 39.2% | 4 Tage |
„Networks in Network“ als State-of-the-Art-Alternative zu klassischen CNNs
Vergleichbare Ergebnisse mit viel weniger Parametern
In Zukunft? ⇒ „Deep NINs”
- Benedict Etzel <benedict.etzel@student.uni-luebeck.de>
- https://github.com/beheh/uzl-machine-learning-seminar