Unikanie minimum lokalnego
1. modyfikacje algorytmu uczenia
algorytmy gradientów sprzężonych wybór kierunku sprzężonego z poprzednio wybranym kierunkiem (zerowa wartoć drugiej pochodnej obliczanej wzdłuż poprzedniego kierunku)
algorytmy z heurystykami (Quick prop, RPROP)
2. dobór współczynnika uczenia
-stały (dla sieci, dla warstwy)
-adaptacyjny na podstawie porównania błędu i-tej iteracji
-reguła Delta-Bar-Delta każdej wadze przypisany jest współczynnik uczenia
3. Algorytmy genetyczne - pozwalajš na globalne przeszukiwanie przestrzeni wag i unikanie minimów lokalnych. Mogš być wykorzystywane w problemach, w których informacja dotyczšca gradientów jest trudna lub kosztowana do uzyskania.
4. Symulowane wyżarzanie - w optymalizacji realizowane jest przez losowe zakłócanie zmiennych niezależnych (wag sieci) i wybór najlepszej wartoci funkcji. Poczštkowo stosowany jest generator liczb losowych o doć dużym odchyleniu standardowym. Po wielu próbach zbiór, który daje najlepszš wartoć funkcji staje się centrum. Tu zaczyna się lekko potrzšsać.