Optymistyczna eksploracja w ostrożnym uczeniu ze wzmocnieniem z ograniczeniami
Uczenie ze wzmocnieniem (RL) zyskało ogromną popularność dzięki zdolności do autonomicznego uczenia się przez agentów działania w złożonych środowiskach. Ale co się dzieje, gdy agent nie może pozwolić sobie na błędy — bo błąd oznacza np. awarię maszyny, kolizję auta lub przekroczenie limitu zużycia energii? W takich przypadkach stosujemy uczenie ze wzmocnieniem z ograniczeniami (Constrained RL), w którym agent musi maksymalizować nagrodę, jednocześnie nie przekraczając określonych kosztów lub ryzyk. Niestety — jak pokazuje praktyka — agenci uczący się w takich warunkach często stają się… zbyt ostrożni. A to prowadzi do kiepskich wyników. ...