Configuration

Number of Arms

Simulation Steps

observations

Animation Speed

Thompson Sampling: Maintains posterior distribution for each arm's success rate. Samples from each posterior and picks the arm with highest sample. Balances exploration and exploitation automatically.

Results

Current Step

Total Reward

Bandit Simulator

Configuration

Results

Arm Allocation Over Time

Cumulative Regret

Posterior Distributions