resume: false device: cuda use_amp: false seed: 1000 dataset_repo_id: yleo/drag_drop video_backend: pyav training: offline_steps: 80000 num_workers: 4 batch_size: 8 eval_freq: -1 log_freq: 100 save_checkpoint: true save_freq: 100 online_steps: 0 online_rollout_n_episodes: 1 online_rollout_batch_size: 1 online_steps_between_rollouts: 1 online_sampling_ratio: 0.5 online_env_seed: null online_buffer_capacity: null online_buffer_seed_size: 0 do_online_rollout_async: false image_transforms: enable: false max_num_transforms: 3 random_order: false brightness: weight: 1 min_max: - 0.8 - 1.2 contrast: weight: 1 min_max: - 0.8 - 1.2 saturation: weight: 1 min_max: - 0.5 - 1.5 hue: weight: 1 min_max: - -0.05 - 0.05 sharpness: weight: 1 min_max: - 0.8 - 1.2 lr: 1.0e-05 lr_backbone: 1.0e-05 weight_decay: 0.0001 grad_clip_norm: 10 delta_timestamps: action: - 0.0 - 0.03333333333333333 - 0.06666666666666667 - 0.1 - 0.13333333333333333 - 0.16666666666666666 - 0.2 - 0.23333333333333334 - 0.26666666666666666 - 0.3 - 0.3333333333333333 - 0.36666666666666664 - 0.4 - 0.43333333333333335 - 0.4666666666666667 - 0.5 - 0.5333333333333333 - 0.5666666666666667 - 0.6 - 0.6333333333333333 - 0.6666666666666666 - 0.7 - 0.7333333333333333 - 0.7666666666666667 - 0.8 - 0.8333333333333334 - 0.8666666666666667 - 0.9 - 0.9333333333333333 - 0.9666666666666667 - 1.0 - 1.0333333333333334 - 1.0666666666666667 - 1.1 - 1.1333333333333333 - 1.1666666666666667 - 1.2 - 1.2333333333333334 - 1.2666666666666666 - 1.3 - 1.3333333333333333 - 1.3666666666666667 - 1.4 - 1.4333333333333333 - 1.4666666666666666 - 1.5 - 1.5333333333333334 - 1.5666666666666667 - 1.6 - 1.6333333333333333 - 1.6666666666666667 - 1.7 - 1.7333333333333334 - 1.7666666666666666 - 1.8 - 1.8333333333333333 - 1.8666666666666667 - 1.9 - 1.9333333333333333 - 1.9666666666666666 - 2.0 - 2.033333333333333 - 2.066666666666667 - 2.1 - 2.1333333333333333 - 2.1666666666666665 - 2.2 - 2.2333333333333334 - 2.2666666666666666 - 2.3 - 2.3333333333333335 - 2.3666666666666667 - 2.4 - 2.433333333333333 - 2.466666666666667 - 2.5 - 2.533333333333333 - 2.566666666666667 - 2.6 - 2.6333333333333333 - 2.6666666666666665 - 2.7 - 2.7333333333333334 - 2.7666666666666666 - 2.8 - 2.8333333333333335 - 2.8666666666666667 - 2.9 - 2.933333333333333 - 2.966666666666667 - 3.0 - 3.033333333333333 - 3.066666666666667 - 3.1 - 3.1333333333333333 - 3.1666666666666665 - 3.2 - 3.2333333333333334 - 3.2666666666666666 - 3.3 eval: n_episodes: 50 batch_size: 50 use_async_envs: true wandb: enable: false disable_artifact: false project: lerobot notes: '' fps: 30 env: name: real_world task: null state_dim: 6 action_dim: 6 fps: ${fps} override_dataset_stats: observation.images.laptop: mean: - - - 0.485 - - - 0.456 - - - 0.406 std: - - - 0.229 - - - 0.224 - - - 0.225 observation.images.phone: mean: - - - 0.485 - - - 0.456 - - - 0.406 std: - - - 0.229 - - - 0.224 - - - 0.225 policy: name: act n_obs_steps: 1 chunk_size: 100 n_action_steps: 100 input_shapes: observation.images.laptop: - 3 - 480 - 640 observation.images.phone: - 3 - 480 - 640 observation.state: - ${env.state_dim} output_shapes: action: - ${env.action_dim} input_normalization_modes: observation.images.laptop: mean_std observation.images.phone: mean_std observation.state: mean_std output_normalization_modes: action: mean_std vision_backbone: resnet18 pretrained_backbone_weights: ResNet18_Weights.IMAGENET1K_V1 replace_final_stride_with_dilation: false pre_norm: false dim_model: 512 n_heads: 8 dim_feedforward: 3200 feedforward_activation: relu n_encoder_layers: 4 n_decoder_layers: 1 use_vae: true latent_dim: 32 n_vae_encoder_layers: 4 temporal_ensemble_momentum: null dropout: 0.1 kl_weight: 10.0