make biases learn faster in a different way.

2025-12-11 06:55:27 +00:00 · 2022-05-21 17:47:30 +08:00 · 2022-05-21 17:47:30 +08:00 · dcab1aee4e
commit dcab1aee4e
parent 992f922f81
2 changed files with 2 additions and 6 deletions
--- a/egs/librispeech/ASR/pruned_transducer_stateless2/scaling.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless2/scaling.py
@ -179,7 +179,7 @@ class ScaledLinear(nn.Linear):
        with torch.no_grad():
            self.weight[:] *= initial_scale
            if self.bias is not None:
-                self.bias[:] *= initial_scale
+                self.bias[:] *= initial_scale * 4.0

    def get_weight(self): # not needed any more but kept for back compatibility
        return self.weight
--- a/egs/librispeech/ASR/pruned_transducer_stateless4/train.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless4/train.py
@ -871,11 +871,7 @@ def run(rank, world_size, args):
        logging.info("Using DDP")
        model = DDP(model, device_ids=[rank])

-
-    params_to_pass = [ {'params': [ p for (name,p) in model.named_parameters() if 'bias' not in name] },
-                       {'params': [ p for (name,p) in model.named_parameters() if 'bias' in name ], 'lr': params.initial_lr*2.0 } ]
-
-    optimizer = Cain(params_to_pass, lr=params.initial_lr)
+    optimizer = Cain(model.parameters(), lr=params.initial_lr)

    scheduler = Eden(optimizer, params.lr_batches, params.lr_epochs)