Remove unnecessary option for diagnostics code, collect on more batches

2025-08-09 01:52:41 +00:00 · 2022-05-19 11:35:54 +08:00 · 2022-05-19 11:35:54 +08:00 · c736b39c7d
commit c736b39c7d
parent c0fdfabaf3
7 changed files with 14 additions and 35 deletions
--- a/egs/gigaspeech/ASR/pruned_transducer_stateless2/train.py
+++ b/egs/gigaspeech/ASR/pruned_transducer_stateless2/train.py
@ -689,7 +689,7 @@ def train_one_epoch(
        scaler.update()
        optimizer.zero_grad()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if (
@ -831,10 +831,7 @@ def run(rank, world_size, args):
        scheduler.load_state_dict(checkpoints["scheduler"])
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    gigaspeech = GigaSpeechAsrDataModule(args)
--- a/egs/librispeech/ASR/pruned_transducer_stateless2/train.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless2/train.py
@ -695,7 +695,7 @@ def train_one_epoch(
            display_and_save_batch(batch, params=params, sp=sp)
            raise
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if (
@ -839,10 +839,7 @@ def run(rank, world_size, args):
        scheduler.load_state_dict(checkpoints["scheduler"])
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    librispeech = LibriSpeechAsrDataModule(args)
--- a/egs/librispeech/ASR/pruned_transducer_stateless3/train.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless3/train.py
@ -767,7 +767,7 @@ def train_one_epoch(
        scaler.update()
        optimizer.zero_grad()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if (
@ -938,10 +938,7 @@ def run(rank, world_size, args):
        scheduler.load_state_dict(checkpoints["scheduler"])
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    librispeech = LibriSpeech(manifest_dir=args.manifest_dir)
--- a/egs/librispeech/ASR/pruned_transducer_stateless4/train.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless4/train.py
@ -724,7 +724,7 @@ def train_one_epoch(
        scaler.update()
        optimizer.zero_grad()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if (
@ -888,10 +888,7 @@ def run(rank, world_size, args):
        scheduler.load_state_dict(checkpoints["scheduler"])
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    librispeech = LibriSpeechAsrDataModule(args)
--- a/egs/librispeech/ASR/transducer_stateless/train.py
+++ b/egs/librispeech/ASR/transducer_stateless/train.py
@ -523,7 +523,7 @@ def train_one_epoch(
        loss.backward()
        clip_grad_norm_(model.parameters(), 5.0, 2.0)
        optimizer.step()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if batch_idx % params.log_interval == 0:
@ -635,10 +635,7 @@ def run(rank, world_size, args):
    librispeech = LibriSpeechAsrDataModule(args)
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    train_cuts = librispeech.train_clean_100_cuts()
    if params.full_libri:
--- a/egs/librispeech/ASR/transducer_stateless2/train.py
+++ b/egs/librispeech/ASR/transducer_stateless2/train.py
@ -511,7 +511,7 @@ def train_one_epoch(
        loss.backward()
        clip_grad_norm_(model.parameters(), 5.0, 2.0)
        optimizer.step()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if batch_idx % params.log_interval == 0:
@ -623,10 +623,7 @@ def run(rank, world_size, args):
    librispeech = LibriSpeechAsrDataModule(args)
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    train_cuts = librispeech.train_clean_100_cuts()
    if params.full_libri:
--- a/egs/spgispeech/ASR/pruned_transducer_stateless2/train.py
+++ b/egs/spgispeech/ASR/pruned_transducer_stateless2/train.py
@ -690,7 +690,7 @@ def train_one_epoch(
        scaler.update()
        optimizer.zero_grad()
-        if params.print_diagnostics and batch_idx == 5:
+        if params.print_diagnostics and batch_idx == 30:
            return
        if (
@ -832,10 +832,7 @@ def run(rank, world_size, args):
        scheduler.load_state_dict(checkpoints["scheduler"])
    if params.print_diagnostics:
-        opts = diagnostics.TensorDiagnosticOptions(
+        diagnostic = diagnostics.attach_diagnostics(model)
            2 ** 22
        )  # allow 4 megabytes per sub-module
        diagnostic = diagnostics.attach_diagnostics(model, opts)
    spgispeech = SPGISpeechAsrDataModule(args)