changes to train script - no need for limiting utterance length here

2025-12-11 06:55:27 +00:00 · 2025-06-13 00:48:37 +09:00 · 2025-06-13 00:48:37 +09:00 · fe9f975ec2
commit fe9f975ec2
parent e1f140a50e
2 changed files with 4 additions and 12 deletions
--- a/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py
+++ b/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py
@ -1 +1 @@
-/root/icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py
+/root/Github/reazon-icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py
--- a/egs/multi_ja_en/ASR/zipformer/train.py
+++ b/egs/multi_ja_en/ASR/zipformer/train.py
@ -1185,15 +1185,12 @@ def run(rank, world_size, args):
    train_cuts = multi_dataset.train_cuts()
    def remove_short_and_long_utt(c: Cut):
-        # Keep only utterances with duration between 1 second and 30 seconds
+        # Keep only utterances greater than 1 second
        #
        # Caution: There is a reason to select 30.0 here. Please see
        # ../local/display_manifest_statistics.py
        #
        # You should use ../local/display_manifest_statistics.py to get
        # an utterance duration distribution for your dataset to select
-        # the threshold
+        # the threshold as this is dependent on which datasets you choose
-        if c.duration < 1.0 or c.duration > 30.0:
+        if c.duration < 1.0:
            logging.warning(
                f"Exclude cut with ID {c.id} from training. Duration: {c.duration}"
            )
@ -1239,14 +1236,10 @@ def run(rank, world_size, args):
    else:
        sampler_state_dict = None
    # train_dl = reazonspeech_corpus.train_dataloaders(
    #     train_cuts, sampler_state_dict=sampler_state_dict
    # )
    train_dl = multidataset_datamodule.train_dataloaders(
        train_cuts, sampler_state_dict=sampler_state_dict
    )
    valid_cuts = multi_dataset.dev_cuts()
    valid_dl = multidataset_datamodule.valid_dataloaders(valid_cuts)
@ -1393,7 +1386,6 @@ def main():
    MultiDatasetAsrDataModule.add_arguments(parser)
    args = parser.parse_args()
    args.exp_dir = Path(args.exp_dir)
    print(args)
    world_size = args.world_size
    assert world_size >= 1
		`@ -1 +1 @@`
			`/root/icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py`				`/root/Github/reazon-icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py`