From fe9f975ec2cb577bcde8f4aa42d5c454e881352b Mon Sep 17 00:00:00 2001
From: Bailey Hirota <baileyhirota@icloud.com>
Date: Fri, 13 Jun 2025 00:48:37 +0900
Subject: [PATCH] changes to train script - no need for limiting utterance
 length here

---
 egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py |  2 +-
 egs/multi_ja_en/ASR/zipformer/train.py            | 14 +++-----------
 2 files changed, 4 insertions(+), 12 deletions(-)

diff --git a/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py b/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py
index 4e843acf5..f17e1cc6d 120000
--- a/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py
+++ b/egs/multi_ja_en/ASR/local/validate_bpe_lexicon.py
@@ -1 +1 @@
-/root/icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py
\ No newline at end of file
+/root/Github/reazon-icefall/egs/librispeech/ASR/local/validate_bpe_lexicon.py
\ No newline at end of file
diff --git a/egs/multi_ja_en/ASR/zipformer/train.py b/egs/multi_ja_en/ASR/zipformer/train.py
index e3e7bfaf2..c4aaa17db 100755
--- a/egs/multi_ja_en/ASR/zipformer/train.py
+++ b/egs/multi_ja_en/ASR/zipformer/train.py
@@ -1185,15 +1185,12 @@ def run(rank, world_size, args):
     train_cuts = multi_dataset.train_cuts()
 
     def remove_short_and_long_utt(c: Cut):
-        # Keep only utterances with duration between 1 second and 30 seconds
-        #
-        # Caution: There is a reason to select 30.0 here. Please see
-        # ../local/display_manifest_statistics.py
+        # Keep only utterances greater than 1 second
         #
         # You should use ../local/display_manifest_statistics.py to get
         # an utterance duration distribution for your dataset to select
-        # the threshold
-        if c.duration < 1.0 or c.duration > 30.0:
+        # the threshold as this is dependent on which datasets you choose
+        if c.duration < 1.0:
             logging.warning(
                 f"Exclude cut with ID {c.id} from training. Duration: {c.duration}"
             )
@@ -1239,14 +1236,10 @@ def run(rank, world_size, args):
     else:
         sampler_state_dict = None
 
-    # train_dl = reazonspeech_corpus.train_dataloaders(
-    #     train_cuts, sampler_state_dict=sampler_state_dict
-    # )
     train_dl = multidataset_datamodule.train_dataloaders(
         train_cuts, sampler_state_dict=sampler_state_dict
     )
 
-
     valid_cuts = multi_dataset.dev_cuts()
     valid_dl = multidataset_datamodule.valid_dataloaders(valid_cuts)
 
@@ -1393,7 +1386,6 @@ def main():
     MultiDatasetAsrDataModule.add_arguments(parser)
     args = parser.parse_args()
     args.exp_dir = Path(args.exp_dir)
-    print(args)
 
     world_size = args.world_size
     assert world_size >= 1