added scripts for processing validated data

2025-08-27 10:44:19 +00:00 · 2024-03-13 20:21:04 +08:00 · 2024-03-13 20:21:04 +08:00 · ed3d25b768
commit ed3d25b768
parent e979bf5e93
3 changed files with 121 additions and 1 deletions
--- a/egs/commonvoice/ASR/local/compute_fbank_commonvoice_splits.py
+++ b/egs/commonvoice/ASR/local/compute_fbank_commonvoice_splits.py
@ -42,6 +42,13 @@ torch.set_num_interop_threads(1)
 def get_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--subset",
        type=str,
        default="train"
        help="""Dataset parts to compute fbank. """,
    )
    parser.add_argument(
        "--language",
        type=str,
@ -95,7 +102,7 @@ def get_args():
 def compute_fbank_commonvoice_splits(args):
-    subset = "train"
+    subset = args.subset
    num_splits = args.num_splits
    language = args.language
    output_dir = f"data/{language}/fbank/cv-{language}_{subset}_split_{num_splits}"
--- a/egs/commonvoice/ASR/local/preprocess_commonvoice.py
+++ b/egs/commonvoice/ASR/local/preprocess_commonvoice.py
@ -164,6 +164,26 @@ def preprocess_commonvoice(
            supervisions=m["supervisions"],
        ).resample(16000)
        if partition == "validated":
            logging.warning(
                """
                The 'validated' partition contains the data of both 'train', 'dev' 
                and 'test' partitions. We filter out the 'dev' and 'test' partition
                here.
            """
            )
            dev_ids = src_dir / f"cv-{language}_dev_ids"
            test_ids = src_dir / f"cv-{language}_test_ids"
            assert (
                dev_ids.is_file()
            ), f"{dev_ids} does not exist, please check stage 1 of the prepare.sh"
            assert (
                test_ids.is_file()
            ), f"{test_ids} does not exist, please check stage 1 of the prepare.sh"
            dev_ids = dev_ids.read_text().strip().split("\n")
            test_ids = test_ids.read_text().strip().split("\n")
            cut_set = cut_set.filter(lambda x: x.id not in dev_ids + test_ids)
        # Run data augmentation that needs to be done in the
        # time domain.
        logging.info(f"Saving to {raw_cuts_path}")
--- a/egs/commonvoice/ASR/prepare.sh
+++ b/egs/commonvoice/ASR/prepare.sh
@ -101,8 +101,35 @@ if [ $stage -le 1 ] && [ $stop_stage -ge 1 ]; then
  mkdir -p data/${lang}/manifests
  if [ ! -e data/${lang}/manifests/.cv-${lang}.done ]; then
    lhotse prepare commonvoice --language $lang -j $nj $dl_dir/$release data/${lang}/manifests
    # In case you want to use all validated data
    # lhotse prepare commonvoice \
    #   --split validated \
    #   --language $lang \
    #   -j $nj $dl_dir/$release data/${lang}/manifests
    # touch data/${lang}/manifests/.cv-${lang}.validated.done
    # In case you want to take the risk and use invalidated data
    # lhotse prepare commonvoice \
    #   --split invalidated \
    #   --language $lang \
    #   -j $nj $dl_dir/$release data/${lang}/manifests
    # touch data/${lang}/manifests/.cv-${lang}.invalidated.done
    touch data/${lang}/manifests/.cv-${lang}.done
  fi
  # Note: in Linux, you can install jq with the following command:
  # 1. wget -O jq https://github.com/stedolan/jq/releases/download/jq-1.6/jq-linux64
  # 2. chmod +x ./jq
  # 3. cp jq /usr/bin
  if [ -f data/${lang}/manifests/.cv-${lang}.validated.done ]; then
    gunzip -c data/${lang}/manifests/cv-${lang}_supervisions_test.jsonl.gz \
      | jq '.id' | sed 's/"//g' > data/${lang}/manifests/cv-${lang}_test_ids
    gunzip -c data/${lang}/manifests/cv-${lang}_supervisions_dev.jsonl.gz \
      | jq '.id' | sed 's/"//g' > data/${lang}/manifests/cv-${lang}_dev_ids
  fi
 fi
 if [ $stage -le 2 ] && [ $stop_stage -ge 2 ]; then
@ -121,6 +148,18 @@ if [ $stage -le 3 ] && [ $stop_stage -ge 3 ]; then
  if [ ! -e data/${lang}/fbank/.preprocess_complete ]; then
    ./local/preprocess_commonvoice.py  --language $lang
    touch data/${lang}/fbank/.preprocess_complete
    if [ -f data/${lang}/manifests/.cv-${lang}.validated.done ]; then
      log "Also preprocess validated data"
      ./local/preprocess_commonvoice.py  --language $lang --split validated
      touch data/${lang}/fbank/.validated.preprocess_complete
    fi
    if [ -f data/${lang}/manifests/.cv-${lang}.invalidated.done ]; then
      log "Also preprocess invalidated data"
      ./local/preprocess_commonvoice.py  --language $lang --split invalidated
      touch data/${lang}/fbank/.invalidated.preprocess_complete
    fi
  fi
 fi
@ -140,6 +179,20 @@ if [ $stage -le 5 ] && [ $stop_stage -ge 5 ]; then
    lhotse split $num_splits ./data/${lang}/fbank/cv-${lang}_cuts_train_raw.jsonl.gz $split_dir
    touch $split_dir/.cv-${lang}_train_split.done
  fi
  if [ -f data/${lang}/fbank/.validated.preprocess_complete ]; then
    log "Also split validated data"
    split_dir=data/${lang}/fbank/cv-${lang}_validated_split_${num_splits}
    lhotse split $num_splits ./data/${lang}/fbank/cv-${lang}_cuts_validated_raw.jsonl.gz $split_dir
    touch $split_dir/.cv-${lang}_validated.done
  fi
  if [ -f data/${lang}/fbank/.invalidated.preprocess_complete ]; then
    log "Also split invalidated data"
    split_dir=data/${lang}/fbank/cv-${lang}_invalidated_split_${num_splits}
    lhotse split $num_splits ./data/${lang}/fbank/cv-${lang}_cuts_invalidated_raw.jsonl.gz $split_dir
    touch $split_dir/.cv-${lang}_invalidated.done
  fi
 fi
 if [ $stage -le 6 ] && [ $stop_stage -ge 6 ]; then
@ -154,6 +207,34 @@ if [ $stage -le 6 ] && [ $stop_stage -ge 6 ]; then
      --perturb-speed $perturb_speed
    touch data/${lang}/fbank/.cv-${lang}_train.done
  fi
  split_dir=data/${lang}/fbank/cv-${lang}_validated_split_${num_splits}
  if [ -f $split_dir/.cv-${lang}_validated.done ]; then
    log "Also compute features for validated data"
    ./local/compute_fbank_commonvoice_splits.py \
      --subset validated \
      --num-workers $nj \
      --batch-duration 200 \
      --start 0 \
      --num-splits $num_splits \
      --language $lang \
      --perturb-speed $perturb_speed
    touch data/${lang}/fbank/.cv-${lang}_validated.done
  fi
  split_dir=data/${lang}/fbank/cv-${lang}_invalidated_split_${num_splits}
  if [ -f $split_dir/.cv-${lang}_invalidated.done ]; then
    log "Also compute features for invalidated data"
    ./local/compute_fbank_commonvoice_splits.py \
      --subset invalidated \
      --num-workers $nj \
      --batch-duration 200 \
      --start 0 \
      --num-splits $num_splits \
      --language $lang \
      --perturb-speed $perturb_speed
    touch data/${lang}/fbank/.cv-${lang}_invalidated.done
  fi
 fi
 if [ $stage -le 7 ] && [ $stop_stage -ge 7 ]; then
@ -162,6 +243,18 @@ if [ $stage -le 7 ] && [ $stop_stage -ge 7 ]; then
    pieces=$(find data/${lang}/fbank/cv-${lang}_train_split_${num_splits} -name "cv-${lang}_cuts_train.*.jsonl.gz")
    lhotse combine $pieces data/${lang}/fbank/cv-${lang}_cuts_train.jsonl.gz
  fi
  if [ -f data/${lang}/fbank/.cv-${lang}_validated.done ]; then
    log "Also combine features for validated data"
    pieces=$(find data/${lang}/fbank/cv-${lang}_validated_split_${num_splits} -name "cv-${lang}_cuts_validated.*.jsonl.gz")
    lhotse combine $pieces data/${lang}/fbank/cv-${lang}_cuts_validated.jsonl.gz
  fi
  if [ -f data/${lang}/fbank/.cv-${lang}_invalidated.done ]; then
    log "Also combine features for invalidated data"
    pieces=$(find data/${lang}/fbank/cv-${lang}_inalidated_split_${num_splits} -name "cv-${lang}_cuts_invalidated.*.jsonl.gz")
    lhotse combine $pieces data/${lang}/fbank/cv-${lang}_cuts_invalidated.jsonl.gz
  fi
 fi
 if [ $stage -le 8 ] && [ $stop_stage -ge 8 ]; then