updated the conv_emformer_transducer_stateless recipes

2025-12-11 06:55:27 +00:00 · 2023-07-23 00:12:54 +08:00 · 2023-07-23 00:12:54 +08:00 · 64393e798f
commit 64393e798f
parent fb820982aa
5 changed files with 46 additions and 47 deletions
--- a/egs/librispeech/ASR/conv_emformer_transducer_stateless/export.py
+++ b/egs/librispeech/ASR/conv_emformer_transducer_stateless/export.py
@ -22,7 +22,7 @@
 Usage:
 ./conv_emformer_transducer_stateless/export.py \
  --exp-dir ./conv_emformer_transducer_stateless/exp \
-  --bpe-model data/lang_bpe_500/bpe.model \
+  --tokens data/lang_bpe_500/tokens.txt \
  --epoch 30 \
  --avg 10 \
  --use-averaged-model=True \
@ -62,7 +62,7 @@ import argparse
 import logging
 from pathlib import Path
-import sentencepiece as spm
+import k2
 import torch
 from train import add_model_arguments, get_params, get_transducer_model
@ -72,7 +72,7 @@ from icefall.checkpoint import (
    find_checkpoints,
    load_checkpoint,
 )
-from icefall.utils import str2bool
+from icefall.utils import num_tokens, str2bool
 def get_parser():
@ -118,10 +118,10 @@ def get_parser():
    )
    parser.add_argument(
-        "--bpe-model",
+        "--tokens",
        type=str,
-        default="data/lang_bpe_500/bpe.model",
+        required=True,
-        help="Path to the BPE model",
+        help="Path to the tokens.txt.",
    )
    parser.add_argument(
@ -166,12 +166,12 @@ def main():
    logging.info(f"device: {device}")
-    sp = spm.SentencePieceProcessor()
+    # Load tokens.txt here
-    sp.load(params.bpe_model)
+    token_table = k2.SymbolTable.from_file(params.tokens)
-    # <blk> is defined in local/train_bpe_model.py
+    # Load id of the <blk> token and the vocab size
-    params.blank_id = sp.piece_to_id("<blk>")
+    params.blank_id = token_table["<blk>"]
-    params.vocab_size = sp.get_piece_size()
+    params.vocab_size = num_tokens(token_table) + 1  # +1 for <blk>
    logging.info(params)
--- a/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export-for-ncnn.py
+++ b/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export-for-ncnn.py
@ -8,7 +8,7 @@ for more details about how to use this file.
 Usage:
 ./conv_emformer_transducer_stateless2/export-for-ncnn.py \
  --exp-dir ./conv_emformer_transducer_stateless2/exp \
-  --bpe-model data/lang_bpe_500/bpe.model \
+  --tokens data/lang_bpe_500/tokens.txt \
  --epoch 30 \
  --avg 10 \
  --use-averaged-model=True \
@ -37,7 +37,7 @@ import argparse
 import logging
 from pathlib import Path
-import sentencepiece as spm
+import k2
 import torch
 from scaling_converter import convert_scaled_to_non_scaled
 from train2 import add_model_arguments, get_params, get_transducer_model
@ -48,7 +48,7 @@ from icefall.checkpoint import (
    find_checkpoints,
    load_checkpoint,
 )
-from icefall.utils import setup_logger, str2bool
+from icefall.utils import num_tokens, setup_logger, str2bool
 def get_parser():
@ -94,10 +94,10 @@ def get_parser():
    )
    parser.add_argument(
-        "--bpe-model",
+        "--tokens",
        type=str,
-        default="data/lang_bpe_500/bpe.model",
+        required=True,
-        help="Path to the BPE model",
+        help="Path to the tokens.txt.",
    )
    parser.add_argument(
@ -217,12 +217,12 @@ def main():
    logging.info(f"device: {device}")
-    sp = spm.SentencePieceProcessor()
+    # Load tokens.txt here
-    sp.load(params.bpe_model)
+    token_table = k2.SymbolTable.from_file(params.tokens)
-    # <blk> is defined in local/train_bpe_model.py
+    # Load id of the <blk> token and the vocab size
-    params.blank_id = sp.piece_to_id("<blk>")
+    params.blank_id = token_table["<blk>"]
-    params.vocab_size = sp.get_piece_size()
+    params.vocab_size = num_tokens(token_table) + 1  # +1 for <blk>
    logging.info(params)
--- a/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export-onnx.py
+++ b/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export-onnx.py
@ -18,7 +18,6 @@ GIT_LFS_SKIP_SMUDGE=1 git clone $repo_url
 repo=$(basename $repo_url)
 pushd $repo
 git lfs pull --include "data/lang_bpe_500/bpe.model"
 git lfs pull --include "exp/pretrained-epoch-30-avg-10-averaged.pt"
 cd exp
@ -28,7 +27,7 @@ popd
 2. Export the model to ONNX
 ./conv_emformer_transducer_stateless2/export-onnx.py \
-  --bpe-model $repo/data/lang_bpe_500/bpe.model \
+  --tokens $repo/data/lang_bpe_500/tokens.txt \
  --use-averaged-model 0 \
  --epoch 99 \
  --avg 1 \
@ -55,14 +54,14 @@ import logging
 from pathlib import Path
 from typing import Dict, Tuple
 import k2
 import onnx
 import sentencepiece as spm
 import torch
 import torch.nn as nn
 from decoder import Decoder
 from emformer import Emformer
 from scaling_converter import convert_scaled_to_non_scaled
 from train2 import add_model_arguments, get_params, get_transducer_model
 from emformer import Emformer
 from icefall.checkpoint import (
    average_checkpoints,
@ -70,7 +69,7 @@ from icefall.checkpoint import (
    find_checkpoints,
    load_checkpoint,
 )
-from icefall.utils import setup_logger, str2bool
+from icefall.utils import num_tokens, setup_logger, str2bool
 def get_parser():
@ -127,10 +126,10 @@ def get_parser():
    )
    parser.add_argument(
-        "--bpe-model",
+        "--tokens",
        type=str,
-        default="data/lang_bpe_500/bpe.model",
+        required=True,
-        help="Path to the BPE model",
+        help="Path to the tokens.txt.",
    )
    parser.add_argument(
@ -484,12 +483,12 @@ def main():
    logging.info(f"device: {device}")
-    sp = spm.SentencePieceProcessor()
+    # Load tokens.txt here
-    sp.load(params.bpe_model)
+    token_table = k2.SymbolTable.from_file(params.tokens)
-    # <blk> is defined in local/train_bpe_model.py
+    # Load id of the <blk> token and the vocab size
-    params.blank_id = sp.piece_to_id("<blk>")
+    params.blank_id = token_table["<blk>"]
-    params.vocab_size = sp.get_piece_size()
+    params.vocab_size = num_tokens(token_table) + 1  # +1 for <blk>
    logging.info(params)
--- a/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export.py
+++ b/egs/librispeech/ASR/conv_emformer_transducer_stateless2/export.py
@ -22,7 +22,7 @@
 Usage:
 ./conv_emformer_transducer_stateless2/export.py \
  --exp-dir ./conv_emformer_transducer_stateless2/exp \
-  --bpe-model data/lang_bpe_500/bpe.model \
+  --tokens data/lang_bpe_500/tokens.txt \
  --epoch 30 \
  --avg 10 \
  --use-averaged-model=True \
@ -62,7 +62,7 @@ import argparse
 import logging
 from pathlib import Path
-import sentencepiece as spm
+import k2
 import torch
 from scaling_converter import convert_scaled_to_non_scaled
 from train import add_model_arguments, get_params, get_transducer_model
@ -73,7 +73,7 @@ from icefall.checkpoint import (
    find_checkpoints,
    load_checkpoint,
 )
-from icefall.utils import str2bool
+from icefall.utils import num_tokens, str2bool
 def get_parser():
@ -119,10 +119,10 @@ def get_parser():
    )
    parser.add_argument(
-        "--bpe-model",
+        "--tokens",
        type=str,
-        default="data/lang_bpe_500/bpe.model",
+        required=True,
-        help="Path to the BPE model",
+        help="Path to the tokens.txt.",
    )
    parser.add_argument(
@ -167,12 +167,12 @@ def main():
    logging.info(f"device: {device}")
-    sp = spm.SentencePieceProcessor()
+    # Load tokens.txt here
-    sp.load(params.bpe_model)
+    token_table = k2.SymbolTable.from_file(params.tokens)
-    # <blk> is defined in local/train_bpe_model.py
+    # Load id of the <blk> token and the vocab size
-    params.blank_id = sp.piece_to_id("<blk>")
+    params.blank_id = token_table["<blk>"]
-    params.vocab_size = sp.get_piece_size()
+    params.vocab_size = num_tokens(token_table) + 1  # +1 for <blk>
    logging.info(params)
--- a/egs/librispeech/ASR/conv_emformer_transducer_stateless2/onnx_pretrained.py
+++ b/egs/librispeech/ASR/conv_emformer_transducer_stateless2/onnx_pretrained.py
@ -28,7 +28,7 @@ popd
 2. Export the model to ONNX
 ./conv_emformer_transducer_stateless2/export-onnx.py \
-  --bpe-model $repo/data/lang_bpe_500/bpe.model \
+  --tokens $repo/data/lang_bpe_500/tokens.txt \
  --use-averaged-model 0 \
  --epoch 99 \
  --avg 1 \