Minor fix to maximum number of symbols per frame RNN-T decoding.

2021-12-24 11:05:47 +08:00 · 2021-12-24 11:05:47 +08:00 · 0fa4ca7f02
commit 0fa4ca7f02
parent 5b6699a835
2 changed files with 26 additions and 8 deletions
--- a/egs/librispeech/ASR/transducer_stateless/beam_search.py
+++ b/egs/librispeech/ASR/transducer_stateless/beam_search.py
@ -22,13 +22,18 @@ import torch
 from model import Transducer


-def greedy_search(model: Transducer, encoder_out: torch.Tensor) -> List[int]:
+def greedy_search(
+    model: Transducer, encoder_out: torch.Tensor, max_sym_per_frame: int
+) -> List[int]:
    """
    Args:
      model:
        An instance of `Transducer`.
      encoder_out:
        A tensor of shape (N, T, C) from the encoder. Support only N==1 for now.
+      max_sym_per_frame:
+        Maximum number of symbols per frame. If it is set to 0, the WER
+        would be 100%.
    Returns:
      Return the decoded result.
    """
@ -55,10 +60,6 @@ def greedy_search(model: Transducer, encoder_out: torch.Tensor) -> List[int]:
    # Maximum symbols per utterance.
    max_sym_per_utt = 1000

-    # If at frame t, it decodes more than this number of symbols,
-    # it will move to the next step t+1
-    max_sym_per_frame = 3
-
    # symbols per frame
    sym_per_frame = 0

@ -66,6 +67,11 @@ def greedy_search(model: Transducer, encoder_out: torch.Tensor) -> List[int]:
    sym_per_utt = 0

    while t < T and sym_per_utt < max_sym_per_utt:
+        if sym_per_frame >= max_sym_per_frame:
+            sym_per_frame = 0
+            t += 1
+            continue
+
        # fmt: off
        current_encoder_out = encoder_out[:, t:t+1, :]
        # fmt: on
@ -83,8 +89,7 @@ def greedy_search(model: Transducer, encoder_out: torch.Tensor) -> List[int]:

            sym_per_utt += 1
            sym_per_frame += 1
-
-        if y == blank_id or sym_per_frame > max_sym_per_frame:
+        else:
            sym_per_frame = 0
            t += 1
    hyp = hyp[context_size:]  # remove blanks
--- a/egs/librispeech/ASR/transducer_stateless/decode.py
+++ b/egs/librispeech/ASR/transducer_stateless/decode.py
@ -114,6 +114,13 @@ def get_parser():
        help="Used only when --decoding-method is beam_search",
    )

+    parser.add_argument(
+        "--max-sym-per-frame",
+        type=int,
+        default=3,
+        help="Maximum number of symbols per frame",
+    )
+
    return parser


@ -237,7 +244,11 @@ def decode_one_batch(
        encoder_out_i = encoder_out[i:i+1, :encoder_out_lens[i]]
        # fmt: on
        if params.decoding_method == "greedy_search":
-            hyp = greedy_search(model=model, encoder_out=encoder_out_i)
+            hyp = greedy_search(
+                model=model,
+                encoder_out=encoder_out_i,
+                max_sym_per_frame=params.max_sym_per_frame,
+            )
        elif params.decoding_method == "beam_search":
            hyp = beam_search(
                model=model, encoder_out=encoder_out_i, beam=params.beam_size
@ -381,6 +392,8 @@ def main():
    params.suffix = f"epoch-{params.epoch}-avg-{params.avg}"
    if params.decoding_method == "beam_search":
        params.suffix += f"-beam-{params.beam_size}"
+    else:
+        params.suffix += f"-max-sym-per-frame-{params.max_sym_per_frame}"

    setup_logger(f"{params.res_dir}/log-decode-{params.suffix}")
    logging.info("Decoding started")