load attn param

2025-12-11 06:55:27 +00:00 · 2023-07-23 22:18:25 +08:00 · 2023-07-23 22:18:25 +08:00 · 056efeef30
commit 056efeef30
parent 8bc0956503
2 changed files with 9 additions and 1 deletions
--- a/egs/librispeech/ASR/zipformer_label_level_algn/model.py
+++ b/egs/librispeech/ASR/zipformer_label_level_algn/model.py
@ -35,6 +35,7 @@ class AsrModel(nn.Module):
        encoder: EncoderInterface,
        decoder: Optional[nn.Module] = None,
        joiner: Optional[nn.Module] = None,
        label_level_am_attention: Optional[nn.Module] = None,
        encoder_dim: int = 384,
        decoder_dim: int = 512,
        vocab_size: int = 500,
@ -112,7 +113,7 @@ class AsrModel(nn.Module):
                nn.LogSoftmax(dim=-1),
            )
-        self.label_level_am_attention = AlignmentAttentionModule()
+        self.label_level_am_attention = label_level_am_attention
    def forward_encoder(
        self, x: torch.Tensor, x_lens: torch.Tensor
--- a/egs/librispeech/ASR/zipformer_label_level_algn/train.py
+++ b/egs/librispeech/ASR/zipformer_label_level_algn/train.py
@ -65,6 +65,7 @@ import sentencepiece as spm
 import torch
 import torch.multiprocessing as mp
 import torch.nn as nn
 from alignment_attention_module import AlignmentAttentionModule
 from asr_datamodule import LibriSpeechAsrDataModule
 from decoder import Decoder
 from joiner import Joiner
@ -602,6 +603,9 @@ def get_joiner_model(params: AttributeDict) -> nn.Module:
    )
    return joiner
 def get_attn_module(params: AttributeDict) -> nn.Module:
    attn_module = AlignmentAttentionModule()
    return attn_module
 def get_model(params: AttributeDict) -> nn.Module:
    assert (
@ -620,11 +624,14 @@ def get_model(params: AttributeDict) -> nn.Module:
        decoder = None
        joiner = None
    attn = get_attn_module(params)
    model = AsrModel(
        encoder_embed=encoder_embed,
        encoder=encoder,
        decoder=decoder,
        joiner=joiner,
        label_level_am_attention=attn,
        encoder_dim=max(_to_int_tuple(params.encoder_dim)),
        decoder_dim=params.decoder_dim,
        vocab_size=params.vocab_size,