from local

2025-12-11 06:55:27 +00:00 · 2022-12-09 17:05:03 +09:00 · 2022-12-09 17:05:03 +09:00 · a1a1964b95
commit a1a1964b95
parent a1840e672a
2 changed files with 199 additions and 0 deletions
--- a/egs/librispeech/ASR/pruned_transducer_stateless_d2v/.train.py.swp
+++ b/egs/librispeech/ASR/pruned_transducer_stateless_d2v/.train.py.swp
--- a/egs/librispeech/ASR/pruned_transducer_stateless_d2v_v2/data2vec_encoder.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless_d2v_v2/data2vec_encoder.py
@ -0,0 +1,199 @@
 # Copyright 2021 Xuankai Chang
 #  Apache 2.0  (http://www.apache.org/licenses/LICENSE-2.0)
 """Encoder definition."""
 import contextlib
 import time
 import copy
 import math 
 import logging
 import os
 from typing import List, Optional, Tuple
 import warnings
 import torch
 from filelock import FileLock
 from typeguard import check_argument_types
 from nets_utils import make_pad_mask
 from encoder_interface import EncoderInterface
 from scaling import (
    ActivationBalancer,
    BasicNorm,
    DoubleSwish,
    ScaledConv1d,
    ScaledConv2d,
    ScaledLinear,
 )
 from torch import Tensor, nn
 from icefall.utils import make_pad_mask, subsequent_chunk_mask
 class FairSeqData2VecEncoder(EncoderInterface):
    """FairSeq Wav2Vec2 encoder module.
    Args:
        input_size: input dim
        output_size: dimension of attention
        w2v_url: url to Wav2Vec2.0 pretrained model
        w2v_dir_path: directory to download the Wav2Vec2.0 pretrained model.
        normalize_before: whether to use layer_norm before the first block
        finetune_last_n_layers: last n layers to be finetuned in Wav2Vec2.0
                                0 means to finetune every layer if freeze_w2v=False.
    """
    def __init__(
        self,
        input_size: int,
        w2v_url: str,
        w2v_dir_path: str = "./",
        output_size: int = 256,
        freeze_finetune_updates: int = 0,
        additional_block: bool = False,
    ):
        assert check_argument_types()
        super().__init__()
        if w2v_url != "":
            try:
                import fairseq
                from fairseq.models.wav2vec.wav2vec2 import Wav2Vec2Model
            except Exception as e:
                print("Error: FairSeq is not properly installed.")
                print(
                    "Please install FairSeq: cd ${MAIN_ROOT}/tools && make fairseq.done"
                )
                raise e
        if os.path.exists('/home/work/workspace/models/data2vec_model/audio_base_ls.pt'):
            self.w2v_model_path = '/home/work/workspace/models/data2vec_model/audio_base_ls.pt'
        if os.path.exists('./models/audio_base_ls.pt'):
            self.w2v_model_path = './models/audio_base_ls.pt'
        self._output_size = output_size
        models, _, _ = fairseq.checkpoint_utils.load_model_ensemble_and_task(
            [self.w2v_model_path],
            strict=False,
        )
        model = models[0]
        model.feature_grad_mult = 0.0 ## for conv network freeze
        #model.mask_prob = 0.3 ## for conv network freeze
        if not isinstance(model, Wav2Vec2Model):
            try:
                model = model.w2v_encoder.w2v_model
            except:
                print(
                    "using data2vec ..."
                )
        self.encoders = model
        self.pretrained_params = copy.deepcopy(model.state_dict())
        if model.cfg.encoder_embed_dim != output_size or additional_block:
            # TODO(xkc09): try LSTM
            self.output_layer = torch.nn.Sequential(
                torch.nn.Linear(model.cfg.encoder_embed_dim, output_size),
                torch.nn.LayerNorm(output_size),
                torch.nn.GELU(),
            )
        else:
            self.output_layer = None
        self.freeze_finetune_updates = freeze_finetune_updates
        self.num_updates = 0
    def output_size(self) -> int:
        return self._output_size
    def forward(
        self,
        x: torch.Tensor,
        x_lens: torch.Tensor,
        warmup = None,
        prev_states: torch.Tensor = None,
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        xs_pad = x
        ilens = x_lens
        """Forward FairSeqWav2Vec2 Encoder.
        Args:
            xs_pad: input tensor (B, L, D)
            ilens: input length (B)
            prev_states: Not to be used now.
        Returns:
            position embedded tensor and mask
        """
        with torch.no_grad():
            xs_pad = torch.nn.functional.layer_norm(xs_pad, xs_pad.shape)
        masks = make_pad_mask(ilens).to(xs_pad.device)
        ft = (self.freeze_finetune_updates <= self.num_updates) and self.encoders.training
        if self.num_updates <= self.freeze_finetune_updates:
            self.num_updates += 1
        elif ft and self.num_updates == self.freeze_finetune_updates + 1:
            self.num_updates += 1
            logging.info("Start fine-tuning wav2vec parameters!")
        with torch.no_grad() if not ft else contextlib.nullcontext():
            enc_outputs = self.encoders(
                xs_pad,
                masks,
                mask = ft,
                features_only=True,
            )
        xs_pad = enc_outputs["x"]  # (B,T,C),
        bs = xs_pad.shape[0]
        if enc_outputs["padding_mask"] is not None:
            masks = enc_outputs["padding_mask"]  # (B, T)
            olens = (~masks).sum(dim=1)  # (B)
        else:
            olens = torch.IntTensor([xs_pad.shape[1]]).repeat(bs).to(xs_pad.device)
        if self.output_layer is not None:
            xs_pad = self.output_layer(xs_pad)
        return xs_pad, olens
    def reload_pretrained_parameters(self):
        self.encoders.load_state_dict(self.pretrained_params)
        logging.info("Pretrained Wav2Vec model parameters reloaded!")
 def download_w2v(model_url, dir_path):
    os.makedirs(dir_path, exist_ok=True)
    model_name = model_url.split("/")[-1]
    model_path = os.path.join(dir_path, model_name)
    dict_url = "https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt"
    dict_path = os.path.join(dir_path, dict_url.split("/")[-1])
    with FileLock(model_path + ".lock"):
        if not os.path.exists(model_path):
            torch.hub.download_url_to_file(model_url, model_path)
            torch.hub.download_url_to_file(dict_url, dict_path)
            logging.info(f"Wav2Vec model downloaded {model_path}")
        else:
            logging.info(f"Wav2Vec model {model_path} already exists.")
    return model_path
 if __name__ == '__main__':
    d2v = FairSeqData2VecEncoder(input_size=768, w2v_url='ww', output_size=768)
    inputs = torch.randn([1, 211564])
    #a = torch.ones([1000]
    #b = torch.ones([10000])
    #c = torch.ones([10000])
    length = torch.tensor([211564])
    outputs = d2v(inputs, length)
    print(outputs[0].size())
    #for n, p in d2v.named_parameters():
    #    print(n)