fix train/eval mode

reformat reformat fix
2025-08-12 19:42:19 +00:00 · 2025-04-28 09:10:12 +00:00 · 2025-04-28 09:10:12 +00:00 · f5d2aa1f5d
commit f5d2aa1f5d
parent 59c577f4ef
1 changed files with 12 additions and 15 deletions
--- a/egs/speech_llm/ASR_LLM/whisper_llm_zh/train.py
+++ b/egs/speech_llm/ASR_LLM/whisper_llm_zh/train.py
@ -1,6 +1,7 @@
 #!/usr/bin/env python3
 # Copyright    2023  Xiaomi Corp.        (authors: Xiaoyu Yang)
 #              2024  Yuekai Zhang
 #              2025  Yifan  Yang
 #
 # See ../../../../LICENSE for clarification regarding multiple authors
 #
@ -42,38 +43,29 @@ torchrun --nproc_per_node 8 ./whisper_llm_zh/train.py \
 """
 import argparse
 import copy
 import logging
 import os
 import random
 import warnings
 from pathlib import Path
-from shutil import copyfile
+from typing import Dict, Optional, Tuple
 from typing import Any, Dict, List, Optional, Tuple, Union
 import deepspeed
 import k2
 import torch
 import torch.multiprocessing as mp
 import torch.nn as nn
 import transformers
 import whisper
 from asr_datamodule import AsrDataModule
 from deepspeed.utils.zero_to_fp32 import convert_zero_checkpoint_to_fp32_state_dict
 from label_smoothing import LabelSmoothingLoss
 from lhotse import CutSet, load_manifest
 from lhotse.cut import Cut
 from lhotse.dataset.sampling.base import CutSampler
 from lhotse.utils import fix_random_seed
 from model import IGNORE_TOKEN_ID, SPEECH_LLM, EncoderProjector
 from multi_dataset import MultiDataset
-from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
+from peft import LoraConfig, get_peft_model
 from torch import Tensor
 from torch.utils.tensorboard import SummaryWriter
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from whisper_encoder_forward_monkey_patch import replace_whisper_encoder_forward
 from icefall import diagnostics
 from icefall.dist import get_rank, get_world_size
 from icefall.env import get_env_info
 from icefall.utils import (
@ -516,7 +508,10 @@ def train_one_epoch(
        The rank of the node in DDP training. If no DDP is used, it should
        be set to 0.
    """
-    model.encoder_projector.train()
+    model.train()
    model.encoder.eval()
    if not params.unfreeze_llm:
        model.llm.eval()
    tot_loss = MetricsTracker()
@ -533,6 +528,9 @@ def train_one_epoch(
                world_size=world_size,
            )
            model.train()
            model.encoder.eval()
            if not params.unfreeze_llm:
                model.llm.eval()
            logging.info(f"Epoch {params.cur_epoch}, validation: {valid_info}")
            logging.info(
                f"Maximum memory allocated so far is {torch.cuda.max_memory_allocated()//1000000}MB"
@ -648,7 +646,6 @@ def run(rank, world_size, args):
    speech_encoder_dim = whisper_model.dims.n_audio_state
    for name, param in speech_encoder.named_parameters():
        param.requires_grad = False
    speech_encoder.eval()
    tokenizer = AutoTokenizer.from_pretrained(params.llm_path_or_name)
    if params.use_flash_attn:
@ -671,7 +668,6 @@ def run(rank, world_size, args):
    if not params.unfreeze_llm:
        for name, param in llm.named_parameters():
            param.requires_grad = False
        llm.eval()
    else:
        if params.use_lora:
            lora_config = LoraConfig(
@ -728,7 +724,7 @@ def run(rank, world_size, args):
    logging.info(f"Device: {device}")
    model.to(device)
-    assert params.deepspeed and world_size > 1
+    assert params.deepspeed
    logging.info("Using DeepSpeed")
    model, optimizer, _, scheduler = deepspeed.initialize(
        args=params, model=model, model_parameters=model.parameters()
@ -865,6 +861,7 @@ def main():
    torch.set_num_threads(1)
    torch.set_num_interop_threads(1)
    warnings.filterwarnings("ignore", category=FutureWarning)
    run(rank=rank, world_size=world_size, args=args)