add unfreeze llm option

2025-12-11 06:55:27 +00:00 · 2024-06-13 09:27:07 +00:00 · 2024-06-13 09:27:07 +00:00 · 7db5445d1e
commit 7db5445d1e
parent dbe85c1f12
1 changed files with 49 additions and 42 deletions
--- a/egs/speech_llm/ASR_LLM/whisper_llm_zh/train.py
+++ b/egs/speech_llm/ASR_LLM/whisper_llm_zh/train.py
@ -126,6 +126,13 @@ def add_model_arguments(parser: argparse.ArgumentParser):
        help="Whether to use lora to fine-tune llm.",
    )

+    parser.add_argument(
+        "--unfreeze-llm",
+        type=str2bool,
+        default=False,
+        help="Whether to unfreeze llm during training.",
+    )
+
 def get_parser():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter
@ -587,7 +594,7 @@ def train_one_epoch(
                valid_info.write_summary(
                    tb_writer, "train/valid_", params.batch_idx_train
                )
-
+            if batch_idx != 0:
                model.save_checkpoint(
                    save_dir=params.exp_dir,
                    tag=f"epoch-{params.cur_epoch}-checkpoint-{batch_idx}",
@ -695,6 +702,9 @@ def run(rank, world_size, args):
    whisper_model = whisper.load_model(params.speech_encoder_path_or_name, "cpu")
    speech_encoder = whisper_model.encoder
    speech_encoder_dim = whisper_model.dims.n_audio_state
+    for name, param in speech_encoder.named_parameters(): 
+        param.requires_grad = False
+    speech_encoder.eval()

    tokenizer = AutoTokenizer.from_pretrained(params.llm_path_or_name)
    if params.use_flash_attn:
@ -713,6 +723,12 @@ def run(rank, world_size, args):
        attn_implementation=attn_implementation,
        torch_dtype=torch_dtype,
    )
+
+    if not params.unfreeze_llm:
+        for name, param in llm.named_parameters(): 
+            param.requires_grad = False
+        llm.eval()
+    else:
        if params.use_lora:
            lora_config = LoraConfig(
                r=64,
@ -733,15 +749,6 @@ def run(rank, world_size, args):

    encoder_projector = EncoderProjector(speech_encoder_dim, llm.config.hidden_size, params.encoder_projector_ds_rate)

-    for name, param in speech_encoder.named_parameters(): 
-        param.requires_grad = False
-    speech_encoder.eval()
-
-    if not params.use_lora:
-        for name, param in llm.named_parameters(): 
-            param.requires_grad = False
-        llm.eval()
-
    model = SPEECH_LLM(
        speech_encoder,
        llm,