minor fixes

2025-12-11 06:55:27 +00:00 · 2024-12-06 11:51:40 +08:00 · 2024-12-06 11:51:40 +08:00 · 2504036f5b
commit 2504036f5b
parent ce73643af6
2 changed files with 8 additions and 6 deletions
--- a/egs/wenetspeech4tts/TTS/valle/train.py
+++ b/egs/wenetspeech4tts/TTS/valle/train.py
@ -4,6 +4,7 @@
 #                                                       Mingshuang Luo)
 # Copyright    2023                           (authors: Feiteng Li)
 # Copyright    2024                           (authors: Yuekai Zhang)
 # Copyright    2024  Tsinghua University      (authors: Zengrui Jin,)
 #
 # See ../../../../LICENSE for clarification regarding multiple authors
 #
@ -48,10 +49,8 @@ python3 valle/train.py --max-duration 160 --filter-min-duration 0.5 --filter-max
 import argparse
 import copy
 import logging
 import os
 import random
 import warnings
 from contextlib import nullcontext
 from pathlib import Path
 from shutil import copyfile
 from typing import Any, Dict, Optional, Tuple, Union
@ -686,9 +685,9 @@ def compute_validation_loss(
        output_dir = Path(f"{params.exp_dir}/eval/step-{params.batch_idx_train:06d}")
        output_dir.mkdir(parents=True, exist_ok=True)
        if isinstance(model, DDP):
-            model.module.visualize(predicts, batch, output_dir=output_dir)
+            model.module.visualize(predicts, batch, tokenizer, output_dir=output_dir)
        else:
-            model.visualize(predicts, batch, output_dir=output_dir)
+            model.visualize(predicts, batch, tokenizer, output_dir=output_dir)
    return tot_loss
--- a/egs/wenetspeech4tts/TTS/valle/valle.py
+++ b/egs/wenetspeech4tts/TTS/valle/valle.py
@ -23,6 +23,7 @@ import matplotlib.pyplot as plt
 import numpy as np
 import torch
 import torch.nn as nn
 from tokenizer import TextTokenCollater
 from torch import Tensor
 from torch.nn import Linear, Module
 from torch.nn import functional as F
@ -1664,13 +1665,15 @@ class VALLE(nn.Module):
        self,
        predicts: Tuple[torch.Tensor],
        batch: Dict[str, Union[List, torch.Tensor]],
        tokenizer: TextTokenCollater,
        output_dir: str,
        limit: int = 4,
    ) -> None:
        text_tokens = batch["text_tokens"].to("cpu").detach().numpy()
        text_tokens_lens = batch["text_tokens_lens"].to("cpu").detach().numpy()
        audio_features = batch["audio_features"].to("cpu").detach().numpy()
        audio_features_lens = batch["audio_features_lens"].to("cpu").detach().numpy()
        tokens = batch["tokens"]
        text_tokens, text_tokens_lens = tokenizer(tokens)
        assert text_tokens.ndim == 2
        utt_ids, texts = batch["utt_id"], batch["text"]