Support DDP training.

2021-07-25 21:40:09 +08:00 · 2021-07-25 21:40:09 +08:00 · 8055bf31a0
commit 8055bf31a0
parent 4a66712406
3 changed files with 105 additions and 11 deletions
--- a/egs/librispeech/ASR/tdnn_lstm_ctc/README.md
+++ b/egs/librispeech/ASR/tdnn_lstm_ctc/README.md
@ -12,3 +12,11 @@ cd $PWD/..

 ./tdnn_lstm_ctc/train.py
 ```
+
+If you have 4 GPUs and want to use GPU 1 and GPU 3 for DDP training,
+you can do the following:
+
+```
+export CUDA_VISIBLE_DEVICES="1,3"
+./tdnn_lstm_ctc/train.py --world-size=2
+```
--- a/egs/librispeech/ASR/tdnn_lstm_ctc/train.py
+++ b/egs/librispeech/ASR/tdnn_lstm_ctc/train.py
@ -10,9 +10,13 @@ from typing import Optional

 import k2
 import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
 import torch.nn as nn
 import torch.optim as optim
+from lhotse.utils import fix_random_seed
 from model import TdnnLstm
+from torch.nn.parallel import DistributedDataParallel as DDP
 from torch.nn.utils import clip_grad_value_
 from torch.optim.lr_scheduler import StepLR
 from torch.utils.tensorboard import SummaryWriter
@ -20,9 +24,15 @@ from torch.utils.tensorboard import SummaryWriter
 from icefall.checkpoint import load_checkpoint
 from icefall.checkpoint import save_checkpoint as save_checkpoint_impl
 from icefall.dataset.librispeech import LibriSpeechAsrDataModule
+from icefall.dist import cleanup_dist, setup_dist
 from icefall.graph_compiler import CtcTrainingGraphCompiler
 from icefall.lexicon import Lexicon
-from icefall.utils import AttributeDict, encode_supervisions, setup_logger
+from icefall.utils import (
+    AttributeDict,
+    encode_supervisions,
+    setup_logger,
+    str2bool,
+)


 def get_parser():
@ -43,6 +53,14 @@ def get_parser():
        default=12354,
        help="Master port to use for DDP training.",
    )
+
+    parser.add_argument(
+        "--tensorboard",
+        type=str2bool,
+        default=True,
+        help="Should various information be logged in tensorboard.",
+    )
+
    # TODO: add extra arguments and support DDP training.
    # Currently, only single GPU training is implemented. Will add
    # DDP training once single GPU training is finished.
@ -186,6 +204,7 @@ def save_checkpoint(
    model: nn.Module,
    optimizer: torch.optim.Optimizer,
    scheduler: torch.optim.lr_scheduler._LRScheduler,
+    rank: int = 0,
 ) -> None:
    """Save model, optimizer, scheduler and training stats to file.

@ -202,6 +221,7 @@ def save_checkpoint(
        params=params,
        optimizer=optimizer,
        scheduler=scheduler,
+        rank=rank,
    )

    if params.best_train_epoch == params.cur_epoch:
@ -290,6 +310,7 @@ def compute_validation_loss(
    model: nn.Module,
    graph_compiler: CtcTrainingGraphCompiler,
    valid_dl: torch.utils.data.DataLoader,
+    world_size: int = 1,
 ) -> None:
    """Run the validation process. The validation loss
    is saved in `params.valid_loss`.
@ -312,6 +333,13 @@ def compute_validation_loss(
        tot_loss += loss_cpu
        tot_frames += params.valid_frames

+    if world_size > 1:
+        s = torch.tensor([tot_loss, tot_frames], device=loss.device)
+        dist.all_reduce(s, op=dist.ReduceOp.SUM)
+        s = s.cpu().tolist()
+        tot_loss = s[0]
+        tot_frames = s[1]
+
    params.valid_loss = tot_loss / tot_frames

    if params.valid_loss < params.best_valid_loss:
@ -327,6 +355,7 @@ def train_one_epoch(
    train_dl: torch.utils.data.DataLoader,
    valid_dl: torch.utils.data.DataLoader,
    tb_writer: Optional[SummaryWriter] = None,
+    world_size: int = 1,
 ) -> None:
    """Train the model for one epoch.

@ -349,6 +378,8 @@ def train_one_epoch(
        Dataloader for the validation dataset.
      tb_writer:
        Writer to write log messages to tensorboard.
+      world_size:
+        Number of nodes in DDP training. If it is 1, DDP is disabled.
    """
    model.train()

@ -394,11 +425,12 @@ def train_one_epoch(
                model=model,
                graph_compiler=graph_compiler,
                valid_dl=valid_dl,
+                world_size=world_size,
            )
            model.train()
            logging.info(
-                f"Epoch {params.cur_epoch}, valid loss {params.valid_loss}, "
-                f"best valid loss: {params.best_valid_loss:.4f} "
+                f"Epoch {params.cur_epoch}, valid loss {params.valid_loss:.4f},"
+                f" best valid loss: {params.best_valid_loss:.4f} "
                f"best valid epoch: {params.best_valid_epoch}"
            )

@ -409,26 +441,40 @@ def train_one_epoch(
        params.best_train_loss = params.train_loss


-def main():
-    parser = get_parser()
-    LibriSpeechAsrDataModule.add_arguments(parser)
-    args = parser.parse_args()
-
+def run(rank, world_size, args):
+    """
+    Args:
+      rank:
+        It is a value between 0 and `world_size-1`, which is
+        passed automatically by `mp.spawn()` in :func:`main`.
+        The node with rank 0 is responsible for saving checkpoint.
+      world_size:
+        Number of GPUs for DDP training.
+      args:
+        The return value of get_parser().parse_args()
+    """
    params = get_params()
    params.update(vars(args))

+    fix_random_seed(42)
+    if world_size > 1:
+        setup_dist(rank, world_size, params.master_port)
+
    setup_logger(f"{params.exp_dir}/log/log-train")
    logging.info("Training started")
    logging.info(params)

-    tb_writer = SummaryWriter(log_dir=f"{params.exp_dir}/tensorboard")
+    if args.tensorboard and rank == 0:
+        tb_writer = SummaryWriter(log_dir=f"{params.exp_dir}/tensorboard")
+    else:
+        tb_writer = None

    lexicon = Lexicon(params.lang_dir)
    max_phone_id = max(lexicon.tokens)

    device = torch.device("cpu")
    if torch.cuda.is_available():
-        device = torch.device("cuda", 0)
+        device = torch.device("cuda", rank)

    graph_compiler = CtcTrainingGraphCompiler(lexicon=lexicon, device=device)

@ -438,6 +484,8 @@ def main():
        subsampling_factor=params.subsampling_factor,
    )
    model.to(device)
+    if world_size > 1:
+        model = DDP(model, device_ids=[rank])

    optimizer = optim.AdamW(
        model.parameters(),
@ -478,15 +526,36 @@ def main():
            train_dl=train_dl,
            valid_dl=valid_dl,
            tb_writer=tb_writer,
+            world_size=world_size,
        )

        scheduler.step()

        save_checkpoint(
-            params=params, model=model, optimizer=optimizer, scheduler=scheduler
+            params=params,
+            model=model,
+            optimizer=optimizer,
+            scheduler=scheduler,
+            rank=rank,
        )

    logging.info("Done!")
+    if world_size > 1:
+        torch.distributed.barrier()
+        cleanup_dist()
+
+
+def main():
+    parser = get_parser()
+    LibriSpeechAsrDataModule.add_arguments(parser)
+    args = parser.parse_args()
+
+    world_size = args.world_size
+    assert world_size >= 1
+    if world_size > 1:
+        mp.spawn(run, args=(world_size, args), nprocs=world_size, join=True)
+    else:
+        run(rank=0, world_size=1, args=args)


 if __name__ == "__main__":
--- a/icefall/dist.py
+++ b/icefall/dist.py
@ -0,0 +1,17 @@
+import os
+
+import torch
+from torch import distributed as dist
+
+
+def setup_dist(rank, world_size, master_port=None):
+    os.environ["MASTER_ADDR"] = "localhost"
+    os.environ["MASTER_PORT"] = (
+        "12354" if master_port is None else str(master_port)
+    )
+    dist.init_process_group("nccl", rank=rank, world_size=world_size)
+    torch.cuda.set_device(rank)
+
+
+def cleanup_dist():
+    dist.destroy_process_group()