diff --git a/egs/librispeech/ASR/pruned_transducer_stateless7/zipformer.py b/egs/librispeech/ASR/pruned_transducer_stateless7/zipformer.py
index 5a0d22d86..4a946db5a 100644
--- a/egs/librispeech/ASR/pruned_transducer_stateless7/zipformer.py
+++ b/egs/librispeech/ASR/pruned_transducer_stateless7/zipformer.py
@@ -1847,8 +1847,8 @@ class Conv2dSubsampling(nn.Module):
             SwooshR(),
         )
 
-        self.convnext1 = nn.Sequential(ConvNeXt(layer2_channels),
-                                       ConvNeXt(layer2_channels),
+        self.convnext1 = nn.Sequential(ConvNeXt(layer2_channels, kernel_size=(5, 5)),
+                                       ConvNeXt(layer2_channels, kernel_size=(5, 5)),
                                        BasicNorm(layer2_channels,
                                                  channel_dim=1))