mirrors/icefall

Fork 0

mirror of https://github.com/k2-fsa/icefall.git synced 2025-12-11 06:55:27 +00:00

History

dohe0342 508364b72d from local

2023-06-09 17:27:42 +09:00

__init__.py

…

.checkpoint.py.swp

from local

2023-05-25 21:48:20 +09:00

.data2vec_audio.py.swp

from local

2023-05-26 12:22:21 +09:00

.decode.py.swp

from local

2023-06-09 17:27:42 +09:00

asr_datamodule.py

…

beam_search.py

…

bias_compare.py

from local

2023-05-18 16:18:43 +09:00

bitfit.py

from local

2023-05-18 16:36:17 +09:00

checkpoint.py

…

convolution.py

…

ctc_decode.py

…

data2vec_audio.py

from local

2023-05-26 12:18:21 +09:00

data2vec_encoder.py

from local

2023-04-27 16:31:17 +09:00

decode_new.py

from local

2023-05-26 11:54:59 +09:00

decode.py

from local

2023-06-02 01:00:42 +09:00

decoder.py

…

encoder_interface.py

…

export.py

…

full_ft.py

from local

2023-04-27 18:44:30 +09:00

jit_pretrained_ctc.py

…

jit_pretrained.py

…

joiner.py

…

last_layer.py

from local

2023-05-15 13:04:33 +09:00

model.py

from local

2023-04-28 10:12:40 +09:00

nets_utils.py

…

optim.py

from local

2023-04-11 16:08:50 +09:00

pretrained_ctc.py

…

pretrained.py

…

prompt_tuning.py

from local

2023-04-27 21:12:37 +09:00

pseudo.py

…

README.md

…

scaling_converter.py

…

scaling.py

…

test_model.py

…

train_adapter.py

from local

2023-04-11 14:31:20 +09:00

train_lora.py

from local

2023-06-01 19:12:25 +09:00

train_uda.py

…

train.py

…

utils.py

…

zipformer.py

…

README.md

data2vec-transducer

	test-clean	test-other
greedy decoding	2.88	6.69
modified beam search	2.76	6.37
fast beam search	2.82	6.59

train command

./pruned_transducer_stateless_d2v_v2/train.py \
        --wandb False \
        --input-strategy AudioSamples \
        --enable-spec-aug False \
        --multi-optim True \
        --start-epoch 1 \ 
        --world-size 4 \ 
        --num-epochs 30 \
        --full-libri 1 \ 
        --exp-dir ./pruned_transducer_stateless_d2v_v2/d2v-T \
        --max-duration 150 \
        --freeze-finetune-updates 3000 \
        --encoder-dim 768 \
        --decoder-dim 768 \
        --joiner-dim 768 \
        --use-fp16 1 \ 
        --peak-dec-lr 0.04175 \
        --peak-enc-lr 0.0003859 \
        --accum-grads 4 \ 
        --encoder-type d2v \
        --additional-block True \
        --prune-range 10 \
        --context-size 2 \ 
        --ctc-loss-scale 0.2

decode command

for method in greedy_search modified_beam_search fast_beam_search; do
  ./pruned_transducer_stateless_d2v_v2/decode.py \
    --input-strategy AudioSamples \
    --enable-spec-aug False \
    --additional-block True \
    --model-name epoch-27.pt \
    --exp-dir ./pruned_transducer_stateless_d2v_v2/960h_sweep_v3_388 \
    --max-duration 400 \
    --decoding-method $method \
    --max-sym-per-frame 1 \ 
    --encoder-type d2v \
    --encoder-dim 768 \
    --decoder-dim 768 \
    --joiner-dim 768