add train qwen

2025-11-16 15:27:32 +00:00 · 2025-11-16 15:27:32 +00:00 · df41e7686b
commit df41e7686b
parent 467c21ce7e
3 changed files with 36 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@ -6,4 +6,5 @@ data
 *.json
 models
 *.log
-research_notebook/data
+research_notebook/data
+train/qwen/output
--- a/requirements.txt
+++ b/requirements.txt
@ -2,4 +2,9 @@ python-dotenv==1.1.1
 hazm=0.10.0
 faiss-cpu==1.12.0
 sentence-transformers==5.1.2
-einops==0.8.1
+einops==0.8.1
+ms-swift
+mteb==1.39.7
+transformers
+liger-kernel
+deepspeed
--- a/train/qwen/a.sh
+++ b/train/qwen/a.sh
@ -0,0 +1,28 @@
+# pip install flash-attn --no-build-isolation
+
+
+nproc_per_node=1
+CUDA_VISIBLE_DEVICES=0 \
+NPROC_PER_NODE=$nproc_per_node \
+swift sft \
+    --model $(pwd)/../../data/models/Qwen3-Embedding-0.6B/model \
+    --task_type embedding \
+    --model_type qwen3_emb \
+    --train_type full \
+    --dataset my_local_dataset \
+    --custom_register_path /home/hediehloo/codes/embedding/embedding_model/data/dataset/my_dataset_register.py \
+    --split_dataset_ratio 0.005 \
+    --eval_strategy steps \
+    --output_dir output \
+    --eval_steps 1000 \
+    --num_train_epochs 1 \
+    --save_steps 1000 \
+    --save_total_limit 10 \
+    --per_device_train_batch_size 16 \
+    --per_device_eval_batch_size 16 \
+    --gradient_accumulation_steps 4 \
+    --learning_rate 2.4e-5 \
+    --loss_type infonce \
+    --label_names labels \
+    --dataloader_drop_last true \
+    --deepspeed zero3