[initial commit] data extraction with example data folder

2025-12-14 15:26:02 +03:30 · 2025-12-14 15:26:02 +03:30 · 2c66a42a7b
commit 2c66a42a7b
6 changed files with 633 additions and 0 deletions
--- a/data_example/cleaned_data_docx/12-5شخصیت
+++ b/data_example/cleaned_data_docx/12-5شخصیت
--- a/data_example/cleaned_data_pdf/اعیاد
+++ b/data_example/cleaned_data_pdf/اعیاد
@ -0,0 +1,78 @@
+ ﺍﻋﯿﺎﺩ ﻣﺨﺼﻮﺹ ﺯﻧﺎﻥ
+ ﺩﺭ ﺍﻗﻠﯿﺘﻬﺎﯼ ﻣﻠﯽ ﭼﯿﻦ , ﺍﻋﯿﺎﺩ ﻣﺘﻨﻮﻋﯽ ﻭﺟﻮﺩ ﺩﺍﺭﺩ ﮐﻪ ﺩﺭ ﺁﻥ ﺯﯾﺒﺎﺋﯽ ﻭ ﺷﻌﻮﺭ ﺯﻧﺎﻥ
+ﺭﺍ ﺑﺨﻮﺑﯽ ﺑﻪ ﻧﻤﺎﯾﺶ ﻣﯽ ﮔﺬﺍﺭﺩ.
+ﻋﯿﺪ ﺯﻧﺎﻥ ﻣﻠﺖ ﻫﻮﻧﮓ ﺩﻭﻧﮓ
+ . ﻫﺮ ﺳﺎﻝ ﺭﻭﺯ ﻫﺸﺘﻢ ﺍﺯ ﻣﺎﻩ ﭼﻬﺎﺭﻡ  ﻗﻤﺮﯼ ﻋﯿﺪ ﺯﻧﺎﻥ ﻣﻠﺖ ﻫﻮﻧﮓ ﺩﻭﻧﮓ ﺍﺳﺖ
+ﻣﯽ ﮔﻮﯾﻨﺪ ﮐﻪ ﺍﯾﻦ ﻋﯿﺪ ﺍﺯ ﺧﺎﻧﻮﺍﺩﻩ ﯾﺎﻧﮓ ﻗﻮﻡ  ﺩﻭﻧﮓ ﺳﺮﭼﺸﻤﻪ ﮔﺮﻓﺘﻪ ﺍﺳﺖ . ﺩﺭ ﺯﻣﺎﻥ 
+( ﻗﻬﺮﻣﺎﻥ ﺯﻧﺎﻥ ﻣﻠﺖ ﺩﻭﻧﮓ , ﺑﻪ ﻋﻠﺖ ﺷﮑﺴﺖ Yang bamei) " ﻗﺪﯾﻢ " ﯾﺎﻧﮓ ﺑﺎﻣﺌﯽ
+ﻗﯿﺎﻡ ﮐﺸﺎﻭﺭﺯﺍﻥ ﮐﻪ ﺗﺤﺖ ﺭﻫﺒﺮﯼ ﺍﻭ ﺑﻮﺩ  ﺯﻧﺪﺍﻧﯽ ﺷﺪ. ﺭﻭﺯﯼ ﯾﺎﻧﮓ ﺑﺎﻣﺌﯽ ﺑﺮﺍﯼ ﺩﯾﺪﺍﺭ 
+ﺑﺎ ﺑﺮﺍﺩﺭ ﺧﻮﺩ ﺑﻪ ﺯﻧﺪﺍﻥ ﺭﻓﺖ . ﺍﻭ ﺩﯾﺪ ﭼﻬﺮﻩ ﺑﺮﺍﺩﺭ ﺑﺴﯿﺎﺭ ﺭﻧﮓ ﭘﺮﯾﺪﻩ ﺍﺳﺖ. ﺍﺯ ﺍﻭ 
+ﭘﺮﺳﯿﺪ ﻫﻨﻮﺯ ﺟﺮﺃﺕ ﻭ ﺷﺠﺎﻋﺖ ﺩﺭ ﺗﻮ ﺑﺎﻗﯽ ﻣﺎﻧﺪﻩ ﯾﺎ ﺧﯿﺮ؟ ﻭﯼ ﭘﺎﺳﺦ ﺩﺍﺩ, ﺟﺮﺃﺕ ﺩﺍﺭﻡ  
+ﻭﻟﯽ ﭼﻮﻥ ﺩﺭ ﺯﻧﺪﺍﻥ ﻫﯿﭻ ﻭﻗﺖ ﻏﺬﺍﯼ ﮐﺎﻓﯽ ﻧﺨﻮﺭﺩﻩ ﺍﻡ  ﻫﻤﯿﺸﻪ ﺍﺣﺴﺎﺱ ﮔﺮﺳﻨﮕﯽ ﮐﺮﺩﻩ 
+ﺍﻡ . ﯾﺎﻧﮓ ﺑﺎﻣﺌﯽ ﭘﺲ ﺍﺯ ﺑﺮﮔﺸﺖ ﺑﻪ ﺧﺎﻧﻪ , ﺑﺎ  ﺑﺮﻧﺞ ﻭ ﺳﺎﯾﺮ ﺧﻮﺭﺍﮐﯽ ﻫﺎ  ﻏﺬﺍﻫﺎﯾﯽ 
+ﺭﺍ ﭘﺨﺖ ﻭ ﺩﺭ ﺭﻭﺯ ﻫﺸﺘﻢ ﺍﺯ ﻣﺎﻩ ﭼﻬﺎﺭﻡ ﻗﻤﺮﯼ ﺁﻥ ﺭﺍ ﺑﺮﺍﯼ ﺑﺮﺍﺩﺭ ﺧﻮﺩ ﺑﺮﺩ. ﻭﯼ ﭘﺲ ﺍﺯ 
+ﺧﻮﺭﺩﻥ ﻏﺬﺍﻫﺎ, ﺷﺠﺎﻋﺖ ﻭ ﺩﻟﯿﺮﯼ ﺧﻮﺩ ﺭﺍ ﺑﺎﺯﯾﺎﻓﺖ .ﭘﺲ ﺍﺯ ﺁﻥ ﻓﻮﺭﺍ  ﺳﻼﺡ ﭘﻨﻬﺎﻥ ﺷﺪﻩ 
+ﺧﻮﺩ ﺭﺍ ﺑﯿﺮﻭﻥ ﺁﻭﺭﺩﻧﺪ ﻭ ﺑﺎ ﻫﻤﮑﺎﺭﯼ ﻣﺮﺩﻡ ﮐﻪ ﺩﺭ ﺧﺎﺭﺝ ﺍﺯ ﺯﻧﺪﺍﻥ ﺑﻮﺩﻧﺪ , ﺍﺯ ﺯﻧﺪﺍﻥ 
+ﻣﺘﻮﺍﺭﯼ ﻭ ﺷﻬﺮ ﻟﯿﻮﺟﺌﻮ ﺭﺍ ﺍﺷﻐﺎﻝ ﮐﺮﺩﻧﺪ ﻭ ﺍﺯ ﺍﯾﻦ ﭘﯿﺮﻭﺯﯼ ﺍﺣﺴﺎﺱ ﺷﺎﺩﻣﺎﻧﯽ  ﮐﺮﺩﻧﺪ . 
+ ﺍﺯ ﺍﯾﻦ ﺗﺎﺭﯾﺦ ﺑﻪ ﺑﻌﺪ , ﺯﻧﺎﻥ ﻣﻠﺖ ﺩﻭﻧﮓ ﻫﺮ ﺳﺎﻝ ﺩﺭ ﺍﯾﻦ ﺭﻭﺯ ﺑﺮﺍﯼ ﺟﺸﻦ ﭘﯿﺮﻭﺯﯼ
+ﺑﺮ ﻋﻠﯿﻪ ﺣﺎﮐﻤﺎﻥ ﻇﺎﻟﻢ ،  ﻏﺬﺍ ﭘﺨﺘﻪ ﻭ ﺑﻪ ﺧﻮﯾﺸﺎﻭﻧﺪﺍﻥ ﻭ ﺩﻭﺳﺘﺎﻥ ﺧﻮﺩ ﺗﻮﺯﯾﻊ ﻣﯽ ﮐﻨﻨﺪ ﺗﺎ 
+ﺩﺭﺍﯾﻦ ﭘﯿﺮﻭﺯﯼ ﻭ ﺷﺎﺩﯼ ﺷﺮﯾﮏ ﺑﺎﺷﻨﺪ.ﺍﺯ ﺍﯾﻦ ﺭﻭ  ﺍﯾﻦ ﺭﻭﺯ ﺭﺍ ﻋﯿﺪ ﺯﻧﺎﻥ ﻣﻠﺖ ﺩﻭﻧﮓ 
+ﻧﺎﻣﯿﺪﻩ ﺍﻧﺪ. 
+ (Mosuo) ﻋﯿﺪ ﺧﺪﺍﯼ ﺯﻥ ﺍﻫﺎﻟﯽ ﻣﻮﺳﻮﻭ
+ .( ﺭﺍ ﺗﺠﺴﻤﯽ ﺍﺯ ﺧﺪﺍﯼ ﺯﻥ ﺗﻠﻘﯽ ﻣﯽ ﮐﻨﻨﺪGemu) ﺍﻫﺎﻟﯽ ﻣﻮﺳﻮﻭ , ﮐﻮﻩ ﮔﻪ ﻣﻮ
+ ﺳﺎﻝ ﺳﺎﺑﻘﻪ ﺩﺍﺭﺩ . ﻫﺮ ﺳﺎﻝ ﺩﺭ ۱۰۰۰ ﻗﺮﺑﺎﻧﯽ ﮐﺮﺩﻥ ﺑﺮﺍﯼ ﺧﺪﺍﯼ ﮐﻮﻩ ﮔﻪ ﻣﻮ ﺑﯿﺶ ﺍﺯ
+ ﻗﻤﺮﯼ ﺍﻫﺎﻟﯽ ﻣﻮﺳﻮﻭ ﺩﺭ ﺭﺍﻩ ﺧﺪﺍﯼ ﺯﻥ ﻗﺮﺑﺎﻧﯽ ﮐﺮﺩﻩ ﻭ ﺁﻥ ﺭﻭﺯ ﺭﺍ ۷  ﻣﺎﻩ۲۵ ﺭﻭﺯ
+ﻋﯿﺪﯼ ﺑﺎﺷﮑﻮﻩ ﻣﯽ ﻧﺎﻣﻨﺪ.
+ ﺩﺭ ﺻﺒﺢ ﺍﻫﺎﻟﯽ ﻣﻮﺳﻮﻭ ﺧﻮﺩ ﺭﺍ ﺑﺮﺍﯼ ﻗﺮﺑﺎﻧﯽ ﺧﺪﺍﯼ ﺯﻥ ﺁﻣﺎﺩﻩ ﻣﯽ ﮐﻨﻨﺪ . ﻭﻗﺘﯿﮑﻪ
+ﺭﺍﻫﺒﺎﻥ  ﺳﻮﺍﺭ ﺑﺮﺍﺳﺐ ﺩﺭ ﺟﺎﺩﻩ ﻇﺎﻫﺮ ﻣﯽ ﺷﻮﻧﺪ , ﺍﻫﺎﻟﯽ ﻣﻮﺳﻮﻭ ﺑﺪﻧﺒﺎﻝ ﺁﻧﻬﺎ ﺑﻪ ﭘﺎﯼ 
+ﮐﻮﻩ ﻣﯽ ﺭﻭﻧﺪ . ﺗﻮﺩﻩ ﻫﺎﯼ ﻣﺮﺩﻡ ﻣﻮﺳﻮﻭ ﺩﺭ ﺻﺪﺍﯼ ﻗﺮﺍﺋﺖ ﮐﺘﺎﺏ ﺁﯾﯿﻦ  ﺑﻮﺩﺍﺋﯽ، ﺩﺭ 
+ﺟﻠﻮﯼ ﻗﺮﺑﺎﻧﮕﺎﻩ ﺳﺮ ﺑﻪ ﺯﻣﯿﻦ ﻧﻬﺎﺩﻩ ﻭ ﺩﺭ ﻣﻌﺒﺪ ﺧﺪﺍﯼ ﺯﻥ ﺑﺨﻮﺭ ﺳﻮﺯﺍﻧﺪﻩ ﻭ ﺍﺷﯿﺎﺀ ﻗﺮﺑﺎﻧﯽ 
+ﺭﺍ ﻫﺪﯾﻪ ﻣﯽ ﮐﻨﻨﺪ . ﺳﭙﺲ ﺁﻧﻬﺎ ﺭﻭﯼ ﺯﻣﯿﻦ , ﭼﻤﻦ ﺯﺍﺭ ﻧﺸﺴﺘﻪ ﻭ ﺁﺗﺶ ﺭﺍ ﺭﻭﺷﻦ ﻣﯽ ﮐﻨﻨﺪ 
+ﻭ ﭼﺎﯼ ﻭ ﻏﺬﺍ ﺭﺍ ﻣﻬﯿﺎ  ﻣﯽ ﮐﻨﻨﺪ . 
+ . " ﺭﻗﺺ ﺳﯿﻤﺮﻍ " ﺗﻮﺩﻩ ﻫﺎﯼ ﻣﺮﺩﻡ ﺭﺍ ﺑﻪ ﻣﺤﯿﻂ ﺷﺎﺩﯼ ﻭ ﺧﻮﺷﺤﺎﻟﯽ ﻣﯽ ﺑﺮﺩ
+ﺩﺧﺘﺮﺍﻥ ﻣﻮﺳﻮﻭ ﺑﺎ ﻟﺒﺎﺳﻬﺎﯼ ﺯﯾﺒﺎ ﻭ ﺑﺎ ﺩﺭﺩﺳﺖ ﺩﺍﺷﺘﻦ ﮔﻞ ﻫﺎ ﺩﺭ ﻣﯿﺎﻥ " ﺳﯿﻤﺮﻍ " ﻭ" 
+ﺷﯿﺮ" ﺭﻓﺖ ﻭ ﺁﻣﺪ ﻣﯽ ﮐﻨﻨﺪ .  ﻫﻨﮕﺎﻡ ﻏﺮﻭﺏ ﺁﻓﺘﺎﺏ ﭘﺴﺮﺍﻥ ﻭ ﺩﺧﺘﺮﺍﻥ ﺩﺳﺖ ﺑﻪ ﺩﺳﺖ 
+ﯾﮑﺪﯾﮕﺮﺩﺍﺩﻩ ﻭ ﺑﺎ ﺁﻭﺍﺯ ﺧﻮﺍﻧﯽ , ﺑﺎ ﺷﺎﺩﯼ ﻭ ﺧﻮﺷﺤﺎﻟﯽ ﺑﻪ ﺭﻗﺺ ﻣﺸﻐﻮﻝ ﻣﯽ ﺷﻮﻧﺪ  . 
+
+.ﺍﯾﻦ ﺭﻭﺯ ﺟﺸﻦ ﮐﺎﺭﻧﺎﻭﺍﻝ ﺯﻧﺎﻥ ﻭ ﻣﺮﺩﺍﻥ ﻣﻮﺳﻮﻭ ﺍﺳﺖ
+ (Nu) ﻋﯿﺪ ﺯﻥ ﺁﺳﻤﺎﻧﯽ ﻣﻠﺖ ﻧﻮ
+    ﻋﯿﺪ ﺯﻥ ﺁﺳﻤﺎﻧﯽ ﻋﯿﺪ ﺳﻨﺘﯽ ﻣﺮﺩﻡ ﻧﻮ ﺍﺳﺖ ﻭ ﺍﯾﻦ ﻋﯿﺪ ﻫﻢ ﺑﻪ ﻧﺎﻡ ﻋﯿﺪ ﮔﻞ ﺧﻮﺍﻧﺪﻩ
+       
+ﻣﯽ ﺷﻮﺩ ﻭ ﻣﺮﺩﻡ ﻫﺮ ﺳﺎﻝ ﺩﺭ ﺭﻭﺯ ﭘﺎﻧﺰﺩﻫﻢ ﺍﺯ ﻣﺎﻩ ﺳﻮﻡ ﻗﻤﺮﯼ ﺟﺸﻦ ﻣﯽ ﮔﯿﺮﻧﺪ.
+ﻣﻠﺖ ﻧﻮ ﺩﺭ ﺁﻥ ﺭﻭﺯ ﺑﻪ ﯾﮏ ﻏﺎﺭ ﻣﯽ ﺭﻭﻧﺪ ﺗﺎ ﮔﻠﻬﺎ ﺭﺍ ﺑﻪ ﺯﻥ ﺁﺳﻤﺎﻧﯽ ﺗﻘﺪﯾﻢ ﮐﻨﻨﺪ. ﺷﺎﯾﻊ 
+(  ﺳﯿﻢ ﻧﻘﺎﻟﻪ ﺍﯼ ﺭﺍ ﺭﻭﯼ ﺭﻭﺩﺧﺎﻧﻪ ﻧﻮ Arong) ﺑﻮﺩ ﮐﻪ ﯾﮏ ﺩﺧﺘﺮ ﺯﯾﺒﺎ ﺑﻨﺎﻡ ﺍﺭﻭﻧﮓ
+( ﺳﺎﺧﺘﻪ ﻭ ﺁﺏ ﺷﯿﺮﯾﻨﯽ ﺭﺍ ﺑﺮﺍﯼ ﻣﺮﺩﻡ ﺍﯾﻦ ﻧﺎﺣﯿﻪ  ﮐﺸﯿﺪ. ﺳﭙﺲ ﺍﻭ ﺑﺮﺍﯼ ﭘﺮﻫﯿﺰ ﺍﺯ Nu)
+ ﺍﺯﺩﻭﺍﺝ ﺑﺎ ﺳﺮﮐﺮﺩﻩ , ﻓﺮﺍﺭ ﮐﺮﺩ ﻭ ﺩﺭ ﻏﺎﺭﯼ ﭘﻨﻬﺎﻥ ﺷﺪ ﮐﻪ ﺳﭙﺲ ﺑﻪ ﯾﮏ ﻣﺠﺴﻤﻪ ﺳﻨﮕﯽ
+ﺗﺒﺪﯾﻞ ﺷﺪ . ﺍﯾﻦ ﺍﺗﻔﺎﻕ ﺩﺭ ﻫﻤﺎﻥ ﺭﻭﺯ ﭘﺎﻧﺰﺩﻫﻢ ﺍﺯ ﻣﺎﻩ ﺳﻮﻡ ﻗﻤﺮﯼ ﺍﻓﺘﺎﺩﻩ ﺍﺳﺖ  . ﻣﺮﺩﻡ 
+ﻣﻠﺖ ﻧﻮ ﺑﺮﺍﯼ ﯾﺎﺩﺑﻮﺩ ﺍﯾﻦ ﺩﺧﺘﺮ ﻋﺎﻗﻞ ﻭ ﺗﻮﺍﻧﺎ ﻭ ﻧﯿﺮﻭﻣﻨﺪ ﻫﺮﺳﺎﻝ ﺩﺭ ﺍﯾﻦ ﺭﻭﺯ ﺩﺭ ﺭﺍﻩ ﺍﻭ 
+ﺩﺭ ﺍﯾﻦ ﺭﻭﺯ, ﺯﻧﺎﻥ ﻭ ﻣﺮﺩﺍﻥ ﻭ ﭘﯿﺮﺍﻥ ﻭ ﮐﻮﺩﮐﺎﻥ ﻫﻤﻪ ﺑﻪ ﺍﯾﻦ ﻏﺎﺭ 
+ﻗﺮﺑﺎﻧﯽ ﻣﯽ ﮐﻨﻨﺪ . 
+ﺭﻓﺘﻪ ﻭ ﺑﻪ" ﺍﺳﺘﺎﻻﮐﺘﯿﺖ "ﮐﻪ ﻧﺸﺎﻧﻪ ﺯﻥ ﺁﺳﻤﺎﻧﯽ ﺍﺳﺖ , ﮔﻞ ﺗﻘﺪﯾﻢ ﻣﯽ ﮐﻨﻨﺪ ﻭ ﺳﻼﻣﺘﯽ ﻭ 
+ﺧﻮﺷﺒﺨﺘﯽ ﺭﺍ ﺑﺮﺍﯼ ﯾﮑﺪﯾﮕﺮ ﺁﺭﺯﻭ ﻣﯽ ﮐﻨﻨﺪ ﻭ ﺳﭙﺲ ﺑﻪ ﻧﻮﺷﯿﺪﻥ ﻭ ﺧﻮﺭﺩﻥ ﻭ ﺷﺎﺩﯼ ﻣﯽ 
+ﭘﺮﺩﺍﺯﻧﺪ . ﺩﺭ ﺭﻭﺯ ﺑﻌﺪ ﻧﻤﺎﯾﺶ ﻗﺎﯾﻖ ﺭﺍﻧﯽ ﻭ ﻣﺴﺎﺑﻘﻪ ﻫﺎﯼ ﺗﯿﺮﺍﻧﺪﺍﺯﯼ ﺑﺮﮔﺰﺍﺭ ﻣﯽ ﺷﻮﺩ. 
+ (Miao) ﻋﯿﺪ ﺧﻮﺍﻫﺮ ﻣﻠﺖ ﻣﯿﺎﺋﻮ
+  ﺭﻭﺯ ﻋﯿﺪ ﺧﻮﺍﻫﺮ , ﻋﯿﺪ ﺳﻨﺘﯽ۳ ﻫﺮ ﺳﺎﻝ ﺩﺭ ﺭﻭﺯ ﭘﺎﻧﺰﺩﻫﻢ ﺍﺯ ﻣﺎﻩ ﺳﻮﻡ ﻗﻤﺮﯼ ﺑﺮﺍﯼ
+( ﺍﺳﺘﺎﻥ ﮔﻮﯼ ﺟﺌﻮ ﺍﺳﺖ Ching shui) ﻣﻠﺖ ﻣﯿﺎﺋﻮ ﮐﻪ ﺩﺭ ﮐﻨﺎﺭ ﺭﻭﺩﺧﺎﻧﻪ ﭼﯿﻨﮓ ﺷﻮﯼ
+ﺑﺮﮔﺰﺍﺭ ﻣﯽ ﺷﻮﺩ. ﺍﮐﻨﻮﻥ ﺍﯾﻦ ﻋﯿﺪ  ﺗﻨﻬﺎ ﻋﯿﺪ ﺯﻧﺎﻥ ﻣﻠﺖ ﻣﯿﺎﺋﻮ ﻧﺒﻮﺩﻩ , ﺑﻠﮑﻪ ﻋﯿﺪ ﻣﺸﺘﺮﮎ 
+ﻣﻠﺖ ﻣﯿﺎﺋﻮ ﮐﻪ ﺩﺭ ﮐﻨﺎﺭ ﺭﻭﺧﺎﻧﻪ ﭼﯿﻨﮓ ﺷﻮﯼ ﺯﻧﺪﮔﯽ ﻣﯽ ﮐﻨﻨﺪ  ﻣﯽ ﺑﺎﺷﺪ. ﺩﺭ ﺭﻭﺯ ﻗﺒﻞ 
+ﺍﺯ ﻋﯿﺪ ﻫﺮﯾﮏ ﺍﺯ  ﺩﺧﺘﺮﺍﻥ ﻣﻠﺖ ﻣﯿﺎﺋﻮ ﺑﺎﯾﺪ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ ﺭﺍ ﺩﺭﺳﺖ ﮐﺮﺩﻩ ﻭ ﮔﻞ 
+ﻭﺣﺸﯽ ﻭ ﻣﯿﻮﻩ ﻭﺣﺸﯽ ﺭﺍ ﺍﺯ ﮐﻮﻩ ﻓﺮﺍﻫﻢ ﮐﻨﻨﺪ  . ﭘﺴﺮﯼ ﮐﻪ ﺍﺯ ﺭﺍﻩ  ﺩﻭﺭ ﺁﻣﺪﻩ ﺑﺎﯾﺪ ﺑﻪ 
+ﻫﻤﺮﺍﻩ ﺩﺧﺘﺮ ﺩﺭ ﺟﻤﻊ ﺁﻭﺭﯼ ﮔﻞ ﻭﺣﺸﯽ ﻭ ﻣﯿﻮﻩ ﻭﺣﺸﯽ ﺑﻪ ﻭﯼ  ﮐﻤﮏ ﮐﻨﺪ ﺗﺎ ﺑﺎ ﺍﯾﻦ 
+ﺑﻬﺎﻧﻪ ﺑﺎ ﻫﻢ ﺁﺷﻨﺎ ﺷﻮﻧﺪ . ﺑﺰﺭﮔﺘﺮﯾﻦ ﻭﯾﮋﮔﯽ ﻋﯿﺪ  ﺧﻮﺍﻫﺮ، ﺧﻮﺭﺩﻥ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ 
+ﺍﺳﺖ . ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ ﭘﺨﺘﻪ ﺷﺪﻩ ﭼﻨﯿﻦ ﺍﺳﺖ ﮐﻪ ﻭﯼ  ﮔﻞ ﻭ ﻣﯿﻮﻩ ﻭﺣﺸﯽ ﺭﺍ ﮐﻪ ﺍﺯ ﺭﻧﮓ 
+ﻫﺎﯼ ﻣﺨﺘﻠﻒ ﻣﯽ ﺑﺎﺷﺪ  ﺟﻤﻊ ﺁﻭﺭﯼ ﮐﺰﺩﻩ ﺩﺭ ﺩﺯﻭﻥ ﺁﺏ ﺭﯾﺨﺘﻪ ﺳﭙﺲ ﺑﺮﻧﺞ ﭼﺴﺒﻨﺎﮎ ﺭﺍ 
+ﺑﻮﺳﯿﻠﻪ ﺁﻧﻬﺎ ﺭﻧﮓ ﮐﺮﺩﻩ ﮐﻪ  ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ ﺑﻪ ﺭﻧﮓ  ﻗﺮﻣﺰ , ﺯﺭﺩ 
+ﻭ ... ﺗﺒﺪﯾﻞ ﺷﺪﻩ ﻭ  ﺭﻧﮓ ﻭ  ﺑﻮﯼ ﺧﻮﺑﯽ ﺧﻮﺍﻫﺪ ﺩﺍﺷﺖ .ﺩﺭ ﺭﻭﺯ ﻋﯿﺪ, ﺩﺧﺘﺮ ﻏﺬﺍﯼ  
+ﺧﻮﺍﻫﺮ ﺭﺍ ﺗﻮﯼ ﺩﺳﺘﻤﺎﻝ ﯾﺎ ﺳﺒﺪ ﮔﺬﺍﺷﺘﻪ ﻭ ﺑﻪ ﭘﺴﺮ ﻫﻤﺮﺍﻩ ﺧﻮﺩ ﻫﺪﯾﻪ ﻣﯽ ﺩﻫﺪ. ﺍﮔﺮ ﺩﻭ 
+ﭼﻮﺏ ﻗﺮﻣﺰ ﻏﺬﺍﺧﻮﺭﯼ ﺭﻭﯼ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ ﮔﺬﺍﺷﺘﻪ ﺷﺪﻩ , ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ ﮐﻪ ﺩﺧﺘﺮ ﭘﺴﺮ 
+ﺭﺍ ﺩﻭﺳﺖ ﺩﺍﺭﺩ ﻭ ﻣﯿﻞ ﺩﺍﺭﺩ ﺑﺎ ﺍﻭ ﺩﻭﺳﺖ ﺑﺎﺷﺪ. ﺍﮔﺮ ﻓﻠﻔﻞ ﻭ ﭘﯿﺎﺯ ﺭﻭﯼ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ 
+ﮔﺬﺍﺷﺘﻪ ﺷﻮﺩ , ﻧﺸﺎﻧﺪﻫﻨﺪﻩ ﺍﯾﻦ ﺍﺳﺖ ﮐﻪ ﺩﺧﺘﺮ ﺁﻥ ﭘﺴﺮ ﺭﺍ ﺩﻭﺳﺖ ﻧﺪﺍﺭﺩ . ﭘﺴﺮ ﺑﺎﯾﺪ ﺁﻥ 
+ﺩﺧﺘﺮ ﺭﺍ ﺗﺮﮎ ﮔﻔﺘﻪ ﻭ ﺑﻪ ﺩﻧﺒﺎﻝ ﻓﺮﺩ ﺩﯾﮕﺮﯼ ﺑﺎﺷﺪ . ﺍﮔﺮ ﺑﺮﮒ ﺩﺭﺧﺖ ﻭ ﺳﻮﺯﺍﻧﺪﻥ ﮐﺎﺝ 
+ﺭﻭﯼ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ ﮔﺬﺍﺷﺘﻪ ﺷﻮﺩ , ﻧﺸﺎﻥ ﻣﯽ ﺩﻫﺪ ﮐﻪ ﭘﺴﺮ ﻫﻤﭽﻨﺎﻥ ﺍﻣﯿﺪ ﻭﺍﺭ ﺑﺎﯾﺪ ﺑﺎﺷﺪ . 
+ﺩﺭ ﺍﯾﻦ ﺻﻮﺭﺕ , ﭘﺴﺮ ﺑﺎﯾﺪ ﺑﻪ ﺩﺧﺘﺮ ﻫﺪﯾﻪ ﺩﻫﺪ ﻭ ﺍﺭﺗﺒﺎﻁ ﺑﯿﺸﺘﺮﯼ ﺑﺎ ﻭﯼ ﺑﺮﻗﺮﺍﺭ ﮐﻨﺪ . 
+ﭘﺲ ﺍﺯ ﺧﻮﺩﺭﻥ ﻏﺬﺍﯼ ﺧﻮﺍﻫﺮ , ﺩﺧﺘﺮﺍﻥ ﺑﺎ ﭘﺴﺮﺍﻥ ﺑﺎ ﻫﻢ ﻧﻤﺎﯾﺶ ﮔﺎﻭﺑﺎﺯﯼ ﻭ ﺧﺮﻭﺱ 
+ﺑﺎﺯﯼ ﺭﺍ ﺗﻤﺎﺷﺎ    ﻣﯽ ﮐﻨﻨﺪ ﻭ ﺑﺎ ﻫﻢ ﺑﻪ ﺁﻭﺍﺯﺧﻮﺍﻧﯽ ﻭ ﺭﻗﺺ ﻣﯽ ﭘﺮﺩﺍﺯﻧﺪ . ﺍﺯ ﺍﯾﻦ 
+
+ . ﺟﻬﺖ ﺍﯾﻦ ﻋﯿﺪ ﯾﮑﯽ ﺍﺯ ﺍﻋﯿﺎﺩ  ﺷﺎﺩﯼ ﻭ ﺳﺮﻭﺭ ﺟﻮﺍﻧﺎﻥ ﻣﻠﺖ ﻣﯿﺎﺋﻮ ﻣﺤﺴﻮﺏ ﻣﯽ ﮔﺮﺩﺩ
+۲۰۰۹   ﻣﺎﺭﺱ۶ ﻣﻨﺒﻊ : ﺭﻭﺯﻧﺎﻣﻪ ﻫﺎﯼ ﭼﯿﻦ ﺭﻭﺯ
+
--- a/data_example/raw_date/12-5شخصیت
+++ b/data_example/raw_date/12-5شخصیت
--- a/data_example/raw_date/اعیاد
+++ b/data_example/raw_date/اعیاد
--- a/extract_doc_files.py
+++ b/extract_doc_files.py
@ -0,0 +1,298 @@
+import mammoth
+from pathlib import Path
+from bs4 import BeautifulSoup
+import json
+import re
+from datetime import datetime 
+
+ROOT_PATH = Path(__file__).parent
+DATA_DIR_PATH = ROOT_PATH / "data"
+CLEANED_DIR_PATH = ROOT_PATH / "cleaned_dir"
+
+
+
+def detect_headding(elem):
+    
+    if elem.name != "p":
+        return False
+    
+    strongs = elem.find_all(["strong", "b"])
+    if len(strongs) != 1:
+        return False
+    
+    strong_text = strongs[0].get_text(" ", strip=True)
+    full_text = elem.get_text(" ", strip=True)
+
+    return strong_text == full_text
+
+
+
+def get_element_metadata(elem):
+    metadata = {
+        "tag": elem.name,
+        "classes": elem.get("class", []),
+        "id": elem.get("id", "")
+    }
+
+    if detect_headding(elem):
+        metadata["content_type"] = "heading"
+
+    elif elem.name == "p" and not detect_headding(elem):
+        metadata["content_type"] = "paragraph"
+
+
+    return metadata
+
+
+def merge_consecutive_paragraphs(elements):
+
+    if not elements:
+        return []
+
+    
+    texts = [elem.get("text", "") for elem in elements if elem.get("text")]
+    if not texts:
+        return []
+
+    combined = "\n".join(texts)
+    merged = {
+        "text": combined,
+        "metadata": {"content_type": "merged_paragraph"},
+        "element_type": "content"
+    }
+    return [merged]
+
+
+def extract_book_structure(soup: BeautifulSoup, input_file: Path):
+    farsi_pattern = re.compile(r"[\u0600-\u06FF]+")
+    book_data = {
+        "document_info": {                # fixed spelling
+            "title": "",
+            "source_file": str(input_file),
+            "extraction_date": datetime.now().isoformat(),
+            "total_chapters": 0
+        },
+        "chapters": []
+    }
+
+    
+    all_elem = soup.find_all(['p'])
+
+    
+    filtered_elem = [
+        elem for elem in all_elem
+        if elem.get_text(strip=True) and farsi_pattern.search(elem.get_text(strip=True))
+    ]
+
+    current_chapter = None
+
+    for elem in filtered_elem:
+        text = elem.get_text(" ", strip=True)
+        metadata = get_element_metadata(elem)
+
+        # If this element is detected as heading -> start new chapter
+        if metadata.get("content_type") == "heading":
+            # finalize previous chapter (merge content) if exists
+            if current_chapter is not None:
+                # merge paragraph content (only if there are elements)
+                if current_chapter.get("chapter_content"):
+                    current_chapter["chapter_content"] = merge_consecutive_paragraphs(
+                        current_chapter["chapter_content"]
+                    )
+                book_data["chapters"].append(current_chapter)
+
+            # start a new chapter
+            current_chapter = {
+                "chapter_title": text,
+                "chapter_metadata": metadata,
+                "chapter_number": len(book_data["chapters"]) + 1,
+                "chapter_content": []
+            }
+            continue
+
+        # Otherwise it's a paragraph element
+        element_data = {
+            "text": text,
+            "metadata": metadata,
+            "element_type": "content"
+        }
+
+        # If we have a current chapter, append; else create an "Introduction" chapter
+        if current_chapter:
+            current_chapter["chapter_content"].append(element_data)
+        else:
+            # create a default intro chapter to hold leading paragraphs
+            current_chapter = {
+                "chapter_title": "Introduction",
+                "chapter_metadata": {"generated": True},
+                "chapter_number": len(book_data["chapters"]) + 1,
+                "chapter_content": [element_data]
+            }
+
+    if current_chapter is not None:
+        if current_chapter.get("chapter_content"):
+            current_chapter["chapter_content"] = merge_consecutive_paragraphs(
+                current_chapter["chapter_content"]
+            )
+        book_data["chapters"].append(current_chapter)
+
+    book_data["document_info"]["total_chapters"] = len(book_data["chapters"])
+    return book_data
+      
+
+def process_one_docx(input_file: Path, output_file: Path, verbose=False):
+    
+    try:
+        if verbose:
+            print(f"Processing file: {input_file}") 
+
+        with open(input_file, 'rb') as docx_file:
+            result = mammoth.convert_to_html(docx_file)
+            html = result.value
+            soup = BeautifulSoup(html, 'html.parser')
+
+        book_structure = extract_book_structure(soup, input_file)
+
+        if verbose:
+            print(f"Saving to output file: {output_file}")
+
+        with open(output_file, "w", encoding="utf-8") as out_file:
+            json.dump(book_structure, out_file, ensure_ascii=False, indent=2)
+
+        return True
+    
+    except FileNotFoundError as e:
+        raise FileNotFoundError(f"File not found - {e}")
+    except PermissionError as e:
+        raise PermissionError(f"Permission denied - {e}")
+    except UnicodeDecodeError as e:
+        raise UnicodeDecodeError(f"unable to decode file. Try a different encoding - {e}")
+    except Exception as e:
+        raise Exception(f"An exception error occurred - {e}")
+    
+
+        
+
+def process_all_files(raw_dir: Path, cleaned_dir: Path):
+    Path(cleaned_dir).mkdir(parents=True, exist_ok=True)
+
+    docx_files = [file for file in raw_dir.glob("*.docx")]
+
+    if not docx_files:
+        print(f"No .docx files found in directory: {raw_dir}")
+        return 0
+    
+    print(f"Found {len(docx_files)} .docx files in directory: {raw_dir}")
+
+    for docx_file in docx_files:
+        json_file = cleaned_dir / f"{docx_file.stem} extracted.json"
+
+        print(f"Converting {docx_file} to {json_file}")
+
+        process_one_docx(docx_file, json_file, verbose=True)
+
+    print(f"All done. Processed {len(docx_files)} .docx files.")
+
+if __name__ == "__main__":
+    process_all_files(DATA_DIR_PATH, CLEANED_DIR_PATH)
+
+
+
+# from docx import Document
+# from datetime import datetime
+# from pathlib import Path 
+# import re 
+# import json 
+
+
+
+# def process_single_docx(input_file: Path, output_file: Path, verbose=False):
+#     #  process a single docx file
+#     try:
+#         if verbose:
+#             print(f"Loading docx file: {input_file}")
+        
+#         doc = Document(input_file)
+
+
+#     except Exception as e:
+#         print(f"Error loading docx file {input_file}: {e}")
+
+# def show_docx_props(doc: Document):
+
+#     props = doc.core_properties
+
+#     print(props.author)
+#     print(props.title)
+#     print(props.created)
+#     print(props.last_modified_by)
+#     print(props.subject)
+#     print(props.keywords)
+
+# files = [file for file in Path(".").glob("*.docx")]
+# for file in files:
+#     doc = Document(file)
+    # print(file)
+    # print(f"Properties for file: {file}")
+    # show_docx_props(doc)
+    # print("-" * 40)
+
+    # for section in doc.sections:
+
+# for para in doc.paragraphs:
+#     print(para.text, para.style.name)
+#     for run in para.runs:
+#         data.append({
+#             "text": run.text,
+#             "bold": run.bold,
+#             "italic": run.italic,
+#             "under_line": run.underline
+#         })
+
+# print(data)
+
+
+# import mammoth
+# from pathlib import Path
+
+# files = [file for file in Path(".").glob("*.docx")]
+# for file in files:
+#     print(file)
+
+#     with open(file, "rb") as docx_file:
+#         result = mammoth.convert_to_html(docx_file)
+#         html = result.value
+    
+
+#     filepath = f"{file.stem}.html"
+#     with open(filepath, "w", encoding="utf-8") as html_file:
+#         html_file.write(html)
+
+
+# from docx import Document
+# import re
+# from pathlib import Path
+
+
+# def paragraph_with_styles(doc: Document):
+#     out = []
+#     for i, para in enumerate(doc.paragraphs):
+#         style = None
+
+#         style = para.style.name
+
+#         out.append({
+#             "index": i,
+#             "text": para.text,
+#             "style": style
+#         })
+
+#     return out
+
+# files = [file for file in Path(".").glob("*.docx")]
+# for file in files:
+#     doc = Document(file)
+    
+#     p = paragraph_with_styles(doc)
+#     for item in p:
+#         print(item["index"], item["style"], item["text"])
--- a/extract_pdf_files.py
+++ b/extract_pdf_files.py
@ -0,0 +1,155 @@
+from pathlib import Path
+from PyPDF2 import PdfReader
+import pymupdf as pm
+
+ROOT_PATH = Path(__file__).parent
+DATA_PATH = ROOT_PATH / "data"
+OUTPUT_PAHT = ROOT_PATH / "output"
+
+
+
+
+def pdf_is_readable(input_file):
+    reader = PdfReader(input_file)
+    for page in reader.pages:
+        text = page.extract_text()
+        if text and text.strip():
+            return True
+    return False
+
+
+# def read_pdf_file(input_file):
+    
+#     reader = PdfReader(input_file)
+#     pages = reader.pages
+#     print(len(pages), type(pages))
+#     page0 = pages[0] 
+#     text = page0.extract_text()
+#     print(text)
+    
+
+#     with open("output.txt", "w", encoding="utf-8") as file:
+#         file.write(text)
+
+def process_one_file(input_file):
+
+    if not pdf_is_readable(input_file):
+        return 
+    
+    docs = pm.open(input_file)
+
+    all_text = ""
+    for page in docs:
+        text = page.get_text("text")
+        all_text += text + "\n"
+
+    return all_text
+    
+
+
+def process_all_files(input_dir, output_dir: Path):
+    output_dir.mkdir(parents=True, exist_ok=True)
+
+    files = {}
+    for file in input_dir.iterdir():
+        ext = file.suffix.replace(".", "")
+
+        if ext not in files:
+            files[ext] = []
+
+        files[ext].append(file)
+
+    
+    for file in files["pdf"]:
+        file_text = process_one_file(file)
+        
+        output_file = output_dir / f"{file.stem} extracted.txt"
+
+        with open(output_file, "w", encoding="utf-8") as file:
+            file.write(file_text)
+
+
+# src = pm.open("ocr_needed_sample.pdf")
+# res = pm.open()
+
+# for page in src:
+#     pix = page.get_pixmap()
+#     pdfbytes = pix.pdfocr_tobytes(language="eng")
+#     imgpdf = pm.open("pdf", pdfbytes)
+#     res.insert_pdf(imgpdf)
+    
+# res.save("exported-document.pdf")
+
+
+
+process_all_files(DATA_PATH, OUTPUT_PAHT)
+
+
+
+
+
+# file = files["pdf"][7]
+# if not pdf_is_readable(file):
+#     print("file is not readable")
+# # print(pdf_is_readable("ocr_needed_sample.pdf"))
+# print(file)
+# # read_pdf_file(file)
+# all_text = ""
+# doc = pm.open(file)
+# all_text = ""
+# for page in doc:
+#     for block in page.get_text("dict")["blocks"]:
+#         print(block)
+#         print()
+#         print()
+
+# # for page in doc:
+# #     text = page.get_text("text")
+# #     all_text += text + "\n"
+# # with open("output.txt", "w", encoding="utf-8") as file:
+# #     file.writelines(all_text)
+
+# all_spans = []
+
+# for page in doc:
+    
+#     spans = [
+#     {
+#         "text": span["text"],
+#         "flags": span["flags"],
+#         "page": page.number + 1
+#     }
+#     for block in page.get_text("dict")["blocks"] if block.get("")
+#     for line in block["lines"]
+#     for span in line["spans"]
+#     ]
+
+#     all_spans.extend(spans)
+
+# for s in all_spans:
+#     if s["flags"] > 4:
+#         print(s)
+    
+
+
+
+# with open("output.txt", "w", encoding="utf-8") as file:
+#     file.writelines(all_text)
+
+# blocks = page.get_text("blocks")  # for larger text blocks
+
+# texts = []
+# # Extract detailed info with font
+# for block in page.get_text("dict")["blocks"]:
+#     for line in block.get("lines", []):
+#         for span in line["spans"]:
+#             text = span["text"]
+#             font = span["font"]       # font name
+#             size = span["size"]       # font size
+#             flags = span["flags"]
+#             texts.append({
+#                 "text": text, "font": font, "size": size, "flags": flags
+#             })             
+
+# for elem in texts:
+#     print(elem)