mirror of
https://github.com/k2-fsa/icefall.git
synced 2025-08-26 18:24:18 +00:00
Update preprocess_commonvoice.py
This commit is contained in:
parent
a39aa8a59d
commit
09a358a23e
@ -56,8 +56,7 @@ def normalize_text(utt: str, language: str) -> str:
|
|||||||
# Mozilla Common Voice uses both "yue" and "zh-HK" for Cantonese
|
# Mozilla Common Voice uses both "yue" and "zh-HK" for Cantonese
|
||||||
# Not sure why they decided to do this...
|
# Not sure why they decided to do this...
|
||||||
return (
|
return (
|
||||||
utt.replace(" ", "")
|
utt.replace(",", "")
|
||||||
.replace(",", "")
|
|
||||||
.replace("。", " ")
|
.replace("。", " ")
|
||||||
.replace("?", "")
|
.replace("?", "")
|
||||||
.replace("!", "")
|
.replace("!", "")
|
||||||
@ -65,6 +64,22 @@ def normalize_text(utt: str, language: str) -> str:
|
|||||||
.replace("!", "")
|
.replace("!", "")
|
||||||
.replace("‘", "")
|
.replace("‘", "")
|
||||||
.replace("、", "")
|
.replace("、", "")
|
||||||
|
.replace(",", "")
|
||||||
|
.replace(".", "")
|
||||||
|
.replace(":", "")
|
||||||
|
.replace(";", "")
|
||||||
|
.replace("「", "")
|
||||||
|
.replace("」", "")
|
||||||
|
.replace("“", "")
|
||||||
|
.replace("”", "")
|
||||||
|
.replace("\\", "")
|
||||||
|
.replace("~", "")
|
||||||
|
.replace("—", "")
|
||||||
|
.replace("ㄧ", "")
|
||||||
|
.replace("《", "")
|
||||||
|
.replace("》", "")
|
||||||
|
.replace("…", "")
|
||||||
|
.replace("⋯", "")
|
||||||
.upper()
|
.upper()
|
||||||
)
|
)
|
||||||
else:
|
else:
|
||||||
|
Loading…
x
Reference in New Issue
Block a user