mirror of
https://github.com/k2-fsa/icefall.git
synced 2025-08-26 10:16:14 +00:00
Update preprocess_commonvoice.py
This commit is contained in:
parent
d9a0ab59db
commit
6993183dd7
@ -56,48 +56,16 @@ def normalize_text(utt: str, language: str) -> str:
|
||||
# Mozilla Common Voice uses both "yue" and "zh-HK" for Cantonese
|
||||
# Not sure why they decided to do this...
|
||||
# None en/zh-yue tokens are manually removed here
|
||||
return (
|
||||
utt.replace(",", "")
|
||||
.replace("。", " ")
|
||||
.replace("?", "")
|
||||
.replace("!", "")
|
||||
.replace("?", "")
|
||||
.replace("!", "")
|
||||
.replace("‘", "")
|
||||
.replace("、", "")
|
||||
.replace(",", "")
|
||||
.replace(".", "")
|
||||
.replace(":", "")
|
||||
.replace(";", "")
|
||||
.replace("「", "")
|
||||
.replace("」", "")
|
||||
.replace("“", "")
|
||||
.replace("”", "")
|
||||
.replace("\\", "")
|
||||
.replace("~", "")
|
||||
.replace("—", "")
|
||||
.replace("ㄧ", "")
|
||||
.replace("《", "")
|
||||
.replace("》", "")
|
||||
.replace("…", "")
|
||||
.replace("⋯", "")
|
||||
.replace("·", "")
|
||||
.replace("﹒", "")
|
||||
.replace(".", "")
|
||||
.replace(":", "")
|
||||
.replace("︰", "")
|
||||
.replace("﹖", "")
|
||||
.replace("(", "")
|
||||
.replace(")", "")
|
||||
.replace("-", "")
|
||||
.replace("~", "")
|
||||
.replace(";", "")
|
||||
.replace("", "")
|
||||
.replace("﹔", "")
|
||||
.replace("/", "")
|
||||
.replace("A", "")
|
||||
.replace("B", "")
|
||||
.upper()
|
||||
|
||||
# fmt: off
|
||||
tokens_to_remove = [",", "。", "?", "!", "?", "!", "‘", "、", ",", "\.", ":", ";", "「", "」", "“", "”", "~", "—", "ㄧ", "《", "》", "…", "⋯", "·", "﹒", ".", ":", "︰", "﹖", "(", ")", "-", "~", ";", "", "⠀", "﹔", "/", "A", "B", "–", "‧"]
|
||||
|
||||
# fmt: on
|
||||
utt = utt.upper().replace("\\", "")
|
||||
return re.sub(
|
||||
pattern="|".join([f"[{token}]" for token in tokens_to_remove]),
|
||||
repl="",
|
||||
string=utt,
|
||||
)
|
||||
else:
|
||||
raise NotImplementedError(
|
||||
|
Loading…
x
Reference in New Issue
Block a user