去除中文

import re
p1=’test 这段 文字需要 过滤’

linee=re.sub(‘[\u4e00-\u9fa5]’, ”, p1)

print(linee)

去除标点

simple_punctuation = ‘[’!”#$%&\'()*+,-/:;<=>?@[\\]^_`{|}~,。,]’
line = re.sub(simple_punctuation, ”, linee)

去除数字

re.sub(“[0-9]”, ” “, line)