中國(guó)核工業(yè)二三建設(shè)有限公司待遇優(yōu)化網(wǎng)站標(biāo)題名詞解釋
在文本處理中,經(jīng)常會(huì)碰到含有特殊字符的字符串。
比如用戶昵稱,
小紅書(shū)文案,等等 都包含了大量表情特殊字符。
這些特殊字符串在ETL處理過(guò)程中,經(jīng)常會(huì)引起程序報(bào)錯(cuò),導(dǎo)致致命錯(cuò)誤,程序崩潰;或者導(dǎo)致數(shù)據(jù)不準(zhǔn)確。
所以ETL中首先要清洗處理掉這些特殊字符。
使用正則表達(dá)式 能起到很好的效果
[a-zA-Z0-9\u4e00-\u9fa5]+提取英文字符:[a-zA-Z]+提取數(shù)字:[0-9]+提取中文:[\u4e00-\u9fa5]+(?!_) 不能以_開(kāi)頭(?!.*?_$) 不能以_結(jié)尾