如何用正則表示式提取字串中的漢字？

首頁>Club>2021-01-30 04:00

回覆列表

1 # 使用者5103417388986

Python re正則匹配中文，其實非常簡單，把中文的unicode字串轉換成utf-8格式就可以了，然後可以在re中隨意呼叫unicode中中文的編碼為/u4e00-/u9fa5，因此正則表示式u”[\u4e00-\u9fa5]+”可以表示一個或者多箇中文字元>>> import re>>> s="中文：123456aa哈哈哈bbcc".decode("utf8")>>> su"\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc">>> print s中文：123456aa哈哈哈bbcc>>> re.match(u"[\u4e00-\u9fa5]+",s)<_sre.SRE_Match object at 0xb77742c0>>>> pat="中文".decode("utf8")>>> re.search(pat,s)<_sre.SRE_Match object at 0x16a16df0>>>> newpat="這裡是中文內容".decode("utf8")>>> news=re.sub(pat,newpat,s)>>> print news這裡是中文內容：123456aa哈哈哈bbcc