-
1 # 52sissi
-
2 # 風吹語落
以我自己的經驗來講,我是透過以下過程學會的:
加正則表示式對應的QQ群。理由是裡面有很多人會問相關的問題,在別人問問題的時候,已經會的人會進行解答,在別人的解答中,你可以學到分析問題的過程。等你有一定基礎了,也可以嘗試處理別人提出的問題,然後讓群裡面的大佬給你指出可以最佳化的地方,慢慢的你就會得到提高。寫部落格。寫文章是檢測自己對知識掌握情況最好的手段,因為在寫的過程中,也是一種對知識的梳理和總結的過程。利用工具多實踐。也就是理論結合實際,比如可以在這個網站https://hiregex.com/上面進行驗證,可以實時可看正則匹配文字的情況。另一個工具就是大名鼎鼎的RegexBuddy了,是一個付費的軟體,但是網上可以找到對應的破解版本,很是強大。 -
3 # 路人甲
如果你不覺得正則表示式很難讀寫的話,要麼你是一個天才,要麼,你不是地球人。正則表示式的語法很令人頭疼,即使對經常使用它的人來說也是如此,包括我。
因為正則表示式也是我寫Python爬蟲的一大利器。再大再亂的內容,哪怕是大海撈針,只要告訴我這個針的樣子我都能從茫茫大海中撈出來。
至於我是怎麼學會的,當然是從一開始的刷題,到後面不斷的實戰練習練習練習!
我要做的就是給你們推薦幾個學習正則表示式的利器和網站,剩下的還是靠你們自己去完成。
第一:如果你還不知道正則表示式是什麼,但是卻要使用它的話。從這裡可以快速入門。
正則表示式30分鐘入門教程(http://www.cnblogs.com/hustskyking/archive/2013/06/04/RegExp.html)正則表示式進階(http://div.io/topic/764?page=1)第二:正則表示式的相關語法,這是一張正則的語法圖,可用於快速查詢。不用熟記,要用的時候會檢視的懂就行了。
第三:當然,用工具寫更快捷。由於正則表示式難於讀寫,容易出錯,所以我們最好一種工具線上對正則表示式進行測試。
1.Regexr
(https://regexr.com/)
2.Regx101
(https://regex101.com/
支援多種語言, prec,php,javascript,python,golang介面美觀大方支援錯誤提示,實時匹配3. Regulex
(https://jex.im/regulex/)
實時根據正則表示式繪圖頁面載入速度快第四:刷題,HackerRank上有一系列正則表示式的題。不用做很多,只要做幾個。做完以後應該就已經掌握正則表示式的用法了。
(https://www.hackerrank.com/domains/regex/re-introduction)
還是我說的,一步一步來,不要想一步登天。程式設計師本來就是一個需要不斷學習鍛鍊的職業,如果對基本概念都沒有了解就開始刷題,寫程式碼的的話,只會讓自己的程式碼更復雜。怎麼才算紮實,比如:從一個很典型的例子,去除字串首尾的空白,嘗試用5-10種不同的正則去測試,並思考哪些方式的效率最高,為什麼?記住每個程式設計師都是這樣一步步的實現一遍又一遍才能真正掌握正則的,包括那些大牛亦是如此。
-
4 # 搬磚程式設計師
正則這東西,非常反人類,但也是的確有用,學python的學完了beautifulsoup之後一般就把正則給忘了。
對於我來說,最開始是看影片,用到了正則,然後那時只會一個.*?,也基本上能解決絕大部分問題了。
但是後面在web裡面用到,進行匹配的時候,系統去學習了一下。有個大概印象。
然後後來在專案裡面遇到,也就看看百度,翻翻筆記,就記住了。
-
5 # 堡壘手機定位
樓主,你好。其實我覺得正則表示式的學習過程並不是很難,但是因為需要記住的東西有點多,所以需要用例項程式碼去加深自己的記憶,我可能只是簡單的寫一些例子,這是遠遠不夠的,因為這個只是自己在剛剛學完的一點小小的總結,如果有人看到的話,希望自己可以多寫寫!
首先,在我寫學習記錄的時候,剛剛好一天碰到幾次關於"/"與"\"寫錯了的事情,其實在正則表示式之中這個問題好像更加明顯了,去看別人的部落格,對它的解釋也是蠻多的,覺得有用的一句話是“ "/" 分隔符,"\" 跳脫字元 ”,而且顯示生活中"/"用得比較多,具體更多用法的可以看(路徑中 斜槓/和反斜槓\ 的區別)總結得還是比較全面的。(我經常寫錯,如果下面有些感覺這兩個符號我寫串了,沒錯,一定是我寫錯了,不過這裡我已經反覆確認過紅色字型沒有錯誤了!)
正則表示式的寫法是/…………/,中間是具體去匹配的內容
-
6 # wang助人為樂
應該是透過理論性的學習加上實踐的感悟和總結而得,掌握辨清事非,對與錯,白與黑的能力,在表達時因人因事就會由感而發。
-
7 # 人民郵電出版社
正則表示式(regular expression,簡稱RegEx或regex)和正則表示式語言已經出現很多年了。但很多人並沒有完全理解整理正則表示式的用途以及它能解決什麼樣的問題,還有很多人覺得正則表示式的語法不直觀,有時候甚至難以理解。
事實上,正則表示式其實遠沒有第一眼看上去那麼複雜,理解了下面幾個問題,學會正則表示式並不困難。
1.正則表示式是什麼?簡單地說,正則表示式是一些用來匹配和處理文字的字串,是文字處理方面功能最強大的工具之一。正則表示式語言用來構造正則表示式(最終構造出來的字串就稱為正則表示式),正則表示式用來完成搜尋和替換操作。
與其他程式設計語言一樣,正則表示式語言也有必須要學習的特殊語法和指令。但正則表示式語言並不是一種完備的程式設計語言,更準確地說,正則表示式語言是內置於其他語言或軟體產品裡的“迷你”語言。正則表示式既不是可以直接執行的應用程式,也不是可以從哪裡購買或下載下來的軟體。在絕大多數的軟體產品、程式語言、實用工具和開發環境裡,正則表示式語言都已被實現。
2.正則表示式是用來幹什麼的?正則表示式是用來完成搜尋和替換操作的。
請考慮以下幾個場景:
你正在搜尋一個檔案,這個檔案裡包含單詞car(不區分字母大小寫),但你並不想把包含字串car的其他單詞(比如scar、carry和incarcerate)也找出來。你需要在檔案裡搜尋某個特定的文字,但你只想把出現在特定位置(比如每行的開頭或是每條語句的結尾)的文字找出來。你正在編輯一段原始碼並且要把所有的size都替換為isize,但這種替換僅限於單詞size本身,並不涉及那些包含字串size的其他單詞。你編輯了一段包含電子郵件地址的文字。現在,你想把文本里的電子郵件地址全都轉換為可點選的連結。以上場景是大家在編寫程式時經常會遇到的問題,用任何一種條件處理和字串操作的程式語言都可以解決,但問題是這種解決方案會變得十分複雜。比較容易想到的辦法是,用一些迴圈來一次遍歷那些單詞並在迴圈體裡面用一系列if語句來進行測試,這往往意味著你需要使用大量的標誌來記錄已經找到了什麼、還沒有找到什麼,另外少不了要檢查空白字元和特殊字元,等等。而這一切都需要一遍又一遍地以手工方式進行。
另一種解決方案則是使用正則表示式,避開繁瑣的手工步驟,讓搜尋和替換變得無比簡單。
3.正則表示式怎麼學?和學習程式語言一樣,動手實踐是學習正則表示式的一種非常有效的方式。透過分析下面幾個小案例,你會發現正則表示式其實很簡單:
搜尋單詞car:我們要把car、CAR、Car和CaR都找出來,並且確保scar、carry和incarcerate之類的單詞不會被匹配到。一些比較高階的編輯器提供了“僅匹配整個單詞”選項,但還有很多編輯器並不具備這一功能,而我們往往無法在正在編輯的文件裡做出這種調整。使用正則表示式進行搜尋就可以解決這個問題:
\b表示單詞邊界,[Cc]表示C或c中的任何一個,[Aa]與[Rr]同理,這樣一個簡單的正則表示式語句就解決了單詞搜尋的問題。
匹配URLhttps?: \ / \ / 匹配http:// 或 https:// (?使得字元s成為可選項)。[ - \ w . ] +匹配主機名。( : \ d + ) ? 匹配一個可選的埠號。 ( \ / ( [ \ w \ / _ . ] * ) ? ) ?匹配路徑:外層的子表示式匹配 /(如果存在的話),內層的子表示式匹配路徑本身。這個模式雖然無法處理查詢字串,也不能正確解讀嵌在URL之中的“username:password”(使用者名稱:密碼)。不過,它已經足以處理絕大多數的URL了(匹配主機名、埠號和路徑)。
上面兩個正則表示式都是用來搜尋的,而正則表示式的真正威力體現在替換操作方面:
絕大多數應用程式的“搜尋和替換”選項都可以實現這種替換操作,但使用正則表示式來完成這個任務將簡單得讓人難以置信。
以上幾個案例的原理分析和執行程式碼分別出自這本《正則表示式必知必會(修訂版)》以及配套網頁BEN FORTA。
讓很多人覺得正則表示式很難的原因之一是缺乏相關的優質資源。一些正則表示式方面的書,以及包含正則表示式教程的大部分Web站點,往往過於偏重語法,只是在講 { 是幹什麼的,+ 與 * 之間有什麼區別。這些東西都不難,真正棘手的地方在於弄明白,該如何運用正則表示式去解決實際問題。
如果你想全面地學習、精通正則表示式,Jeffrey Friedl先生的《精通正則表示式(第3版)》絕對是這方面權威又全面的著作,可以說是一本正則表示式大全。不過,如果你是一位初學者,想盡快上手正則表示式,還是建議題主利用這本《正則表示式必知必會(修訂版)》,由淺入深地學習,並將學到的東西立刻運用於實踐,解決實際問題。
這本書從簡單的文字匹配開始,循序漸進地介紹了很多複雜內容,包括反向引用、條件評估、環視等。每章都配有許多簡明實用的示例,有助於全面、系統、快速掌握正則表示式,並運用它們解決實際問題。配套網頁提供的線上測試工具“regular expression 101”讓你既能動手編寫正則表示式,還能快速查閱線上資料,這些線上工具是測試正則表示式的最簡單的方法。
回覆列表
全力以赴地進入資料集是從事資料科學工作的任何人的使命之一。通常,這意味著要進行數字運算,但是當我們的資料集主要基於文字時,我們該怎麼辦?我們可以使用正則表示式。在本教程中,我們將仔細研究如何在Python中使用正則表示式(regex)。
正則表示式(regex)本質上是文字模式,可用於自動搜尋和替換文字字串中的元素。這可以使清理和使用基於文字的資料集變得更加容易,從而省去了手動搜尋大量文字的麻煩。
正則表示式可以在多種程式語言中使用,並且已經存在很長時間了!
不過,在本教程中,我們將學習Python中的正則表示式,因此需要基本熟悉關鍵的Python概念,例如if-else語句,while和for迴圈等。在本教程結束時,您將熟悉Python regex的工作原理,並能夠使用Python regex模組中的基本模式和功能re來分析文字字串。您還將獲得有關正則表示式如何與熊貓配合使用以處理大型文字語料庫的介紹。
讓我們深入研究有關每個人最不喜歡的電子郵件型別的一些資料:垃圾郵件和欺詐。
我們的任務:分析垃圾郵件
在本教程中,我們將使用Kaggle的欺詐電子郵件語料庫。它包含1998年至2007年之間傳送的數千種網路釣魚電子郵件。它們非常有趣,易於閱讀。
您可以在這裡找到完整的語料庫。但是,我們將從使用一些電子郵件學習基本的正則表示式命令開始。如果需要,您也可以使用我們的測試檔案,也可以在完整的語料庫中嘗試使用。
介紹Python的Regex模組
首先,我們將透過開啟測試檔案,將其設定為只讀並讀取來準備資料集。我們還將其分配給變數fh(用於“檔案控制代碼”)。
請注意,我們在目錄路徑之前加r。此技術將字串轉換為原始字串,這有助於避免某些機器讀取字元的方式引起的衝突,例如Windows上目錄路徑中的反斜槓。
但這並沒有給我們確切的需求。如果您看一下我們的測試檔案,我們可以找出原因並修復它,但是,讓我們使用Python的re模組並使用正則表示式來做吧!
我們將從匯入Python的re模組開始。然後,我們將使用一個名為的函式re.findall(),該函式返回在正在檢視的字串中定義的模式的所有例項的列表。
外觀如下:
這與原始Python的長度基本相同,但這是因為這是一個非常簡單的示例。您嘗試做的越多,Python正則表示式就可以為您節省更多的精力。
在繼續之前,讓我們仔細看看re.findall()。此函式採用形式為的兩個引數re.findall(pattern, string)。在這裡,pattern代表我們要查詢的子字串,並string代表我們要在其中查詢的主字串。主字串可以包含多行。在這種情況下,我們讓它fh使用選定的電子郵件來搜尋所有檔案。
該.*是一個字串模式的簡寫。正則表示式透過使用這些速記模式來查詢文字中的特定模式而起作用,因此讓我們看一下其他一些常見示例:
常見的Python正則表示式模式
我們re.findall()上面使用的模式包含一個完整拼寫的字串"From:"。當我們確切地知道我們要查詢的內容(精確到實際字母以及它們是否為大寫或小寫)時,這很有用。如果我們不知道我們想要的字串的確切格式,我們將會迷路。幸運的是,正則表示式具有解決此情況的基本模式。讓我們看看在本教程中使用的那些:
1)w匹配字母數字字元,表示az,AZ和0-9。它還與下劃線_和破折號-相匹配。
2)d 匹配數字,表示0-9。
3)s 匹配空白字元,包括製表符,換行符,回車符和空格字元。
4)S 匹配非空格字元。
5).匹配除換行符外的任何字元n。
掌握了這些正則表示式模式後,您將在繼續進行解釋的同時快速理解上面的程式碼。
使用正則表示式模式
現在,我們可以.*在re.findall("From:.*", text)上面的行中解釋的用法。讓我們.先來看:
透過在.旁邊新增一個From:,我們可以在其旁邊查詢另一個字元。因為.查詢除以外的任何字元n,所以它捕獲了我們看不到的空格字元。我們可以嘗試更多的點來驗證這一點。
看起來加點確實為我們獲得了線的其餘部分。但是,這很繁瑣,而且我們不知道要新增多少點。這是星號符號*出現的位置。
*匹配模式左側的零個或多個例項。這意味著它將尋找重複模式。當我們尋找重複的模式時,我們說搜尋是“貪婪的”。如果我們不尋找重複的模式,則可以將搜尋稱為“非貪婪”或“懶惰”。
讓我們構建一個貪婪的搜尋.用*。
因為*匹配在其左側指示的模式的零個或多個例項,並且.位於此處的左側,所以我們能夠獲取From:欄位中的所有字元,直到行尾。這將用精美簡潔的程式碼打印出整行。
我們甚至可以更進一步,僅隔離名稱。讓我們使用它re.findall()來返回包含模式的行列表,"From:.*"就像之前一樣。match為了整潔,我們將其分配給變數。接下來,我們將遍歷列表。在每個迴圈中,我們將re.findall再次執行,匹配第一個引號以僅選擇名稱:
注意,我們在第一個引號旁邊使用了反斜槓。反斜槓是一個特殊字元,用於轉義其他特殊字元。例如,當我們想將引號用作字串文字而不是特殊字元時,可以使用反斜槓將其轉義,例如:\"。如果我們不使用反斜槓轉義上面的模式,它將變為"".*"",Python直譯器將其讀取為兩個空字串之間的句點和星號。它將產生錯誤並破壞指令碼。因此,至關重要的是我們在這裡用反斜槓將引號引起來。
匹配第一個引號後,.*獲取行中的所有字元,直到下一個引號也被轉義為模式。這使我們得到的名稱只是帶引號的名稱。該名稱也列印在方括號中,因為re.findall返回的匹配項在列表中。
如果我們想要電子郵件地址怎麼辦?
看起來很簡單,不是嗎?僅模式不同。讓我們來看一看。
這是我們僅匹配電子郵件地址的前部分的方式:
電子郵件總是包含一個@符號,因此我們從它開始。電子郵件中@符號前的部分可能包含字母數字字元,這w是必需的。但是,由於某些電子郵件包含句點或破折號,所以這還不夠。我們新增S以查詢非空白字元。但是,w\S只會得到兩個字元。新增*以查詢重複。因此,模式的前部如下所示:\w\S*@。
現在檢視@符號後面的模式:
域名通常包含字母數字字元,句點和短劃線,因此a .可以。為了使它更貪婪,我們使用擴充套件了搜尋範圍*。這使我們可以匹配任何字元,直到行尾。
如果我們仔細觀察這條線,會發現每封電子郵件都封裝在尖括號<和>中。我們的模式.*包括右括號>。讓我們對其進行補救:
電子郵件地址以字母數字字元結尾,因此我們將模式設定為w。因此,在@符號後面有.*\w,這表示我們想要的模式是一組以字母數字字元結尾的任何型別的字元。不包括>。
因此,我們的完整電子郵件地址格式如下所示:\w\S*@.*\w。
!這需要花費很多時間。接下來,我們將介紹一些通用re功能,這些功能在開始重新組織語料庫時將非常有用。
常用的Python正則表示式函式
re.findall()無疑是有用的,但它不是我們可以使用的唯一內建函式re:
1)re.search()
2)re.split()
3)re.sub()
在使用它們為我們的資料集新增一些順序之前,讓我們一一看一下。
研究()
While re.findall()匹配字串中某個模式的所有例項並在列表中返回它們,re.search()匹配字串中一個模式的第一個例項,並將其作為re匹配物件返回。
像一樣re.findall(),re.search()也有兩個引數。第一個是要匹配的模式,第二個是要在其中找到模式的字串。在這裡,我們將結果分配給match變數以保持整潔。
由於re.search()返回re匹配物件,因此無法透過直接列印來顯示名稱和電子郵件地址。相反,我們必須首先對該group()函式應用該函式。我們已經在上面的程式碼中列印了這兩種型別。如我們所見,group()將match物件轉換為字串。
我們還可以看到,列印match顯示的屬性超出字串本身,而列印match.group()僅顯示字串。
re.split()
假設我們需要一種快速的方法來獲取電子郵件地址的域名。我們可以透過三個正則表示式操作來做到這一點,如下所示:
第一行很熟悉。我們返回一個字串列表,每個字串包含From:欄位的內容,並將其分配給變數。接下來,我們遍歷列表以查詢電子郵件地址。同時,我們迴圈訪問電子郵件地址,並使用該re模組的split()功能將每個地址切成兩半,用@符號作為分隔符。最後,我們列印它。
re.sub()
另一個方便的re功能是re.sub()。就像函式名稱所暗示的那樣,它替換字串的一部分。一個例子:
我們之前已經在第一行和第二行看到了任務。在第三行,我們re.sub()在上應用address,這是From:電子郵件標題中的完整欄位。
re.sub()需要三個引數。第一個是要替換的子字串,第二個是我們要替換的字串,第三個是主字串本身。
正則表示式與pandas
現在,我們掌握了Python正則表示式的基礎知識。但是通常對於資料任務,我們實際上並沒有使用原始的Python,而是使用了pandas庫。現在,將我們的正則表示式技能帶入熊貓工作流程,將其提升到一個新的水平。
如果您以前從未使用過熊貓,請不要擔心。我們將逐步遍歷程式碼,以免您迷路。但是,如果您想更詳細地瞭解熊貓,請檢視我們的熊貓教程或我們提供的有關numpy和熊貓的完全互動式課程。
使用Python Regex和Pandas對電子郵件進行排序
我們的語料庫是一個包含數千封電子郵件的單個文字檔案(不過,同樣,在本教程中,我們使用的是一個只有兩個電子郵件的較小檔案,因為在整個語料庫上列印正則表示式工作的結果會使這篇文章過長)。
我們將使用正則表示式和熊貓將每封電子郵件的各個部分分類為適當的類別,以便可以更輕鬆地閱讀或分析語料庫。
我們將每封電子郵件分為以下類別:
1)sender_name
2)sender_address
3)recipient_address
4)recipient_name
5)date_sent
6)subject
7)email_body
這些類別中的每一個都將成為我們的熊貓資料框(即我們的表格)中的一列。這將使我們更輕鬆地分別處理和分析每個列。
我們將繼續處理我們的小樣本,但是值得重申的是,正則表示式使我們可以編寫更簡潔的程式碼。簡潔的程式碼減少了我們的機器必須執行的運算元量,從而加快了我們的分析過程。使用我們的兩封電子郵件的小檔案,並沒有太大的區別,但是,如果您嘗試使用和不使用正則表示式來處理整個語料庫,您將開始看到其優勢!
準備指令碼
首先,讓我們匯入所需的庫,然後再次開啟檔案。
除了re和之外pandas,我們email還將匯入Python的軟體包,這將有助於電子郵件的正文。僅使用正則表示式時,電子郵件的主體相當複雜。它甚至可能需要足夠的清理才能保證有自己的教程。因此,我們將使用完善的email軟體包來節省一些時間,讓我們專注於學習正則表示式。
我們還建立了一個空列表emails,用於儲存字典。每本詞典將包含每封電子郵件的詳細資訊。
現在,讓我們開始應用正則表示式!
注意:為簡潔起見,我們剪裁了上面的列印輸出。如果您在自己的機器上列印此檔案,它將顯示其中包含的所有內容,contents而不是...像上面那樣結束。
我們使用re模組的split函式將整個文字塊分割fh為單獨的電子郵件列表,然後將其分配給變數contents。這很重要,因為我們希望透過使用for迴圈遍歷列表來逐一處理電子郵件。但是,我們如何知道按字串分割"From r"?
我們之所以知道這一點,是因為在編寫指令碼之前我們已經查看了檔案。我們不必細讀其中的數千封電子郵件。只是前幾個,看看資料的結構是什麼樣子。只要有可能,最好在開始使用程式碼之前先關注實際資料,因為您經常會發現諸如此類的有用功能。
我們已經截取了原始文字檔案的螢幕截圖:
電子郵件以“ From r”開頭
綠色方框是第一封電子郵件。藍色方框是第二封電子郵件。如我們所見,這兩封電子郵件均以開頭"From r",並以紅色框突出顯示。
我們在本教程中使用欺詐電子郵件語料庫的原因之一是,當資料雜亂無章,不熟悉且沒有文件時,我們不能僅僅依靠程式碼來整理資料。這將需要一雙人眼。正如我們剛剛顯示的,我們必須研究語料庫本身以研究其結構。
像這樣雜亂無章的資料可能需要大量清理。例如,即使我們使用本教程將要構建的完整指令碼來計算此集合中的3977封電子郵件,但實際上還有更多。某些電子郵件實際上並不以開頭"From r",因此不會單獨計算。(不過,為了簡潔起見,我們將繼續處理該問題,並用分隔所有電子郵件"From r"。)
還要注意,我們contents.pop(0)用來擺脫列表中的第一個元素。這是因為"From r"字串在第一封電子郵件之前。拆分該字串後,它將在索引0處生成一個空字串。我們將要編寫的指令碼是為電子郵件設計的。如果我們嘗試在空字串上使用它,則可能會引發錯誤。擺脫空字串可以使我們避免破壞指令碼。
使用For迴圈獲取每個名稱和地址
接下來,我們將使用contents列表中的電子郵件。
在上面的程式碼中,我們使用for迴圈來遍歷,contents因此我們可以依次處理每封電子郵件。我們建立了一個詞典,emails_dict其中包含每封電子郵件的所有詳細資訊,例如發件人的地址和姓名。實際上,這些是我們發現的第一批物品。
這是一個三步過程。首先從尋找From:領域開始。
在第1步中,我們From:使用re.search()函式查詢整個欄位。該.裝置除了任何字元n,並且*其延伸到行的結尾。然後,我們將其分配給變數sender。
但是,資料並不總是那麼簡單。它可能包含驚喜。例如,如果沒有From:欄位怎麼辦?該指令碼將引發錯誤並中斷。我們在步驟2中避免了這種情況下的錯誤。
為了避免由於缺少From:欄位而導致的錯誤,我們使用一條if語句來檢查sendernot None。如果是,我們分配s_email和s_name的值,None以便指令碼可以繼續執行而不是意外中斷。
如果您在自己的檔案中使用本教程,則可能已經意識到使用正則表示式會變得混亂。例如,這些if-else語句是在編寫主體時對主體使用反覆試驗的結果。編寫程式碼是一個反覆的過程。值得注意的是,即使本教程看起來很簡單,實際實踐也需要進行更多的實驗。
在第2步中,我們使用之前的regex模式\w\S*@.*\w,該模式與電子郵件地址匹配。
我們將對名稱使用其他策略。每個名稱都由左側:子字串的冒號()"From:"和<右側電子郵件地址的左尖括號()界定。因此,我們使用它:.*<來查詢名稱。我們擺脫:並<從每個結果的時刻。
現在,讓我們打印出程式碼的結果以檢視它們的外觀。
同樣,我們有匹配物件。每次我們將re.search()字串應用於字串時,都會生成匹配物件。我們必須將它們變成字串物件。
我們這樣做之前,記得,如果沒有From:現場,sender將具有的價值None,因此也將s_email和s_name。因此,我們必須再次檢查這種情況,以便指令碼不會意外中斷。讓我們看看如何首先構建程式碼s_email。
在步驟3A中,我們使用一條if語句檢查s_emailnot None,否則它將引發錯誤並破壞指令碼。
然後,我們只需將s_emailmatch物件轉換為字串並將其分配給sender_email變數。我們將其新增到emails_dict字典中,這將使我們日後將細節轉換為pandas資料框變得異常容易。
我們s_name在步驟3B中所做的幾乎完全相同。
正如我們以前那樣,我們首先檢查s_name是不是None在步驟3B。
然後,在將字串分配給變數之前,我們兩次使用re模組的re.sub()函式。首先,我們刪除冒號和它與名稱之間的所有空白字元。我們:s*用一個空字串代替""。然後,我們刪除空格字元和名稱另一邊的尖括號,再次用空字串替換它。最後,在將字串分配給之後sender_name,我們將其新增到字典中。
讓我們檢查一下結果。
完善。我們已經隔離了電子郵件地址和發件人的姓名。我們還將它們新增到字典中,該字典將很快投入使用。
現在我們已經找到了發件人的電子郵件地址和名稱,我們將執行完全相同的步驟來獲取字典的收件人的電子郵件地址和名稱。
首先,我們找到To:領域。
接下來,我們搶先在場景recipient是None。
如果recipient不是None,則用於re.search()查詢包含電子郵件地址和收件人姓名的匹配物件。否則,我們傳遞r_email和r_name的值None。
然後,將匹配物件轉換為字串並將其新增到字典中。
由於From:和To:欄位的結構相同,因此我們可以對兩者使用相同的程式碼。我們需要為其他欄位定製略有不同的程式碼。
獲取電子郵件的日期
現在確定傳送電子郵件的日期。
我們Date:為From:和To:欄位獲取具有相同程式碼的欄位。
並且,就像我們對這兩個欄位所做的一樣,我們檢查Date:分配給date_field變數的欄位是否不是None。
我們已經列印了出來,date_field.group()以便我們可以更清楚地看到字串的結構。它包括日期,DD MMM YYYY格式的日期和時間。我們只想要日期。日期的程式碼與姓名和電子郵件地址基本相同,但更為簡單。也許唯一令人困惑的是正則表示式模式\d+\s\w+\s\d+。
日期以數字開頭。因此,我們用d它來解釋它。但是,作為日期的DD部分,它可以是一位或兩位數字。在這裡+變得重要。在Python正則表示式中,+匹配其左側1個或多個模式例項。d+因此,無論日期是DD還是一兩位數字,它都將與日期的DD部分匹配。
在那之後,有一個空間。這是由佔的s,它查詢空白字元。因此,該月由三個字母組成w+。然後它撞到另一個空間s。年份由數字組成,因此我們d+再次使用。
完整模式\d+\s\w+\s\d+起作用的原因是它是一個精確的模式,在兩側均以空格字元為界。
接下來,我們None像以前一樣檢查值。
如果date不是None,則將其從匹配物件轉換為字串,並將其分配給變數date_sent。然後,將其插入字典中。
在繼續之前,我們應該注意一個關鍵點。+並且*看起來相似,但它們可以產生非常不同的結果。讓我們以日期字串為例。
如果使用*,則將匹配零個或多個匹配項。+匹配一個或多個事件。我們已經列印了兩種情況的結果。有很大的不同。如您所見,+獲取完整日期,而*獲取空格和數字31。
接下來,是電子郵件的主題行。
獲取電子郵件主題
和以前一樣,我們使用相同的程式碼和程式碼結構來獲取所需的資訊。
現在我們對Python正則表示式的使用越來越熟悉了,不是嗎?它與以前的程式碼大致相同,不同之處在於,我們"Subject: "用空字串代替僅獲取主題本身。
獲取電子郵件的正文
要插入字典的最後一項是電子郵件的正文。
將標頭與電子郵件正文分開是一項非常複雜的任務,尤其是當許多標頭以一種或另一種方式不同時。在原始的無組織資料中很少發現一致性。對我們來說幸運的是,這項工作已經完成。Python的email軟體包非常擅長此任務。
請記住,我們已經較早匯入了該軟體包。現在,我們將其message_from_string()功能應用於item,以將完整的電子郵件轉換為emailMessage物件。Message物件由標頭和有效負載組成,它們分別對應於電子郵件的標頭和正文。
接下來,我們將其get_payload()功能應用於Message物件。此功能隔離電子郵件的正文。我們將其分配給變數body,然後將其插入到emails_dict鍵下的字典中"email_body"。
為什麼使用電子郵件軟體包而不是正文
您可能會問,為什麼使用emailPython軟體包而不是regex?這是因為目前還沒有很好的方法來處理Python正則表示式,而這不需要大量的清理工作。這意味著可能需要另外一份教程。
值得檢查一下我們如何做出這樣的決定。但是,我們需要先了解[ ]正則表示式中的方括號,然後才能這樣做。
現在,我們可以更好地瞭解我們是如何決定使用電子郵件軟體包的。
窺視資料集可發現電子郵件標題在字串"Status: 0"或處停止"Status: R0",並"From r"在下一封電子郵件的字串前結束。因此,我們可以Status:\s*\w*\n*[\s\S]*From\sr*用來僅獲取電子郵件正文。[\s\S]*適用於大塊的文字,數字和標點符號,因為它可以搜尋空白或非空白字元。
不幸的是,有些電子郵件包含多個"Status:"字串,而另一些則不包含"From r",這意味著我們會將電子郵件拆分成多於或少於電子郵件列表中詞典的數量。它們與我們已經擁有的其他類別不匹配。使用熊貓時,這會產生問題。因此,我們決定利用該email軟體包。
建立詞典列表
最後,將字典追加emails_dict到emails列表中:
我們可能要emails在此時列印列表以檢視其外觀。如果您只是一直在使用我們的小樣本檔案,那麼這將是反高潮的,但是在整個語料庫中,您將看到正則表示式的強大功能!
我們還可以print(len(emails_dict))檢視列表中有多少個詞典,因此還有電子郵件。如前所述,整個語料庫包含3977。
這是完整的程式碼:
如果使用我們的示例文字檔案執行它,將會得到以下結果:
我們已經打印出emails列表中的第一項,它顯然是帶有鍵和值對的字典。因為我們使用了for迴圈,所以每個字典都具有相同的鍵但值不同。
我們已替換為item,"email content here"以便我們不會打印出電子郵件的全部內容並阻塞螢幕。如果您要使用實際資料集在家列印此檔案,則會看到整個電子郵件。
用熊貓處理資料
有了列表中的詞典,我們使熊貓圖書館的工作變得無比輕鬆。每個鍵將成為列標題,每個值將成為該列中的一行。
我們要做的就是應用以下程式碼:
透過這一行,我們emails使用pandas DataFrame()函式將字典列表轉換為資料框。我們也將其分配給變數。
而已。現在,我們有了一個複雜的熊貓資料框。這實際上是一個整潔的表格,其中包含我們從電子郵件中提取的所有資訊。
讓我們看一下前幾行。
該dataframe.head()函式僅顯示前幾行,而不顯示整個資料集。這需要一個論點。一個可選引數允許我們指定要顯示多少行。在這裡,n=3讓我們檢視三行。
我們還可以精確地找到我們想要的東西。例如,我們可以找到從特定域名傳送的所有電子郵件。但是,讓我們學習一種新的正則表示式模式,以提高找到所需專案的精度。
管道符號會|在其任一側尋找字元。例如,a|b尋找a或b。
|可能看起來與相同[ ],但是它們確實有所不同。假設我們要匹配要麼"crab","lobster"或"isopod"。大資料分析Python的正則表示式Regular Expressions使用方法https://www.aaa-cg.com.cn/data/2301.html使用crab|lobster|isopod會比有意義[crablobsterisopod],不是嗎?前者將尋找每個單詞,而後者將尋找每個字母。
現在,我們|來查詢從一個或另一個域名傳送的所有電子郵件。
我們在這裡使用了相當長的程式碼。讓我們從內而外開始。
emails_df["sender_email"]選擇標記為的列sender_email。接下來,str.contains(epatra|spinfinder)返回True是否在該列中找到子字串"epatra"或"spinfinder"。最後,外部emails_df[]返回行的檢視,其中該sender_email列包含目標子字串。好漂亮!
我們也可以檢視來自各個單元的電子郵件。為此,我們經歷了四個步驟。在步驟1中,我們找到"sender_email"列包含字串的行的索引"@spinfinder"。注意我們如何使用正則表示式來執行此操作。
在步驟2中,我們使用索引查詢電子郵件地址,該loc[]方法作為具有多個不同屬性的Series物件返回該電子郵件地址。我們在下面將其打印出來以檢視其外觀。
在第3步中,我們從系列物件中提取電子郵件地址,就像從列表中提取專案一樣。您可以看到它的型別現在是class。
步驟4是提取電子郵件正文的位置。
在步驟4中,emails_df["sender_email"] == "[email protected]"找到該sender_email列包含value 的行"[email protected]"。接下來,["email_body"].values查詢email_body同一行中的列的值。最後,我們打印出該值。
如您所見,我們可以透過多種方式使用正則表示式,它也可以與大熊貓一起使用!如果您的正則表示式工作包含大量的反覆試驗,請不要氣,,尤其是在您剛剛入門時!
其他資源
自從幾年前正則表示式從生物學躍升為工程學以來,正則表示式已取得了巨大的發展。如今,正則表示式已在不同的程式語言中使用,其中除了其基本模式之外還有一些變體。我們已經學習了很多Python正則表示式,並且如果您想將它提高到一個新的水平,那麼我們的Python資料清理高階課程可能是一個不錯的選擇。
您還可以在官方參考資料中找到一些幫助,例如Python 有關其模組的文件re。Google有更快的參考資料。
如果您願意,也可以開始探索Python regex與其他形式的regex Stack Overflow帖子之間的區別。
如果您需要資料集進行試驗,則Kaggle和StatsModels很有用。
最後,這是我們製作的Regex速查表,它也非常有用。
https://www.toutiao.com/i6829923957647344142/