摘要:現如今市面上產品越來越多元化,但是作為消費者的我們該如何抉擇,怎樣查詢哪些商品是好是壞呢?隨著智慧化時代的來臨,識別技術已經融入在日常生活中,我們應該怎樣利用文字識別技術應用到我們生活當中並幫助我們查詢選擇商品呢?本次部落格將從產品國家標準號的資料收集整理成庫,以及在ModelArts上透過建立OCR來完成對於某品牌酸奶產品國家標準號的識別以及相應的查詢。
1、爬蟲收集資料本次分享活動案例主要目的在於結合產品的標準號和標準號所包含的具體資訊進行查詢,所以我們需要對產品的標準號資訊資料進行提前條件的收集與整理。然而基於目前標準號資料量十分龐大,本次分享活動只針對國家標準號進行了相應的資料收集和整理,並共收集到9620條國家標準號資訊。後續我們也會更進補充包括地方標準號在內的儘可能多的標準資訊。當然,如果後續還有任何資訊不足,歡迎各位進行補充。
接下來本文將從具體的實際操作部分來講解本次案例。
首先是在眾多標準號公開網站上找到標準號的資訊並且對應收集整理成資料庫的格式。這裡我們選擇了一個網站,利用爬蟲程式先將國家標準號收集,並整理建立資料庫。
某公開標準號資料網站
進入該網站,在該網站上按下F12,就能跳出該網站的原始碼。找到並進入elements,就能找到眾多標準號對應的資訊網址,首先利用爬蟲程式將這些標準號的號碼和所對應的網址爬取下來,進一步收集該標準號的具體資訊。
進入具體的標準號資訊網址,我們發現這裡包含的具體資訊眾多。我們選取了該國標號的分類級別、標準號、標準名稱、該標準號的狀態、該標準號的釋出實施日期、頒發部門以及該標準號的具體內容作為單獨一個國標號的資料子樹。並最終生成了Excel檔案的資料庫,完成對於標準號程式的爬取和收集。
該資料庫的部分截圖如下:
對於爬蟲程式和生成的資料庫我們會放在附件當中,請有需求的程式設計師朋友進行下載和使用。
2.酸奶產品包裝在ModelArts的OCR文字識別對於OCR的模型和程式碼本文將不再闡述,請有興趣的朋友轉至此網址部落格進行學習:https://bbs.huaweicloud.com/blogs/195963
結合上面爬蟲程式的整個流程,我們得到了國家標準號的資料庫,接下來我們將從實際操作用OCR識別某酸奶的包裝的文字,隨後得到我們的標準號,從而得到該標準號的具體資訊講解整個流程經過。
首先我們在ModelArts上新建立notebook,將OCR模型程式碼上傳至我們的notebook:
然後經過OCR的識別,我們將酸奶包裝資訊上的國家標準號資訊識別並提取出來:
並在命令列終端得到我們對於酸奶包裝資訊識別到的文字資訊:
經過ModelArts上的OCR識別我們得到識別出來的酸奶的標準號資訊是:GB-19302,對應到我們之前利用爬蟲程式建立的資料庫當中,找到該標準號的具體資訊是對酸奶的產品標註定製: