首頁>科技>

✏️ 作者介紹:

王傑,知擎者資料探勘演算法工程師

應用背景

知擎者是一個商標大資料智慧應用平臺,以商標資料為核心,結合企業大資料、法律大資料、營銷大資料等,提供基礎業務處理、商標預警監測、案件智慧挖掘、資料情報分析等服務,為知產服務者提效賦能。知擎者不斷協助知產服務者改變傳統業務處理模式,建立智慧服務新體系,拓展更多業務機會,以達到知產服務者快速盈利和品牌建設的目標。

近年來,品牌文化大力發展,文字商標的註冊隨之越發飽和,申請難度越來越大。因此,越來越多國人開始轉向圖形商標申請。

圖形商標的申請及監測在代理人(知產服務者)確權業務中佔比越來越大。代理人(智慧財產權服務者)對圖形商標查詢和監測的需求越發強烈。為此,知擎者提供以圖搜圖功能,協助代理人快速檢索近似圖形商標。

知擎者已有近兩千萬的圖形商標圖片資料。根據這些資料和卷積神經網路 VGG16 模型,我們訓練出圖片特徵提取模型,用於提取圖片的特徵向量。為了快速將全量圖片資料轉化成特徵向量資料,我們將特徵提取模型及程式碼分別佈置在多臺伺服器上,透過請求 flask 獲取任務以實現圖片資料同步處理,快速獲取特徵向量。最後,由於 Milvus 只能單點上傳資料且在資料上傳時會同步建立向量索引,所以我們將特徵向量歸納起來統一插入到 Milvus。

尼斯分類(International (Nice) Classification of Goods and Services),由世界智慧財產權組織(WIPO)提供,將商品和服務分為 45 個類別,用於區分商標適用範圍[1]。為幫助使用者提取不同類別的圖形商標圖片,我們以類別為分割槽標籤將特徵向量資料分割槽儲存在 Milvus 中。使用者只需在客戶端上傳圖片,程式內部會自動透過同一個模型提取特徵向量,從 Milvus 中查詢近似向量的 id, 獲取對應的近似圖片。最後,程式會進一步篩選官方給定的圖片內容形容詞、圖形商標類別以及 Milvus 返回的近似得分等,將結果返回給客戶端。

圖片特徵向量提取:卷積神經網路 VGG 16 模型

卷積神經網路 VGG16 模型是一種圖片分類模型,具有簡潔易懂、快速精確等優點,能夠適應各種圖片尺寸。圖片傳入模型變化分類如下圖所示:

VGG16 模型顧名思義是共有 16 個層的卷積神經網路。VGG 各種級別的結構都採用了 5 段卷積,每一段具有一個或多個卷積層。同時,每一段卷積的尾部都連線著一個最大池化層以縮小圖片尺寸。每一段卷積內的卷積核數量一致,越靠後的卷積核數量越多 64-128-256-512-512[2]。VGG16 的所有卷積核都是 3*3 格式,池化層均選用 2*2 的池化核,因此能夠保留更多圖片資訊。確定向量模型後,我們透過 Python、Tensorflow 、Keras 等 Python 模組完成了圖片特徵向量模型訓練。

圖片特徵向量檢索:Milvus 向量相似度搜索引擎

我們在獲取特徵向量後需要從海量資料中快速檢索近似的特徵向量。透過百度、知乎等資訊渠道,我們瞭解到 Milvus 和 Faiss 兩種工具。對比後我們發現 Milvus 比起 Faiss 整體更加便捷。安裝 Milvus 時,我們只需要透過 Docker 拉取映象,更改幾個相應的引數便能快速完成安裝。Milvus 官網提供包含 Python、Java、Golang、RESTful、C++ 等多個平臺詳細而直觀的 API 供學習使用,因此十分便於上手。此外,Milvus 還支援透過多種索引檢索近似向量,官網上還附有詳細的索引介紹。總體而言,Milvus 操作便捷,對使用者十分友好,適用於需要控制開發成本的專案。

Milvus v0.10.3 架構如下圖所示 [3]:

效果展示

結合了 Milvus 的知擎者以圖搜圖功能已經正式上線。目前該功能執行穩定,檢索效率可以滿足正常使用。效果如下圖所示:

我們團隊仍會持續進行功能最佳化,解決例如圖形商標顏色區分、文字商標干擾等問題。

總結

隨著商標註冊量逐年增長,圖形商標作為企業品牌核心,其近似檢索也會變得越發重要。知擎者團隊將不斷最佳化以圖搜圖功能。當前,文字、影象、音訊等非結構化資料呈爆炸式增長。將非結構化資料透過 Embedding 技術對映成多維向量後再進行檢索已成為趨勢。Milvus 是一款開源的分散式向量相似度搜索引擎,具有高效能、易部署等特性。Milvus 能極大節省專案開發成本,顯著提升系統檢索效能,從而滿足各種技術和業務需求。知擎者將會時刻關注 Milvus 的最佳化,在未來更豐富的業務場景中與 Milvus 再度合作。

參考資料

1. 尼斯分類:https://web.archive.org/web/20170831234900/http://web2.wipo.int/classifications/nice/nicepub/en/fr/edition-20170101/taxonomy/class-7/?pagination=no&lang=en&mode=flat&explanatory_notes=show&basic_numbers=show

2. 卷積神經網路 Vgg16 :https://blog.csdn.net/qq_34823656/article/details/92410152

3. Milvus官方文件:https://milvus.io/cn/docs/v0.10.3/overview.md

4. 知擎者官網:https://zqz510.com/

17
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 智慧手機市場觀察:國產接過創新接力棒,vivo提供最新例證