回覆列表
  • 1 # 閃念基因

    用深度學習的方法對每個使用者進行千人千面,在不改變搜尋內容合理性的前提下,根據每個使用者的特徵點適當推送最佳化過的內容,提升使用者體驗

  • 2 # IT追夢—廈門站

    網頁的“搜尋”功能指的就是可以在這個搜尋欄中搜索到你網站中部分或全部資訊,支援模糊搜尋,關鍵詞搜尋等。因為搜尋範圍越大,你所消耗的時間也越久。對於頁面前端的搜尋欄的設計,這個我就不介紹,非常簡單,我這裡主要介紹一下搜尋功能的設計。

    功能設計前,你需要考慮你網頁的“搜尋”功能的範圍是哪一些,比如文章類的網站,使用者可以在“搜尋欄”中輸入一個字或詞,只要文章的標題,標籤,簡介,內容中包含這個字或詞的文章都會出現。他的搜尋範圍就是標題,標籤,簡介,內容。只有在設計時定位好了你的功能範圍,你才能進入下一步的設計。

    搜尋的資料不建議放在關係型資料庫裡,如果你的搜尋只是小範圍,並且內容不多,如果不支援模糊查詢,那可以在關係型資料庫中。反之,一旦模糊查詢,關係型資料庫是不走索引,會導致全表掃描去尋找與“搜尋欄”有關的資料。如果你的表資料量很大,你的搜尋效能越差。

    建議你採用ES(elasticsearch)進入資料儲存,把你要搜尋的資料放在這裡,然後寫對接的搜尋介面,他的速度是很快的。以下是ES的簡介

    ElasticSearch 是一個分散式、高擴充套件、高實時的搜尋與資料分析引擎。它能很方便的使大量資料具有搜尋、分析和探索的能力。充分利用ElasticSearch的水平伸縮性,能使資料在生產環境變得更有價值。ElasticSearch 的實現原理主要分為以下幾個步驟,首先使用者將資料提交到Elastic Search 資料庫中,再透過分詞控制器去將對應的語句分詞,將其權重和分詞結果一併存入資料,當用戶搜尋資料時候,再根據權重將結果排名,打分,再將返回結果呈現給使用者。Elasticsearch是與名為Logstash的資料收集和日誌解析引擎以及名為Kibana的分析和視覺化平臺一起開發的。這三個產品被設計成一個整合解決方案,稱為“Elastic Stack”(以前稱為“ELK stack”)。Elasticsearch可以用於搜尋各種文件。它提供可擴充套件的搜尋,具有接近實時的搜尋,並支援多租戶。”Elasticsearch是分散式的,這意味著索引可以被分成分片,每個分片可以有0個或多個副本。每個節點託管一個或多個分片,並充當協調器將操作委託給正確的分片。再平衡和路由是自動完成的。“相關資料通常儲存在同一個索引中,該索引由一個或多個主分片和零個或多個複製分片組成。一旦建立了索引,就不能更改主分片的數量。Elasticsearch使用Lucene,並試圖透過JSON和Java API提供其所有特性。它支援facetting和percolating,如果新文件與註冊查詢匹配,這對於通知非常有用。另一個特性稱為“閘道器”,處理索引的長期永續性;例如,在伺服器崩潰的情況下,可以從閘道器恢復索引。Elasticsearch支援實時GET請求,適合作為NoSQL資料儲存,但缺少分散式事務。 [1] 歷史與發展編輯Shay Banon在2004年創造了Elasticsearch的前身,稱為Compass。在考慮Compass的第三個版本時,他意識到有必要重寫Compass的大部分內容,以“建立一個可擴充套件的搜尋解決方案”。因此,他建立了“一個從頭構建的分散式解決方案”,並使用了一個公共介面,即HTTP上的JSON,它也適用於Java以外的程式語言。Shay Banon在2010年2月釋出了Elasticsearch的第一個版本。Elasticsearch BV成立於2012年,主要圍繞Elasticsearch及相關軟體提供商業服務和產品。2014年6月,在成立公司18個月後,該公司宣佈透過C輪融資籌集7000萬美元。這輪融資由新企業協會(NEA)牽頭。其他投資者包括Benchmark Capital和Index Ventures。這一輪融資總計1.04億美元2015年3月,Elasticsearch公司更名為Elastic。在2018年6月,Elastic提交了首次公開募股申請,估值在15億到30億美元之間。公司於2018年10月5日在紐約證券交易所掛牌上市。一些組織將Elasticsearch作為託管服務提供。這些託管服務提供託管、部署、備份和其他支援。大多數託管服務還包括對Kibana的支援。Elasticsearch 自從誕生以來,其的應用越來越廣泛,特別是大資料領域,功能也越來越強大,但是如何有效的監控管理 Elasticsearch 一直是公司所面對的難題,由於 Elasticsearch 叢集的穩定性,決定了其業務發展的高度,對於一個應用來說其穩定是第一目標,所以完善的監控體系是必不可少的。此外,Elasticsearch 寫入和查詢對資源的消耗都很大,如何合理有效地控制資源,既能滿足寫入和查詢的需求,又能滿足資源充分利用,這是公司必須面對的問題。在國內,還沒較為完善的面向 Elasticsearch 的監控管理平臺,很多企業往往只關注搭建一套簡單分散式的叢集環境,而對這個叢集的缺乏監控和管理,元資料混亂,寫入和查詢耦合,缺乏監控一旦叢集出現問題,就會導致資料丟失,甚至很容易導致線上應用故障。相比於小公司,中大型公司的資金較為充足,所以中大型公司,會選擇為每個應用去維護一套叢集,但是這每當資源不夠需要擴容或者縮容時,極其不方便,需要增加刪除節點,其運維成本過高。而且對每個應用來說,可能不能夠充分利用資源,但是如果和其他應用混合部署,但是又涉及到複雜的資源分配問題,而且隨著應用的發展,資源經常需要變動。在國外,ELasticsearch 的應用也很廣泛,也有對 Elasticsearch 進行很好的監控和管理,Amazon AWS中也有基於 Elasticsearch 構建的平臺服務,幫助電商應用程式,網站等提供安全,高可靠,低成本,低延時,高吞吐的量的個性化搜尋。雖然,對叢集進行了監控和管理,但是管理的維度還是叢集級別的,而對於應用往往是模板級別的,如果應用無法和叢集一一對應,那就無法進行更高效的管理。這無法滿足公司級別想要高效利用資源,叢集內部能支援多個應用的場景 [2] 。有關概念編輯cluster:代表一個叢集,叢集中有多個節點,其中有一個為主節點,這個主節點是可以透過選舉產生的,主從節點是對於叢集內部來說的。es的一個概念就是去中心化,字面上理解就是無中心節點,這是對於叢集外部來說的,因為從外部來看es叢集,在邏輯上是個整體,你與任何一個節點的通訊和與整個es叢集通訊是等價的。shards:代表索引分片,es可以把一個完整的索引分成多個分片,這樣的好處是可以把一個大的索引拆分成多個,分佈到不同的節點上。構成分散式搜尋。分片的數量只能在索引建立前指定,並且索引建立後不能更改。replicas:代表索引副本,es可以設定多個索引的副本,副本的作用一是提高系統的容錯性,當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es會自動對搜尋請求進行負載均衡。recovery:代表資料恢復或叫資料重新分佈,es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啟動時也會進行資料恢復。river:代表es的一個數據源,也是其它儲存方式(如:資料庫)同步資料到es的一個方法。它是以外掛方式存在的一個es服務,透過讀取river中的資料並把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。gateway:代表es索引快照的儲存方式,es預設是先把索引存放到記憶體中,當記憶體滿了時再持久化到本地硬碟。gateway對索引快照進行儲存,當這個es叢集關閉再重新啟動時就會從gateway中讀取索引備份資料。es支援多種型別的gateway,有本地檔案系統(預設),分散式檔案系統,Hadoop的HDFS和amazon的s3雲端儲存服務。discovery.zen:代表es的自動發現節點機制,es是一個基於p2p的系統,它先透過廣播尋找存在的節點,再透過多播協議來進行節點之間的通訊,同時也支援點對點的互動。Transport:代表es內部節點或叢集與客戶端的互動方式,預設內部是使用tcp協議進行互動,同時它支援http協議(json格式)、thrift、servlet、memcached、zeroMQ等的傳輸協議(透過外掛方式整合)。

  • 中秋節和大豐收的關聯?
  • 你喜歡畫畫嗎?