回覆列表
  • 1 # Kokrt

    大資料這個術語的出現大概可追溯到Apache的開源專案Nutch。當時,大資料——Big Data——是用來描述為更新網路搜尋索引需同時進行批次處理或分析的大量資料集。隨著MapReduce和Google File System(GFS)的釋出,從2009年開始,大資料才開始成為網際網路行業的流行詞彙,也吸引了越來越多的關注。物聯網、雲計算、移動網際網路、手機與平板電腦、PC以及遍佈各個角落的各種各樣的感測器,無一不是大資料的來源或承載方。可以說,大資料就在我們的身邊——從阿里巴巴、1號店、京東商城等電子商務資料,到QQ、MSN等即時聊天內容,再到Google、Bing、百度,又到社會網路與微博資料等,都在生產、承載著大資料。

    隨著大量的資料的產生也給資料處理和挖掘帶來許多困難,資訊處理量的增大(注:據統計,Facebook對某一主題進行搜尋時,需在超過50TB的資料中迅速找出相關內容;在eBay儲存了超過2PB的資料以備查詢需要),很多傳統方法(如RDBMS、SQL查詢等)都不能直接應用在對海量資料的處理上,否則時間開銷將會變得非常大。對大資料的挖掘與分析變得愈發重要。而透過對Google、百度、Bing、Facebook、網頁文字、微博訊息等的挖掘與分析,使人們的行為和情緒的細化測量成為可能。挖掘使用者的行為習慣和喜好,從凌亂紛繁的大資料背後找到符合使用者興趣和習慣的產品和服務並對產品和服務進行有針對性地調整和最佳化,本身就蘊含著巨大的商機。

    北京理工大學大資料搜尋與挖掘實驗室張華平主任研發的NLPIR大資料語義智慧分析技術是滿足大資料探勘對語法、詞法和語義的綜合應用。NLPIR大資料語義智慧分析平臺是根據中文資料探勘的綜合需求,融合了網路精準採集、自然語言理解、文字挖掘和語義搜尋的研究成果,並針對網際網路內容處理的全技術鏈條的共享開發平臺。

    NLPIR大資料語義智慧分析平臺主要有精準採集、文件轉化、新詞發現、批次分詞、語言統計、文字聚類、文字分類、摘要實體、智慧過濾、情感分析、文件去重、全文檢索、編碼轉換等十餘項功能模組,平臺提供了客戶端工具,雲服務與二次開發介面等多種產品使用形式。各個中介軟體API可以無縫地融合到客戶的各類複雜應用系統之中,可相容Windows,Linux, Android,Maemo5, FreeBSD等不同作業系統平臺,可以供Java,Python,C,C#等各類開發語言使用。

    避無可避

    除非你躲到深山老林裡與世隔絕。否則只要你在社會上活動,與人交往,就無比避免的留下個人資訊。

  • 中秋節和大豐收的關聯?
  • 助聽器直接購買可以嗎?需要注意哪些問題?