-
1 # 52sissi
-
2 # 張理想mba
怎麼說呢,打的比方吧,偏業務的就有些像產品經理,偏技術的就是專業的資料探勘。前者需要資料分析偏統計,視覺化,出報表和報告,需要較強的表達能力。
後者的話資料探勘偏演算法,重模型,需要很深的程式碼功底,要碼程式碼,很多
-
3 # IT研發管理與技術創新
https://www.toutiao.com/i6638514991362212359/
機器學習處理的物件是資料,機器學習可以找到已有資料的規律與特徵,機器學習的最終價值是“資料規律與特徵”的“價值變現”。(規律/特徵未必穩定)
而“最終價值”取決於“需求”,那麼機器學習能否找到“需求”?機器學習能否找到“滿足需求”而需要的“特徵支援”?機器學習能否從資料中找到相應的“特徵”?
1.1 機器目前解決不了“深層次的需求”的問題,因為需求來源於矛盾的演進過程中,對矛盾的認識是多次、由淺而深的、動態的過程。機器學習基於統計理論,沒有形成多維度分析、思考、推理、驗證、小結、判斷等能力。所以機器學習不能精確地、深層次地分析需求,但在現有規律、公理基礎上能夠預測“表層需求”的大機率事件。
1.2 基於過去的資料記錄,機器可以分析“資料”與“目標”的關聯關係,但此種關聯僅僅是“表層的現象”,而非“因果關係”。從關聯性分析出必然性,依然需要人的介入分析。
1.3 如果在1.2環節中,已經找到了“資料”與“目標”的因果關係,那麼已不需要再尋找“特徵”。如果“特徵支援”的表述是模糊的,那麼從資料中尋找“特徵”的行為,是一個標準的資料分析行為。另外的情形:透過分析方法得出資料的各種特徵,但特徵可能用途不明(淺層特徵有語義特性,有可解釋性,演化出新應用的可能性較高;但深層特徵,可解釋性不強,演化出新應用的可能性較低)。
由上可見:1.1->1.2->1.3是一個典型的工程問題的解決路徑,而1.3->1.2->1.1是典型的研究成果轉化的路徑。
無論何種路徑,問題的解決都需要領域知識與機器學習知識的結合,通常也難以做到一步到位地解決問題,隨著認識的深入與全面,機器的認知能力和水平也隨之而提升,一個好的解決問題的模型一定是在實踐中成長(演進)出來的結果。
-
4 # 大資料傅一航
關於大資料職位,要區分清楚分析師和工程師喲。
大資料專家總的來說,可以分為兩大類:一類叫資料分析師,另一類叫資料工程師。
1)資料分析師,都是偏業務的,專注於對業務資料的分析,以及業務應用的分析。你聽說過的資料分析、資料探勘、資料建模以及機器學習等等,都是資料分析師常用的術語。他們關注的是選擇合適的分析方法、分析模型來探索業務的規律、業務的變化、業務間的相關性,並對業務的未來做出趨勢判斷(預測)。他們側重於如何基於資料來找到業務問題的解決方案,用資料來支撐業務決策和商業決策。
2)資料工程師,都是偏技術的,專注於大資料應用開發,以及大資料系統建設。你聽說過的雲平臺、Hadoop/Spark/Storm等等的概念就是資料工程師常用的術語。他們關注是大資料系統如何建設、如何開發大資料產品、如何做大資料系統運維。
關於要掌握什麼知識?(見黑色字型)
1)資料分析師,要求熟悉資料分析過程,掌握資料分析方法,理解資料分析模型,熟練操作資料分析工具(比如Excel、SPSS、SAS等);當分析工具無法滿足你的分析需求的時候,你還可能需要掌握類似Python和R等指令碼分析語言,以實現自定義的自動化的分析流程。當然,最重要的是要熟悉業務邏輯和業務模型,從而掌握資料分析思路,能將資料進行視覺化,能夠對分析結果進行正確的業務資料解讀,等等。
2)資料工程師,最基礎的要求熟悉程式開發語言和系統設計(比如JAVA等),然後掌握大資料系統架構(Hadoop/Spark等),懂大資料平臺運維,等等。
當然,如果要繼續進一步細分崗位,你要學的東西也會有不同的側重點。
一般來說,資料分析師都是偏業務的,就是常說的“三分技術,七分業務”。
當然,狹義地說,如果你說的是資料分析師中偏技術的,指的是在資料分析師中偏技術的,也可以理解為資料建模師、演算法師,那麼你要掌握的技術就是懂Python或R語言,能夠自行設計算法和分析模型,並使用python語言來實現(此時,肯定沒有現成的分析工具供你使用的)。
詳細的請參考我寫的文章《大資料專家職位體系》。
關於偏業務和偏技術哪個更重要?
1)其實,準確地來說,資料分析師和資料工程師不存在哪個更重要的說法,因為本來側重點就不一樣。而且,當到資料專家達到最高層次時(即資料科學家/CDO等等),這兩方面的資料技能都必須要了解和掌握。當然,依然是有側重點的。
2)再從當前的市場需求來看,比如你要找工作的話,這個是可以考慮重要性和差異性。當前大量的企業或公司,因為沒有想像多的資料,所以並不一定需要構建大資料平臺,因此資料工程師並不是很緊迫需要的。但是,幾乎所有的企業和公司,一定是需要資料分析專家的,能夠快速基於當前的資料(不管是大資料還是上資料)進行分析,並找到業務決策依據。因此,從這方面來說,資料分析師的需求要比資料工程師的需求要多得多,資料分析師的就業機會比較多。
3)反過來,如果一個公司有大量的資料(比如類似電商、網際網路、通訊、銀行類公司),公司才會考慮構建大資料平臺,此時,資料工程師就是迫切需要的。所以,如果你成為大資料工程師,進入此類大公司的機會就會多些,相當於資料工程師的就業薪資前景看好。
當然,要選擇什麼樣的職位,還得依據你本身的能力和興趣。
-
5 # 手機使用者98731035695
一般即掌握業務知識,又掌握技術的人才非常少,所以對企業來說只能讓精通業務的和精通技術的都來做資料分析,各有專長。
其實隨著資料分析軟體的發展,企業現在已經可以專注於自身的業務發展,將資料分析的技術部分交給專業的公司來完成,比如東軟的DataViz(https://cloud.neusoft.com/pages/product/p_dataviz)資料視覺化分析軟體,就是面向業務人員的探索式資料視覺化分析工具,業務人員不需要資料分析的專業技術知識,就可以進行資料視覺化分析。
回覆列表
您是否想更好地瞭解傳統資料與大資料之間的區別,在哪裡可以找到資料以及可以使用哪些技術來處理資料?
這些是處理資料時必須採取的第一步,因此這是一個不錯的起點,特別是如果您正在考慮從事資料科學職業!
“資料”是一個廣義術語,可以指“原始事實”,“處理後的資料”或“資訊”。為了確保我們在同一頁面上,讓我們在進入細節之前將它們分開。
我們收集原始資料,然後進行處理以獲得有意義的資訊。
好吧,將它們分開很容易!
現在,讓我們進入細節!
原始資料(也稱為“ 原始 事實”或“ 原始 資料”)是您已累積並存儲在伺服器上但未被觸及的資料。這意味著您無法立即對其進行分析。我們將原始資料的收集稱為“資料收集”,這是我們要做的第一件事。
什麼是原始資料?
我們可以將資料視為傳統資料或大資料。如果您不熟悉此想法,則可以想象包含分類和數字資料的表格形式的傳統資料。該資料被結構化並存儲在可以從一臺計算機進行管理的資料庫中。收集傳統資料的一種方法是對人進行調查。要求他們以1到10的等級來評估他們對產品或體驗的滿意程度。
傳統資料是大多數人習慣的資料。例如,“訂單管理”可幫助您跟蹤銷售,購買,電子商務和工作訂單。
但是,大資料則是另外一回事了。
顧名思義,“大資料”是為超大資料保留的術語。
您還會經常看到它以字母“ V”為特徵。如“大資料的3V ”中所述。有時我們可以擁有5、7甚至11個“ V”的大資料。它們可能包括– 您對大資料的願景,大資料的價值,您使用的視覺化工具或大資料一致性中的可變性。等等…
但是,以下是您必須記住的最重要的標準:
體積
大資料需要大量的儲存空間,通常在許多計算機之間分佈。其大小以TB,PB甚至EB為單位
品種
在這裡,我們不僅在談論數字和文字。大資料通常意味著處理影象,音訊檔案,移動資料等。
速度
在處理大資料時,目標是儘可能快地從中提取模式。我們在哪裡遇到大資料?
答案是:在越來越多的行業和公司中。這是一些著名的例子。
作為最大的線上社群之一,“ Facebook”會跟蹤其使用者的姓名,個人資料,照片,影片,錄製的訊息等。這意味著他們的資料種類繁多。全世界有20億使用者,其伺服器上儲存的資料量巨大。
讓我們以“金融交易資料”為例。
當我們每5秒記錄一次股價時會發生什麼?還是每一秒鐘?我們得到了一個龐大的資料集,需要大量記憶體,磁碟空間和各種技術來從中提取有意義的資訊。
傳統資料和大資料都將為您提高客戶滿意度奠定堅實的基礎。但是這些資料會有問題,因此在進行其他任何操作之前,您都必須對其進行處理。
如何處理原始資料?
讓我們將原始資料變成美麗的東西!
在收集到足夠的原始 資料之後,要做的第一件事就是我們所謂的“資料預處理 ”。這是一組操作,會將原始資料轉換為更易理解且對進一步處理有用的格式。
我想這一步會擠在原始 資料和處理之間!也許我們應該在這裡新增一個部分...
資料預處理
那麼,“資料預處理”的目的是什麼?
它試圖解決資料收集中可能出現的問題。
例如,在您收集的某些客戶資料中,您可能有一個註冊年齡為932歲或“英國”為名字的人。在進行任何分析之前,您需要將此資料標記為無效或更正。這就是資料預處理的全部內容!
讓我們研究一下在預處理傳統和大原始資料時應用的技術嗎?
類標籤
這涉及將資料點標記為正確的資料型別,換句話說,按類別排列資料。
我們將傳統資料分為兩類:
一類是“數字” –如果您要儲存每天售出的商品數量,那麼您就在跟蹤數值。這些是您可以操縱的數字。例如,您可以計算出每天或每月銷售的平均商品數量。
另一個標籤是“分類的” –在這裡您正在處理數學無法處理的資訊。例如,一個人的職業。請記住,資料點仍然可以是數字,而不是數字。他們的出生日期是一個數字,您不能直接操縱它來給您更多的資訊。
考慮基本的客戶資料。*(使用的資料集來自我們的 SQL課程)
我們將使用包含有關客戶的文字資訊的此表來給出數字變數和分類變數之間差異的清晰示例。
注意第一列,它顯示了分配給不同客戶的ID。您無法操縱這些數字。“平均” ID不會給您任何有用的資訊。這意味著,即使它們是數字,它們也沒有數值,並且是分類資料。
現在,專注於最後一列。這顯示了客戶提出投訴的次數。您可以操縱這些數字。將它們加在一起以給出總數的投訴是有用的資訊,因此,它們是數字資料。
我們可以檢視的另一個示例是每日曆史股價資料。
*這是我們在課程Python課程中使用的內容。
您在此處看到的資料集中,有一列包含觀察日期,被視為分類資料。還有一列包含股票價格的數字資料。
當您使用大資料時,事情會變得更加複雜。除了“數字”和“分類”資料之外,您還有更多的選擇,例如:
文字資料
數字影象資料
數字影片資料
和數字音訊資料
資料清理
也稱為“ 資料清理” 或“ 資料清理”。
資料清理的目的是處理不一致的資料。這可以有多種形式。假設您收集了包含美國各州的資料集,並且四分之一的名稱拼寫錯誤。在這種情況下,您必須執行某些技術來糾正這些錯誤。您必須清除資料;線索就是名字!
大資料具有更多資料型別,並且它們具有更廣泛的資料清理方法。有一些技術可以驗證數字影象是否已準備好進行處理。並且存在一些特定方法來確保檔案的音訊 質量足以繼續進行。
缺失值
“ 缺失的 價值觀”是您必須處理的其他事情。並非每個客戶都會為您提供所需的所有資料。經常會發生的是,客戶會給您他的名字和職業,而不是他的年齡。在這種情況下您能做什麼?
您是否應該忽略客戶的整個記錄?還是您可以輸入其餘客戶的平均年齡?
無論哪種最佳解決方案,都必須先清理資料並處理缺失值,然後才能進一步處理資料。
處理傳統資料的技術
讓我們進入處理傳統資料的兩種常用技術。
平衡
想象一下,您已經編制了一份調查表,以收集有關男女購物習慣的資料。假設您想確定誰在週末花了更多錢。但是,當您完成資料收集後,您會發現80%的受訪者是女性,而只有20%是男性。
在這種情況下,您發現的趨勢將更趨向於女性。解決此問題的最佳方法是應用平衡技術。例如,從每個組中抽取相等數量的受訪者,則該比率為50/50。
資料改組
從資料集中對觀察結果進行混洗就像對一副紙牌進行混洗一樣。這將確保您的資料集不會出現由於有問題的資料收集而導致的有害模式。資料改組是一種改善預測效能並有助於避免產生誤導性結果的技術。
但是如何避免產生錯覺呢?
好吧,這是一個詳細的過程,但概括地說,混洗是一種使資料隨機化的方法。如果我從資料集中獲取前100個觀察值,則不是隨機樣本。最高的觀察值將首先被提取。如果我對資料進行混洗,那麼可以肯定的是,當我連續輸入100個條目時,它們將是隨機的(並且很可能具有代表性)。
處理大資料的技術
讓我們看一下處理大資料的一些特定於案例的技術。
文字資料探勘
想想以數字格式儲存的大量文字。嗯,正在進行許多旨在從數字資源中提取特定文字資訊的科學專案。例如,您可能有一個數據庫,該資料庫儲存了來自學術論文的有關“營銷支出”(您的研究主要主題)的資訊。大資料分析技術有哪些https://www.aaa-cg.com.cn/data/2272.html如果源的數量和資料庫中儲存的文字量足夠少,則可以輕鬆找到所需的資訊。通常,儘管資料巨大。它可能包含來自學術論文,部落格文章,線上平臺,私有excel檔案等的資訊。
這不是一件容易的事,這導致學者和從業人員開發出執行“文字資料探勘”的方法。
資料遮蔽
如果您想維持可靠的業務或政府活動,則必須保留機密資訊。線上共享個人詳細資訊時,您必須對資訊應用一些“資料遮蔽”技術,以便您可以在不損害參與者隱私的情況下進行分析。
像資料改組一樣,“資料遮蔽”可能很複雜。它用隨機和假資料隱藏原始資料,並允許您進行分析並將所有機密資訊儲存在安全的地方。將資料遮蔽應用於大資料的一個示例是透過“機密性保留資料探勘”技術。
完成資料處理後,您將獲得所需的寶貴和有意義的資訊。我希望我們對傳統資料與大資料之間的差異以及我們如何處理它們有所瞭解。
https://www.toutiao.com/i6820650243210609166/