-
1 # 52sissi
-
2 # 小A說職場
您是否想更好地瞭解傳統資料與大資料之間的區別,在哪裡可以找到資料以及可以使用哪些技術來處理資料?
這些是處理資料時必須採取的第一步,因此這是一個不錯的起點,特別是如果您正在考慮從事資料科學職業!
“資料”是一個廣義術語,可以指“原始事實”,“處理後的資料”或“資訊”。為了確保我們在同一頁面上,讓我們在進入細節之前將它們分開。
我們收集原始資料,然後進行處理以獲得有意義的資訊。
好吧,將它們分開很容易!
現在,讓我們進入細節!
原始資料(也稱為“ 原始 事實”或“ 原始 資料”)是您已累積並存儲在伺服器上但未被觸及的資料。這意味著您無法立即對其進行分析。我們將原始資料的收集稱為“資料收集”,這是我們要做的第一件事。
什麼是原始資料?
我們可以將資料視為傳統資料或大資料。如果您不熟悉此想法,則可以想象包含分類和數字資料的表格形式的傳統資料。該資料被結構化並存儲在可以從一臺計算機進行管理的資料庫中。收集傳統資料的一種方法是對人進行調查。要求他們以1到10的等級來評估他們對產品或體驗的滿意程度。
傳統資料是大多數人習慣的資料。例如,“訂單管理”可幫助您跟蹤銷售,購買,電子商務和工作訂單。
但是,大資料則是另外一回事了。
顧名思義,“大資料”是為超大資料保留的術語。
您還會經常看到它以字母“ V”為特徵。如“大資料的3V ”中所述。有時我們可以擁有5、7甚至11個“ V”的大資料。它們可能包括– 您對大資料的願景,大資料的價值,您使用的視覺化工具或大資料一致性中的可變性。等等…
但是,以下是您必須記住的最重要的標準:
體積
大資料需要大量的儲存空間,通常在許多計算機之間分佈。其大小以TB,PB甚至EB為單位
品種
在這裡,我們不僅在談論數字和文字。大資料通常意味著處理影象,音訊檔案,移動資料等。
速度
在處理大資料時,目標是儘可能快地從中提取模式。我們在哪裡遇到大資料?
答案是:在越來越多的行業和公司中。這是一些著名的例子。
作為最大的線上社群之一,“ Facebook”會跟蹤其使用者的姓名,個人資料,照片,影片,錄製的訊息等。這意味著他們的資料種類繁多。全世界有20億使用者,其伺服器上儲存的資料量巨大。
讓我們以“金融交易資料”為例。
當我們每5秒記錄一次股價時會發生什麼?還是每一秒鐘?我們得到了一個龐大的資料集,需要大量記憶體,磁碟空間和各種技術來從中提取有意義的資訊。
傳統資料和大資料都將為您提高客戶滿意度奠定堅實的基礎。但是這些資料會有問題,因此在進行其他任何操作之前,您都必須對其進行處理。
如何處理原始資料?
讓我們將原始資料變成美麗的東西!
在收集到足夠的原始 資料之後,要做的第一件事就是我們所謂的“資料預處理 ”。這是一組操作,會將原始資料轉換為更易理解且對進一步處理有用的格式。
我想這一步會擠在原始 資料和處理之間!也許我們應該在這裡新增一個部分...
資料預處理
那麼,“資料預處理”的目的是什麼?
它試圖解決資料收集中可能出現的問題。
例如,在您收集的某些客戶資料中,您可能有一個註冊年齡為932歲或“英國”為名字的人。在進行任何分析之前,您需要將此資料標記為無效或更正。這就是資料預處理的全部內容!
讓我們研究一下在預處理傳統和大原始資料時應用的技術嗎?
類標籤
這涉及將資料點標記為正確的資料型別,換句話說,按類別排列資料。
我們將傳統資料分為兩類:
一類是“數字” –如果您要儲存每天售出的商品數量,那麼您就在跟蹤數值。這些是您可以操縱的數字。例如,您可以計算出每天或每月銷售的平均商品數量。
另一個標籤是“分類的” –在這裡您正在處理數學無法處理的資訊。例如,一個人的職業。請記住,資料點仍然可以是數字,而不是數字。他們的出生日期是一個數字,您不能直接操縱它來給您更多的資訊。
考慮基本的客戶資料。*(使用的資料集來自我們的 SQL課程)
我們將使用包含有關客戶的文字資訊的此表來給出數字變數和分類變數之間差異的清晰示例。
注意第一列,它顯示了分配給不同客戶的ID。您無法操縱這些數字。“平均” ID不會給您任何有用的資訊。這意味著,即使它們是數字,它們也沒有數值,並且是分類資料。
現在,專注於最後一列。這顯示了客戶提出投訴的次數。您可以操縱這些數字。將它們加在一起以給出總數的投訴是有用的資訊,因此,它們是數字資料。
我們可以檢視的另一個示例是每日曆史股價資料。
*這是我們在課程Python課程中使用的內容。
您在此處看到的資料集中,有一列包含觀察日期,被視為分類資料。還有一列包含股票價格的數字資料。
當您使用大資料時,事情會變得更加複雜。除了“數字”和“分類”資料之外,您還有更多的選擇,例如:
文字資料
數字影象資料
數字影片資料
和數字音訊資料
資料清理
也稱為“ 資料清理” 或“ 資料清理”。
資料清理的目的是處理不一致的資料。這可以有多種形式。假設您收集了包含美國各州的資料集,並且四分之一的名稱拼寫錯誤。在這種情況下,您必須執行某些技術來糾正這些錯誤。您必須清除資料;線索就是名字!
大資料具有更多資料型別,並且它們具有更廣泛的資料清理方法。有一些技術可以驗證數字影象是否已準備好進行處理。並且存在一些特定方法來確保檔案的音訊 質量足以繼續進行。
缺失值
“ 缺失的 價值觀”是您必須處理的其他事情。並非每個客戶都會為您提供所需的所有資料。經常會發生的是,客戶會給您他的名字和職業,而不是他的年齡。在這種情況下您能做什麼?
您是否應該忽略客戶的整個記錄?還是您可以輸入其餘客戶的平均年齡?
無論哪種最佳解決方案,都必須先清理資料並處理缺失值,然後才能進一步處理資料。
處理傳統資料的技術
讓我們進入處理傳統資料的兩種常用技術。
平衡
想象一下,您已經編制了一份調查表,以收集有關男女購物習慣的資料。假設您想確定誰在週末花了更多錢。但是,當您完成資料收集後,您會發現80%的受訪者是女性,而只有20%是男性。
在這種情況下,您發現的趨勢將更趨向於女性。解決此問題的最佳方法是應用平衡技術。例如,從每個組中抽取相等數量的受訪者,則該比率為50/50。
資料改組
從資料集中對觀察結果進行混洗就像對一副紙牌進行混洗一樣。這將確保您的資料集不會出現由於有問題的資料收集而導致的有害模式。資料改組是一種改善預測效能並有助於避免產生誤導性結果的技術。
但是如何避免產生錯覺呢?
好吧,這是一個詳細的過程,但概括地說,混洗是一種使資料隨機化的方法。如果我從資料集中獲取前100個觀察值,則不是隨機樣本。最高的觀察值將首先被提取。如果我對資料進行混洗,那麼可以肯定的是,當我連續輸入100個條目時,它們將是隨機的(並且很可能具有代表性)。
處理大資料的技術
讓我們看一下處理大資料的一些特定於案例的技術。
文字資料探勘
想想以數字格式儲存的大量文字。嗯,正在進行許多旨在從數字資源中提取特定文字資訊的科學專案。例如,您可能有一個數據庫,該資料庫儲存了來自學術論文的有關“營銷支出”(您的研究主要主題)的資訊。如果源的數量和資料庫中儲存的文字量足夠少,則可以輕鬆找到所需的資訊。通常,儘管資料巨大。它可能包含來自學術論文,部落格文章,線上平臺,私有excel檔案等的資訊。
這不是一件容易的事,這導致學者和從業人員開發出執行“文字資料探勘”的方法。
資料遮蔽
如果您想維持可靠的業務或政府活動,則必須保留機密資訊。線上共享個人詳細資訊時,您必須對資訊應用一些“資料遮蔽”技術,以便您可以在不損害參與者隱私的情況下進行分析。
像資料改組一樣,“資料遮蔽”可能很複雜。它用隨機和假資料隱藏原始資料,並允許您進行分析並將所有機密資訊儲存在安全的地方。將資料遮蔽應用於大資料的一個示例是透過“機密性保留資料探勘”技術。
完成資料處理後,您將獲得所需的寶貴和有意義的資訊。 我希望我們對傳統資料與大資料之間的差異以及我們如何處理它們有所瞭解。
回覆列表
您是否想更好地瞭解傳統資料與大資料之間的區別,在哪裡可以找到資料以及可以使用哪些技術來處理資料?
這些是處理資料時必須採取的第一步,因此這是一個不錯的起點,特別是如果您正在考慮從事資料科學職業!
“資料”是一個廣義術語,可以指“原始事實”,“處理後的資料”或“資訊”。為了確保我們在同一頁面上,讓我們在進入細節之前將它們分開。
我們收集原始資料,然後進行處理以獲得有意義的資訊。
好吧,將它們分開很容易!
現在,讓我們進入細節!
原始資料(也稱為“ 原始 事實”或“ 原始 資料”)是您已累積並存儲在伺服器上但未被觸及的資料。這意味著您無法立即對其進行分析。我們將原始資料的收集稱為“資料收集”,這是我們要做的第一件事。
什麼是原始資料?
我們可以將資料視為傳統資料或大資料。如果您不熟悉此想法,則可以想象包含分類和數字資料的表格形式的傳統資料。該資料被結構化並存儲在可以從一臺計算機進行管理的資料庫中。收集傳統資料的一種方法是對人進行調查。要求他們以1到10的等級來評估他們對產品或體驗的滿意程度。
傳統資料是大多數人習慣的資料。例如,“訂單管理”可幫助您跟蹤銷售,購買,電子商務和工作訂單。
但是,大資料則是另外一回事了。
顧名思義,“大資料”是為超大資料保留的術語。
您還會經常看到它以字母“ V”為特徵。如“大資料的3V ”中所述。有時我們可以擁有5、7甚至11個“ V”的大資料。它們可能包括– 您對大資料的願景,大資料的價值,您使用的視覺化工具或大資料一致性中的可變性。等等…
但是,以下是您必須記住的最重要的標準:
體積
大資料需要大量的儲存空間,通常在許多計算機之間分佈。其大小以TB,PB甚至EB為單位
品種
在這裡,我們不僅在談論數字和文字。大資料通常意味著處理影象,音訊檔案,移動資料等。
速度
在處理大資料時,目標是儘可能快地從中提取模式。我們在哪裡遇到大資料?
答案是:在越來越多的行業和公司中。這是一些著名的例子。
作為最大的線上社群之一,“ Facebook”會跟蹤其使用者的姓名,個人資料,照片,影片,錄製的訊息等。這意味著他們的資料種類繁多。全世界有20億使用者,其伺服器上儲存的資料量巨大。
讓我們以“金融交易資料”為例。
當我們每5秒記錄一次股價時會發生什麼?還是每一秒鐘?我們得到了一個龐大的資料集,需要大量記憶體,磁碟空間和各種技術來從中提取有意義的資訊。
傳統資料和大資料都將為您提高客戶滿意度奠定堅實的基礎。但是這些資料會有問題,因此在進行其他任何操作之前,您都必須對其進行處理。
如何處理原始資料?
讓我們將原始資料變成美麗的東西!
在收集到足夠的原始 資料之後,要做的第一件事就是我們所謂的“資料預處理 ”。這是一組操作,會將原始資料轉換為更易理解且對進一步處理有用的格式。
我想這一步會擠在原始 資料和處理之間!也許我們應該在這裡新增一個部分...
資料預處理
那麼,“資料預處理”的目的是什麼?
它試圖解決資料收集中可能出現的問題。
例如,在您收集的某些客戶資料中,您可能有一個註冊年齡為932歲或“英國”為名字的人。在進行任何分析之前,您需要將此資料標記為無效或更正。這就是資料預處理的全部內容!
讓我們研究一下在預處理傳統和大原始資料時應用的技術嗎?
類標籤
這涉及將資料點標記為正確的資料型別,換句話說,按類別排列資料。
我們將傳統資料分為兩類:
一類是“數字” –如果您要儲存每天售出的商品數量,那麼您就在跟蹤數值。這些是您可以操縱的數字。例如,您可以計算出每天或每月銷售的平均商品數量。
另一個標籤是“分類的” –在這裡您正在處理數學無法處理的資訊。例如,一個人的職業。請記住,資料點仍然可以是數字,而不是數字。他們的出生日期是一個數字,您不能直接操縱它來給您更多的資訊。
考慮基本的客戶資料。*(使用的資料集來自我們的 SQL課程)
我們將使用包含有關客戶的文字資訊的此表來給出數字變數和分類變數之間差異的清晰示例。
注意第一列,它顯示了分配給不同客戶的ID。您無法操縱這些數字。“平均” ID不會給您任何有用的資訊。這意味著,即使它們是數字,它們也沒有數值,並且是分類資料。
現在,專注於最後一列。這顯示了客戶提出投訴的次數。您可以操縱這些數字。將它們加在一起以給出總數的投訴是有用的資訊,因此,它們是數字資料。
我們可以檢視的另一個示例是每日曆史股價資料。
*這是我們在課程Python課程中使用的內容。
您在此處看到的資料集中,有一列包含觀察日期,被視為分類資料。還有一列包含股票價格的數字資料。
當您使用大資料時,事情會變得更加複雜。除了“數字”和“分類”資料之外,您還有更多的選擇,例如:
文字資料
數字影象資料
數字影片資料
和數字音訊資料
資料清理
也稱為“ 資料清理” 或“ 資料清理”。
資料清理的目的是處理不一致的資料。這可以有多種形式。假設您收集了包含美國各州的資料集,並且四分之一的名稱拼寫錯誤。在這種情況下,您必須執行某些技術來糾正這些錯誤。您必須清除資料;線索就是名字!
大資料具有更多資料型別,並且它們具有更廣泛的資料清理方法。有一些技術可以驗證數字影象是否已準備好進行處理。並且存在一些特定方法來確保檔案的音訊 質量足以繼續進行。
缺失值
“ 缺失的 價值觀”是您必須處理的其他事情。並非每個客戶都會為您提供所需的所有資料。經常會發生的是,客戶會給您他的名字和職業,而不是他的年齡。在這種情況下您能做什麼?
您是否應該忽略客戶的整個記錄?還是您可以輸入其餘客戶的平均年齡?
無論哪種最佳解決方案,都必須先清理資料並處理缺失值,然後才能進一步處理資料。
處理傳統資料的技術
讓我們進入處理傳統資料的兩種常用技術。
平衡
想象一下,您已經編制了一份調查表,以收集有關男女購物習慣的資料。假設您想確定誰在週末花了更多錢。但是,當您完成資料收集後,您會發現80%的受訪者是女性,而只有20%是男性。
在這種情況下,您發現的趨勢將更趨向於女性。解決此問題的最佳方法是應用平衡技術。例如,從每個組中抽取相等數量的受訪者,則該比率為50/50。
資料改組
從資料集中對觀察結果進行混洗就像對一副紙牌進行混洗一樣。這將確保您的資料集不會出現由於有問題的資料收集而導致的有害模式。資料改組是一種改善預測效能並有助於避免產生誤導性結果的技術。
但是如何避免產生錯覺呢?
好吧,這是一個詳細的過程,但概括地說,混洗是一種使資料隨機化的方法。如果我從資料集中獲取前100個觀察值,則不是隨機樣本。最高的觀察值將首先被提取。如果我對資料進行混洗,那麼可以肯定的是,當我連續輸入100個條目時,它們將是隨機的(並且很可能具有代表性)。
處理大資料的技術
讓我們看一下處理大資料的一些特定於案例的技術。
文字資料探勘
想想以數字格式儲存的大量文字。嗯,正在進行許多旨在從數字資源中提取特定文字資訊的科學專案。例如,您可能有一個數據庫,該資料庫儲存了來自學術論文的有關“營銷支出”(您的研究主要主題)的資訊。大資料分析技術有哪些https://www.aaa-cg.com.cn/data/2272.html如果源的數量和資料庫中儲存的文字量足夠少,則可以輕鬆找到所需的資訊。通常,儘管資料巨大。它可能包含來自學術論文,部落格文章,線上平臺,私有excel檔案等的資訊。
這不是一件容易的事,這導致學者和從業人員開發出執行“文字資料探勘”的方法。
資料遮蔽
如果您想維持可靠的業務或政府活動,則必須保留機密資訊。線上共享個人詳細資訊時,您必須對資訊應用一些“資料遮蔽”技術,以便您可以在不損害參與者隱私的情況下進行分析。
像資料改組一樣,“資料遮蔽”可能很複雜。它用隨機和假資料隱藏原始資料,並允許您進行分析並將所有機密資訊儲存在安全的地方。將資料遮蔽應用於大資料的一個示例是透過“機密性保留資料探勘”技術。
完成資料處理後,您將獲得所需的寶貴和有意義的資訊。我希望我們對傳統資料與大資料之間的差異以及我們如何處理它們有所瞭解。
https://www.toutiao.com/i6820650243210609166/