資料特徵分析計算公式？

首頁>Club>2021-04-22 20:35

資料特徵分析計算公式？

回覆列表

1 # 使用者1047557101249

用於描述資料的基本統計量主要分為三類，分別是中心趨勢統計量、散佈程度統計量和分佈形狀統計量。

1，中心趨勢統計量

中心趨勢統計量是指表示位置的統計量，直觀地說，給定一個屬性，它的值大部分落在何處？

（1）均值

均值（mean）又稱算數平均數，描述資料去指導額平均位置，數學表示式：均值 = ∑x / n；
有時，一組資料中的每個值可以和一個權重Wi相關聯，權重反映的的是依附值的重要性或出現的頻率，這種均值稱作加權均值 = ∑xw / n；

儘管均值是描述資料集中心趨勢的最有用的統計量，但是，它並非總是度量資料中心的最佳方法，這是因為，均值對極端值（離群點）很敏感。為了抵消少數極端值的影響，我們可以使用截尾均值，截尾均值是指丟棄極端值後的均值。

（2）中位數

對於傾斜（非對稱）的資料，能夠更好地描述資料中心的統計量是中位數（median），中位數是有序資料值的中間值，中位數可避免極端資料，代表這資料總體的中等情況。例如：從小到大排序，總數是奇數，取中間的數，總數是偶數，取中間兩個數的平均數。
（3）眾數

眾數（mode）是變數中出現頻率最大的值，通常用於對定性資料確定眾數，例如：使用者狀態（正常，欠費停機，申請停機，拆機、消號），該變數的眾數是“正常”，這種情況是正常的。

2，表示資料離散程度的統計量

度量資料離散程度的統計量主要是標準差和四分位極差。

（1）標準差（或方差）

標準差用於度量資料分佈的離散程度，低標準差意味著資料觀測趨向於靠近均值，高標準差表示資料散步在一個大的值域中。

（2）四分位極差

極差（range），也稱作值域，是一組資料中的最大值和最小值的差， range = Max - Min。

百分位數（quantile）是把資料值按照從小到大的順序排列，把資料分成100份。中位數是資料的中間位置上的資料，第一個四分位數記作Q1，是指第25個百分位上的資料，第三個四分位數記作（Q3），是指第75個百分位上的資料。
四分位極差（IQR）= Q3 - Q1 ，IQR是指第一個四分位和第三個四分位之間的距離，它給出被資料的中間一半所覆蓋的範圍，是表示資料離散程度的一個簡單度量。

劇多

資料特徵分析計算公式？

相關內容