資料分析教材適合在經營投資,研究與開發,生產產品,製造工程,質量管理,服務等領域,分析資料其波動性和規律性,探究影響的主要因素,加以改善和控制,使事物保持向預期健康發展;
現實工程工作中,分析資料的目的:1.鑑別和驗證變數之間相互關係;2. 對影響關鍵指標的自變數進行改善和控制,以達到符合希望的目標結果;實際工作中,相關和迴歸分析法可以根據輸入的變化對輸出結果進行預測,從而確定是否對輸入進行調整,即改善和控制自變數,對因變數進行預測和實現);
本節教材主要介紹數值型因變數和數值型之間關係的分析方法-相關與迴歸分析。分類方式
從所處理的變數多少分類:1)研究分析兩個變數之間的關係,稱為簡單相關和迴歸分析;2)如果研究兩個以上變數之間關係,稱為多元相關和多元迴歸分析;
從變數之間關係分類:有線性相關與線性迴歸分析及非線性迴歸分析;
本節教材主要介紹簡單相關和迴歸分析的方法;
一、相關性分析:
1.分析自變數(X)對因變數(Y)的影響,採集到的資料如下:
圖1
2.散佈圖分析,由自變數,因變數組成的散佈圖10個點座標:
圖2
圖3
散佈圖顯示資料分佈呈一條細帶型; 由左下角延伸至右上角;粗略顯示因變數(Y)隨自變數(X)增加而增加;
3.相關係數(r)來描述變數(X)與Y之間線性相關程度的引數;可以精確量化x和y的相互關係。公式不再贅述,直接分析;
圖4
相關係數r=0.914>0.8, 可以視為自變數(x)和因變數(y)高度相關;
顯示顯著水平P值 p-value=0.000<0.05, 因此x和y之間存在相關關係;
二 、迴歸分析:
至此,可以小結確定變數間的相關性及相關程度;但是,在解決實際問題時,僅做到這一步還不夠;分析的目的是發現主要因素並找到其影響規律;隨著關鍵少數因子(X)的變化,因變數(Y)如何變化,對應於x的變化量,y的變化量為多少?迴歸分析就是用來定量分析變數x和因變數y間關係的方法。透過迴歸分析可以將研究分析的變數轉換成用方程來表示x和y的關係式;使用迴歸分析可以自眾多的變數篩選出潛在的少數x;對y進行預測和最佳化;以及確定對應於y的最優值的x的區間;
1.一元線性迴歸方程,y=ax+b+έ (a,b稱為迴歸係數,έ是模型的誤差項,代表隨機誤差);為簡化講解過程,使用迴歸模組分析圖1變數間關係:
圖5
圖6 迴歸-選項
圖7
自以上輸出可知以下結論:
1) 得到迴歸方程:Y=-25.7+40.8X;
2)迴歸方程的顯著項:本例常數項和係數均為顯著項;
3)R平方和R平方(adj):這兩個引數表示迴歸方程可以解釋的變差佔總變差的百分比,本例為83.5%;可能還存在其他因素的影響;
4)迴歸方程的方差分析結果:本例P值<0.05, 因此以95%的置信度認為迴歸方程擬合良好;
5)得到Y的預測值,預測區間(95.0%CI)和置信區間(95.0%PI);
三 、殘差分析:
殘差分析是建立在前面迴歸分析的基礎之上
圖8
1.殘差正態分佈圖:樣本數太少,僅供參考;
2.殘差直方圖:本例僅供參考!要自直方圖得出結論,樣本數需30個以上,才能進行分析;
3.殘差(與擬合值)圖:呈拋物線狀,說明x和y之間有非線性相關關係;因資料量太小,後續介紹二次非線性方程來擬合時進行講解;
4.殘差(與順序)控制圖:控制界限是殘差e+/-3sigma,無超出點,說明無異常
四 、圖示迴歸分析結果:
圖9
1.迴歸方程:Y=-25.66+40.83X;
2.中間一條直線表示迴歸方程的擬合值;
3.緊靠直線的兩條虛線代表擬合值均值在95%置信度下的置信區間;
4.最靠外的兩條畫線代表擬合值在95%置信度下的預測區間;
後續,在資料分析教材,將介紹非線性相關關係和一元非線性相關回歸分析,多元線性迴歸和非線性迴歸分析。希望對您的學習和工作有幫助。
日期:2020年12月20日