因子分析法是假設有一個(理論)總體和你研究的(現實)總體一模一樣,並且假設這個(理論)總體的大部分變化是幾個不能觀測的潛在變數導致的表徵的交疊,這些變化可以由那少數幾個不相關的潛在變數(公共因子)線性加權表示,總體中其餘那部分不能由這幾個公共因子表示的變化是總體和外界(它所屬的更高層系統或其他領域)之間關聯產生的,它們的變化從總體內部不能解釋。於是,研究這些公共因子之間的結構就是可以知道(理論)總體的內部結構了。因子分析的假設的致命缺點是潛在變數(公共因子)和總體之間的因果聯絡是假設的,建立起來的因子模式是強加的假想模型,而主成分分析法則是對總體中各變數的變化情況作了一個新的總結而且它是實實在在的,沒有新增新東西,也沒有假想。它們都是研究變數間關係的工具,只是各有側重。主成分分析法雖然沒有假設,而且可以把總體的所有變化儘量用更高的效率集中到少數幾個變數(主成分)上,從而為降維研究提供基礎,但它得到的主成份不能反映各變數之間的相關結構,因子模型則可以表現變數之間的相關結構。
實際操作時:先選取一組觀測變數,假想它們來自一個(理論)總體,用它模擬(現實)總體,選出來的觀測變數到底是不是一個總體的,它們之間有沒有一定的關聯性等,關係到能不能運用因子分析法進行研究。這個過程做得不好的話,後面相關矩陣出現負的特徵值或者選出來的主軸因子明顯和經驗不符等問題可能冒出來。因子分析法只能研究屬於一個總體的結構,明顯不屬於一個總體的觀測變數混到一起是不合適的。然後是各變數的觀測資料了,這些資料可能來自一個群體,也可能是多個群體,模型中只研究一個群體的因子分析法叫探索性因子分析法(R型因子分析),模型可以比較不同群體的因子結構的因子分析法叫驗證性因子分析法(Q型因子分析),實際操作時,驗證性因子分析法往往比探索性因子分析法的更進一步,因為進行驗證性因子分析法需要設定一些重要引數,這些引數往往需要是從在探索性因子分析法得到的模型的特徵中判斷得來,除非你靠經驗就能設定這些引數。最後就是觀測變數的資料樣本的選取了,這個過程也是少不了抽樣變異、測量誤差,缺少隨機性等問題的,它們是因子模型和資料不吻合的一部分原因。MSA和最大似然法的卡方檢驗就是檢測這種吻合程度的工具。一般地,樣本越多得到的因子結構越穩定。
研究變數的相關關係決定了因子分析法最適合研究定距資料,用來算分類、分組資料效果不會太佳,除非分組夠多且被分組變數在理論上是連續的。不管你用什麼抽取、旋轉方法得到怎樣的因子結構,因子分析法最基本的目的——變數的叢集——都是不變的。
因子分析法的幾何解釋:假設研究的觀測變數共有n個,把這n個變數看成n維空間中的一個向量,可以表示為(X1,X2,X3…,Xn),把這個向量向n個相互垂直的座標軸(因子軸)上投影,會得到這n個變數在n條軸上共n^2個座標值(因子負載),但是這也太多了吧,^_^,等等,我們可以發現在某幾條座標軸上,其得到的投影大,在其上投影大的變數又多,這就是變數叢的叢集現象。於是,我們把這少數幾個負載了大多數變數,承載了它們大多數變化的軸給提取出來,並且忽略其它一些其中的投影很小甚至為零的因子軸,就得到了主要公共因子,認為這幾個因子解釋了樣本的大部分變化。每個公共因子上都有n個負載,把觀測變數排成縱隊,因子軸排成橫隊,相應的因子負載(載荷)記在表中,這就是初始因子軸矩陣。關於抽取哪些因子忽略哪些因子,應該保留幾個因子等問題,可以藉助碎石檢驗、Kraiser準則等工具。事實上我們抽取的因子它們載荷還是太複雜,不符合“簡單結構”原則(各因子的因子複雜度為1,即一個變數只負載於一個因子上),這對以後提取因子尺度或基於因子的尺度是很不利的,為了得到簡單結構,轉動因子軸(之前被忽略的軸不再考慮,只考慮抽取出來的),改變向量在各個軸上的載荷,直到每個變數儘量在某一個或兩個因子軸上的投影很大,而且在餘下的那些軸上投影為零,在旋轉時,保持各軸相互垂直的旋轉方法叫正交旋轉法(但這是強加的因子軸之間的關係,真實情況下變數之間仍然可能是相關的),不要求保持各軸垂直的旋轉方法叫斜交旋轉法(如果用這種方法得到的最終的各因子軸之間是正交的,那說明它們負載的變數之間真的相關性很小)。轉軸的目的是達到簡單結構(現實中是達不到的,只能接近它,因此關於簡單結構應該採取的現實形式是有很多爭議的)。在具體操作時,正交旋轉法用的是簡化行或列或都簡化的方法,每次轉動兩條軸,逐步迭代迴圈,不斷迴圈到各軸上的負載向0和1分化符合判定標準(再迴圈一次總方差只能增加忽略不計的大小)為止。斜交旋轉法則分為設定參照軸(參考向量)作為目標軸的轉法和不設參照軸的轉法,或者分為基於初始因子軸矩陣的轉法和不基於初始因子軸矩陣的方法,對相關係數系矩陣對角線上賦於不同演算法的共通值的主法構成了不同的抽取方法,比如主成分的分析法、最小二乘法、Alpha方法,映像方法等,對初始因子軸矩陣中不同行賦以不同權重的方法構成了正交或斜交旋轉法中不同的分類,比如Quartimax法、Varimax法、二分四次方差最大化法等。
因子分析法實現降維的方法和主成分分析法是類似的,因子分析法只是用共通值修過的相關係數(或協方差)矩陣做主成分分析演算法而已,這也是為什麼初始抽取出來的第一個公因子上的荷載最大,解釋的方差最大的原因。因子分析法的幾何解釋:在n維空間中,把各個變數看成一個個的點,這些點都具有n個座標,然後在這個維空間中作線,不同方向的線去嘗試,有一條線它離所有點的距離的平方和最小,這條線代表了一個數據叢,它就是第一主成份,然後垂直於這一條線畫線,在解釋剩下的點上,達到了各個點到它的距離的平方和最小,它就是第二主成分,以此類推,從而各個主成分彼此不相關,而且依次解釋總體所有的變化,選擇解釋了能夠引起重視的大小的變化的線作為主成分,主成分分析完畢。
因子分析法是假設有一個(理論)總體和你研究的(現實)總體一模一樣,並且假設這個(理論)總體的大部分變化是幾個不能觀測的潛在變數導致的表徵的交疊,這些變化可以由那少數幾個不相關的潛在變數(公共因子)線性加權表示,總體中其餘那部分不能由這幾個公共因子表示的變化是總體和外界(它所屬的更高層系統或其他領域)之間關聯產生的,它們的變化從總體內部不能解釋。於是,研究這些公共因子之間的結構就是可以知道(理論)總體的內部結構了。因子分析的假設的致命缺點是潛在變數(公共因子)和總體之間的因果聯絡是假設的,建立起來的因子模式是強加的假想模型,而主成分分析法則是對總體中各變數的變化情況作了一個新的總結而且它是實實在在的,沒有新增新東西,也沒有假想。它們都是研究變數間關係的工具,只是各有側重。主成分分析法雖然沒有假設,而且可以把總體的所有變化儘量用更高的效率集中到少數幾個變數(主成分)上,從而為降維研究提供基礎,但它得到的主成份不能反映各變數之間的相關結構,因子模型則可以表現變數之間的相關結構。
實際操作時:先選取一組觀測變數,假想它們來自一個(理論)總體,用它模擬(現實)總體,選出來的觀測變數到底是不是一個總體的,它們之間有沒有一定的關聯性等,關係到能不能運用因子分析法進行研究。這個過程做得不好的話,後面相關矩陣出現負的特徵值或者選出來的主軸因子明顯和經驗不符等問題可能冒出來。因子分析法只能研究屬於一個總體的結構,明顯不屬於一個總體的觀測變數混到一起是不合適的。然後是各變數的觀測資料了,這些資料可能來自一個群體,也可能是多個群體,模型中只研究一個群體的因子分析法叫探索性因子分析法(R型因子分析),模型可以比較不同群體的因子結構的因子分析法叫驗證性因子分析法(Q型因子分析),實際操作時,驗證性因子分析法往往比探索性因子分析法的更進一步,因為進行驗證性因子分析法需要設定一些重要引數,這些引數往往需要是從在探索性因子分析法得到的模型的特徵中判斷得來,除非你靠經驗就能設定這些引數。最後就是觀測變數的資料樣本的選取了,這個過程也是少不了抽樣變異、測量誤差,缺少隨機性等問題的,它們是因子模型和資料不吻合的一部分原因。MSA和最大似然法的卡方檢驗就是檢測這種吻合程度的工具。一般地,樣本越多得到的因子結構越穩定。
研究變數的相關關係決定了因子分析法最適合研究定距資料,用來算分類、分組資料效果不會太佳,除非分組夠多且被分組變數在理論上是連續的。不管你用什麼抽取、旋轉方法得到怎樣的因子結構,因子分析法最基本的目的——變數的叢集——都是不變的。
因子分析法的幾何解釋:假設研究的觀測變數共有n個,把這n個變數看成n維空間中的一個向量,可以表示為(X1,X2,X3…,Xn),把這個向量向n個相互垂直的座標軸(因子軸)上投影,會得到這n個變數在n條軸上共n^2個座標值(因子負載),但是這也太多了吧,^_^,等等,我們可以發現在某幾條座標軸上,其得到的投影大,在其上投影大的變數又多,這就是變數叢的叢集現象。於是,我們把這少數幾個負載了大多數變數,承載了它們大多數變化的軸給提取出來,並且忽略其它一些其中的投影很小甚至為零的因子軸,就得到了主要公共因子,認為這幾個因子解釋了樣本的大部分變化。每個公共因子上都有n個負載,把觀測變數排成縱隊,因子軸排成橫隊,相應的因子負載(載荷)記在表中,這就是初始因子軸矩陣。關於抽取哪些因子忽略哪些因子,應該保留幾個因子等問題,可以藉助碎石檢驗、Kraiser準則等工具。事實上我們抽取的因子它們載荷還是太複雜,不符合“簡單結構”原則(各因子的因子複雜度為1,即一個變數只負載於一個因子上),這對以後提取因子尺度或基於因子的尺度是很不利的,為了得到簡單結構,轉動因子軸(之前被忽略的軸不再考慮,只考慮抽取出來的),改變向量在各個軸上的載荷,直到每個變數儘量在某一個或兩個因子軸上的投影很大,而且在餘下的那些軸上投影為零,在旋轉時,保持各軸相互垂直的旋轉方法叫正交旋轉法(但這是強加的因子軸之間的關係,真實情況下變數之間仍然可能是相關的),不要求保持各軸垂直的旋轉方法叫斜交旋轉法(如果用這種方法得到的最終的各因子軸之間是正交的,那說明它們負載的變數之間真的相關性很小)。轉軸的目的是達到簡單結構(現實中是達不到的,只能接近它,因此關於簡單結構應該採取的現實形式是有很多爭議的)。在具體操作時,正交旋轉法用的是簡化行或列或都簡化的方法,每次轉動兩條軸,逐步迭代迴圈,不斷迴圈到各軸上的負載向0和1分化符合判定標準(再迴圈一次總方差只能增加忽略不計的大小)為止。斜交旋轉法則分為設定參照軸(參考向量)作為目標軸的轉法和不設參照軸的轉法,或者分為基於初始因子軸矩陣的轉法和不基於初始因子軸矩陣的方法,對相關係數系矩陣對角線上賦於不同演算法的共通值的主法構成了不同的抽取方法,比如主成分的分析法、最小二乘法、Alpha方法,映像方法等,對初始因子軸矩陣中不同行賦以不同權重的方法構成了正交或斜交旋轉法中不同的分類,比如Quartimax法、Varimax法、二分四次方差最大化法等。
因子分析法實現降維的方法和主成分分析法是類似的,因子分析法只是用共通值修過的相關係數(或協方差)矩陣做主成分分析演算法而已,這也是為什麼初始抽取出來的第一個公因子上的荷載最大,解釋的方差最大的原因。因子分析法的幾何解釋:在n維空間中,把各個變數看成一個個的點,這些點都具有n個座標,然後在這個維空間中作線,不同方向的線去嘗試,有一條線它離所有點的距離的平方和最小,這條線代表了一個數據叢,它就是第一主成份,然後垂直於這一條線畫線,在解釋剩下的點上,達到了各個點到它的距離的平方和最小,它就是第二主成分,以此類推,從而各個主成分彼此不相關,而且依次解釋總體所有的變化,選擇解釋了能夠引起重視的大小的變化的線作為主成分,主成分分析完畢。