國內電信運營商經歷了一個絕佳的寬頻業務發展期,使用者規模迅速擴大,主要運營精力集中在業務快速開通,搶佔市場後接下來就是存量運營。
國內寬頻網路運營的特點較為明顯:
海量業務配比少量運維,比例差異巨大:某中型省份運營人員<3千,使用者家庭>1000萬,每戶寬頻除了基礎寬頻業務還有IPTV、電話等業務,業務和運維的比例1:1萬;
售前中後服務過程資訊和業務使用日誌資訊分散:這對應一線服務售後人員來說,要查詢分析使用這些資料有相當的難度;
被動式售後運營:需要使用者投訴後才被動處理,缺少主動服務的能力和人力;
對接入網裝置的檢修和擴容,缺少智慧的發現和閉環的質量檢測:主要依賴人員經驗和報障。
但同時國家對運營商提出了“提速降費”的要求,意為網路質量要進一步提升,但單使用者收入還要進一步降低。這對於網路運營成本壓力更大,運營難度更高。
解決思路基於目前運營過程中的特點、痛點以及日益成熟的基礎工具層,我們決定採用寬頻使用者大資料採集和基於場景建模分析的方案來解決這個問題。
質量建模:根據運營寬頻相關業務特點,設計各種屬性進行描述。資料採集:按模型要求的各種屬性值,定期從各個系統中把基礎資料找出來。質量畫像:透過基礎資料按模型演算法,對業務進行精準的描述,同時將運營需要重點關注的事件和使用者標註出來,實現運營精準定位。關聯處理:根據不同事件找到對應業務系統,建立自動派單和回單,實現主動運營。閉環分析:對回單事件和使用者進行重點跟蹤分析,確保主動運營的質量。對於不達標的運營處理還可以退單重新處理,或者升級處理。寬頻業務質量模型網路質量評估的基礎模型
≥≥≥≥QoE(Quality of Experience)即使用者體驗,是使用者對網路提供的業務效能的主觀感受。
QoS(Quality of Service)即服務質量,是決定使用者滿意程度的服務效能的綜合效果。
KQI(Key Quality Indicators)即關鍵質量指標,是主要針對不同業務提出的貼近使用者感受的業務質量引數,是業務層面的關鍵指標,可能是不同業務或應用的質量引數。
KPI(Key Performance Indication)即關鍵業績指標,通常是網路層面的可監視可測量的重要引數。
網路質量評估的參考模型
目前國際可參考的QoE研究情況和相關標準
組織機構標準文件研究要點
國際電信聯盟
ITU-T
ITU-T Rec E.800服務質量、網路效能及可靠性有關術語的定義側重影片,分為影片的主觀評測、雙端檔案模式(收發對比)、客觀實時評測(解碼功能嵌入評測裝置)
歐洲電信標準協會
ETSI
ETR003 KQI基於客戶感知的通訊服務技術相關衡量指標對不同類別的業務的效能指標(即業務KPI),以使用者的角度加以定義和描述,提出了具體的統計方法和參考點,為QoE KQI到網路/網元 KPI的對映分析奠定了基礎
電信管理論壇
TMF
GB923無線通訊服務管理手冊2.5G/3G無線資料通訊服務相關的一套KPI/KQI設計思路與架構以及相對應的服務質量管理模型,更重視使用者體驗管理
ETSI-使用者體驗模型,以使用者的角度加以定義和描述,提出了具體的統計方法和參考點,為QoE KQI到網路/網元KPI的對映分析奠定了基礎,更貼近家庭寬頻業務模型。
ETSI理想的網路質量模型從使用者全生命週期出發,按照可用度(Vailability)、完整度(Integrity)、時效(Time)、覆蓋面(Capacity)、可靠性(Reliability)、彈性(Flexibility)、易用性(Usability)、安全(security)對生命週期各階段的效能指標進行定義。
ETSI模型覆蓋使用者全生命週期,從售前到售中到售後到使用者登出。根據我們前面建模的思路,現實運營水平,我們選取了“2.Service provisioning,5.Repair/Trouble-shooting,9.Service utilization”子集作為我們建模的基礎參考。
基於現實條件下的光網質量模型
根據FTTx光網家庭寬頻特點,從使用者裝拆改、修障和正常使用業務場景出發,我們選取了可用度、可靠度、舒適度3大類一級指標,並拆分定義出了二級指標。
按照前面形成的指標分類方法,針對光寬使用者健康度模型,我們根據二級指標量化出了KQI和KPI,並建立了KQI指標權重和具體的演算法。
業務質量健康度=Σ(KQI實際得分)=Σ(KQI得分*權重)
業務指標無量綱化處理和評分
在指標評估計算的過程中,各個指標之間的單位和量級存在差異,無法直接進行評估計算,需要透過無量綱化的數學變化,來消除指標差異性,形成標準化得分。常用方法有:
Min-max 標準化:(原資料-極小值)/(極大值-極小值。
Decimal scaling小數定標標準化:x'=x/(10*j),j是滿足條件的最小整數。
z-score 標準化 :(xij-xi)/ si , 各指標的算術平均值xi,標準差si ,z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。
區間值對映:透過表格定義自定義曲線區間取值,靈活建模,針對B曲線、拋物線等類似非線性曲線,對於無法準確判斷公式的情況下采用經驗值判斷的情況下使用。
部分業務指標計算公式實現參考
>可用度-裝移機水平-裝移機單履約偏離程度
裝移機施工單預約開始時間(小時):t0移機施工單預約結束時間(小時):t1AAA上網話單使用者開始首次上網記錄開始時間(小時):x
得分=case(x<t0,0, t0<=x<=t1+2,100, x>t1+2,0)
>可靠度-終端可用情況
ONU離網累積時長(分鐘):x1
ONU掉電累積時長(分鐘):x2
得分=case(x1<=30||x2<=30,100,
0<x1<=60||30<x2<=60,80,
60<x1<=120||60<x2<=120,60, x1>120||x2>120,0)
>可靠性-傳輸穩定性-光網路穩定性
PON口光模組電流不達標次數:x1
PON口光模組電壓不達標次數:x2=
PON口光模組溫度不達標次數:x3
ONU裝置上聯口光模組電流不達標次數:x4
ONU裝置上聯口光模組電壓不達標次數:x5
ONU裝置上聯口光模組溫度不達標次數:x6
BRAS/SR裝置CPU利用率超標次數:x7
BRAS/SR裝置記憶體使用率超標次數:x8
BRAS/SR裝置線上使用者數超標次數:x9
BRAS/SR裝置板卡NAT444會話負載情況超標次數:x10
BRAS/SR裝置板卡DS-LITE會話負載情況超標次數:x11
BRAS/SR裝置板卡CGN單板NAT會話負載情況超標次數:x12
BRAS/SR裝置板卡CPU利用率超標次數:x13
BRAS/SR裝置板卡記憶體使用率超標次數:x14
BRAS/SR裝置板卡溫度超標次數:x15
BRAS/SR裝置板卡電壓超標次數:x16
OLT/ONU/BRAS/SR/匯聚交換機裝置告警次數:x17
得分=100-0.5*
>舒適度-網路效能-接入網效能情況
OLT埠利用率超標次數:x1
BRAS/SR裝置埠利用率超標次數:x2
得分=100-2*
>舒適度-傳輸穩定性-使用者光衰偏離情況
上行光衰=10xlog{ONU接收光功率/OLT傳送光功率}
下行光衰=10xlog{OLT接收光功率/ONU傳送光功率}
光網質量巡檢上行光衰(db):x1光網質量巡檢下行光衰(db):x2裝移機單竣工測試上行光衰(db):x3裝移機單竣工測試下行光衰(db):x4上行光衰得分:y1下行光衰得分:y2得分:y=y1+y2
y1=case(x1-x3<=2,50, 2<x1-x3<=3,40, 3<x1-x3<=4,30, 4<x1-x3<=5,20,0)
Y2=case(x2-x4<=2,50,
2<x2-x4<=3,40, 3<x2-x4<=4,30, 4<x2-x4<=5,20,0)
技術實現參考
基礎資料採集參考
平臺基於分散式的採集器將採集到的檔案資料經過解析後入庫到Hadoop檔案系統,並按照不同介面分目錄存放資料。
使用者健康度應用
平臺每天自動計算出使用者的健康度評分,可在介面查詢使用者基本資訊和得分情況,並可展示每個KPI指標得分情況,一線裝維人員在處理投訴故障的時候使用。
使用者裝移機竣工後7天內質量自動跟蹤分析,如果連續多次(可設定)出現質量不達標(比如:下行光衰>32db,規則可設定)情況或劣化趨勢,自動生成整治單,並派發後端系統,後端系統派發給相關處理人員或處理部門,處理完成後進行回單,形成閉環管理。
模型擴充套件使用在實際應用的時候,由於光寬使用者基數數量級很大,同時由於共用局端接入裝置使用者高度聚集,相關性相似性較強,可進一步簡化應用場景,對接入網裝置健康度進行建模。
接入裝置預檢預修模型
OLT預檢預修模型,根據OLT下使用者下行光衰達標情況(光衰不達標率(使用者下行光衰超閥數量/使用者總數量)超過閥值60%(閥值可設定)),自動啟動OLT整治單流程,並可透過監控頁面查詢整治單處理情況。
OBD預檢預修模型,根據OBD下使用者下行光衰達標情況(光衰不達標率(使用者下行光衰超閥數量/使用者總數量)超過閥值60%(閥值可設定)),自動啟動OBD整治單流程,並可透過監控頁面查詢整治單處理情況。
接入裝置智慧擴容模型
接入裝置智慧擴容,透過對網路能力、市場發展、價值等級、服務等級、業務頻寬、流量承載等多維度資料探勘,建立分級預警擴容模型,生成擴容單輸出擴容方案,自動生成整治單,並派發電子運維繫統,安排相關處理人員或處理部門,處理完成後進行回單形成閉環。
CR、BRAS、OLT裝置上聯口擴容:根據上聯口峰值利用率(60%,閥值可設定)和區域客戶增加量,啟動上聯口擴容流程。(每天計算,持續跟蹤一段時間,如果峰值利用率多次超閥並且客戶量持續增加,生成擴容單,擴容工單等級。
PON口擴容:滿足以下3個條件中任意一個並且PON口下客戶ARPU值XX超過XX個啟動PON口擴容(每天計算,持續跟蹤一段時間,如果多次超閥,生成擴容單。
PON口下使用者開通總頻寬達到閾值(使用者訂購簽約總頻寬為PON頻寬的2倍)。
PON口頻寬峰值利用率超閾值(45%,閥值可設定),連續XX天區域客戶增加XX
PON口下千兆(可設定)客戶數超過2個。
OBD擴容:末級分光器總埠數小於所覆蓋的範圍家庭數,且OBD剩餘空閒埠小於2時,擴容量為覆蓋範圍使用者數減去OBD當前容量。(每天計算,滿足擴容要求,立即生成擴容單,擴容工單等級預設高)。
難點和解決方案資源資料的準確性
難點:資源樹資料是基礎資料,直接影響到後面的診斷分析結論,常見的問題如:loid找不到、終端sn全是FFFFFF,onu mac全是000000,找不到一級分光,末級分光等等的情況,KPI資料無法關聯到裝置或者使用者。
解決方案:在現有資源樹系統(其他廠家)拼裝的邏輯下,我們透過與資源系統、AAA話單同步獲取資料進行異常資料補全,再次透過頁面展示、人工確認修改的方式,補全資源樹中資料異常、內容缺失的欄位。
採集資料的有效性
解決方案:不同系統資料分介面入Hadoop檔案系統不同路徑下,指標計算時(SPARK)分介面計算,資料來齊的介面可先計算,計算出來的指標按介面儲存方式儲存到hadoop檔案系統,不同介面的指標相對獨立,當前介面資料異常時進行補償採集,不影響其他介面資料計算。
採集資料的及時性
一些非實時性的效能、告警等資料,資料量特別大,為不影響生產,通常會在凌晨的空閒時間進行同步,容易造成資料採集不全,影響第二天的統計分析資料。
解決方案:首先透過對資料檔案入Hadoop前進行標準化操作,減少指標提取轉換時間,其次透過分介面計算邏輯,不同介面指標分別獨立先計算,縮短最後得分計算時間。
效益分析寬頻網路質量分析在多個運營商省份實現落地,在實際應用中取得了良好的應用效果。業務效果在以下幾個方面得到充分體現:
客戶感知提升:透過裝維7天質量跟蹤應用,快速主動完成業務與裝置維修,極大的提升了客戶的感知度,萬投比平均下降了30%以上。
運營效率提升:傳統的運營主要以使用者報障被動處理為主,運營工作量大。平臺上線後,可主動發現使用者網路故障並定位具體的故障原因,自動派發後端處理。特別是一線運維人員透過APP可直接檢視使用者的網路使用日誌等資訊,降低了故障投訴的原因定位時間。
裝置智慧擴容:傳統的裝置擴容建設,往往按照建設部門的經驗、市場需求,無法做到裝置擴容的準確和及時性。透過接入網自動擴容應用建設,建立裝置精準擴容機制,自動發起裝置擴容需求,大大降低了網路裝置資源的閒置率(光模組冗餘度從之前20%+降低到10%)。