-
1 # 16根資料線
-
2 # 風火0357
首先說一下大資料在金融行業的具體運用吧
金融行業猶如國民經濟的血脈,滲入市場的各個環節,與宏觀經濟和微觀經濟生活都密切相關,而中國擁有14億的龐大人口,社會生活多元化,需求多元化。在此複雜多變的背景下,金融機構要想實現正確的商業判斷,難度很大,但藉助金融大資料分析軟體,可以實現更全面更精準的決策。例如,在個人信用風險控制方面,金融機構除了可以從人民銀行徵信中心調取資料外,還可以利用網路、電商等不同來源的“大資料”,來解決個人客戶信用評價的全面性與客觀性不足的問題。
目前,金融行業越來越重視大資料的應用,但面臨一些疑惑:分析處理什麼資料?資料怎麼分析處理?資料用在哪些產品或活動中?基於大資料做出的分析判斷如何落地推動業務發展?
從現狀來看,大資料目前最主要應用在於幫助金融機構實現“精準營銷”、“客戶價值管理”和“風險控制”。
首先,實現精準營銷。傳統上,營銷無外乎是尋找目標客群、細分目標客群、觸達客群個體。但採用利用大資料機器學習的分析手法,金融機構可以判斷他們的習慣偏好以及短期需求,形成畫像描述,從而找到精準的目標客群。在第三方大資料支援下,金融機構可以在網際網路使用者中發掘需求。一般在3-5次業務資料迴圈後,營銷的效果會達到最優。比如,某銀行的現金貸款營銷中,經過5次大資料最佳化,客戶響應率、響應客戶的資質合格率均有大幅度提升。
其次,高效的客戶價值管理。目前,儘管大型金融機構沉澱了大量客戶及客戶資訊,但從大資料角度看,由於對客戶資訊缺乏挖掘、分析,導致對存量客戶的瞭解不能加深,金融機構在進行客戶管理時的效率提升會遇到困難。
以客戶啟用為例,某行有4億的存量客戶,其中30%以上客戶為靜止客戶,但在這1億多靜止客戶中,銀行對哪些是高淨值客戶,哪些需要加大力度挽留一直不得而知。如果對所有的靜止客戶進行啟用,則成本會相對較高。
但藉助大資料進行客戶聚類和客戶行為分析,為金融機構的客戶啟用、客戶管理和產品設計提供更精準的依據,幫助金融機構整體提升存量客戶的價值,或交叉銷售更多的產品,或啟用能夠帶來價值的客戶。
最後,加強風險控制。透過客戶標籤的匹配,對客戶進行行為分析,把客戶進行聚類,標示客戶的風險級別,這樣金融機構在客戶貸款時,就確立了精準的風險控制,進而減少了違約風險。
再說一下大資料的處理
一、資料採集
由於資料來源的限制,資料採集上可能很不一樣,最典型的有網路爬蟲、網站資料庫資料、日誌檔案等。其中網路爬蟲涉及網站頁面抓取,連結抽取(URL Extractor),連結過濾(URL Filter。),內容抽取((Content Extractor),爬取URL佇列(Site URL Frontier)和資料儲存。
二、資料儲存
1、傳統關係型資料庫:Oracle、SqlServer、MySql等,因為這些資料庫難以橫向擴充套件,面對海量的資料很進行有效處理。
2、NoSQL資料庫:幾個有代表性Redis、MongoDB、HBase。Redis是一個Key-Value模式的資料庫,主要用於快取操作;MongoDB是在傳統關係型資料庫下,對事務性進行妥協,這樣就可以實現一些傳統資料庫不能實現的功能,比如海量資料、分散式處理等;HBase也是一個Key-Value型資料庫,是基於Hadoop的,具備海量資料儲存和分散式平行計算功能,這兩點是Redis不具備的,但是Redis是實時的,HBase只能滿足準實時狀態。Redis透過Codis框架現在也可以實現分散式儲存。
3、HDFS:是Hadoop的一個核心功能,提供分散式檔案儲存。
三、資料探勘和分析
1、Storm:流式實時計算,其計算模式與Hadoop中的MapReduce類似
2、Hive:Hadoop之上的批處理資料分析工具,提供了類似於SQL語言的查詢語言,透過MapReduce實現分散式平行計算,非實時的。
3、Spark Streaming:流式實時計算,按時間單位分割資料
4、Kylin:Hadoop之上的分散式的大資料分析引擎,它對外暴露的是標準SQL介面,支援TB到PB量級的資料,以秒級甚至亞秒級的時間返回響應。
四、機器學習
1、Mahout:在hadoop之上執行,提供一些可擴充套件的機器學習領域經典演算法的實現
2、Spark ML:Mahout是hadoop的一個機器學習庫,主要的程式設計模型是MapReduce;Spark ML則是基於Spark的機器學習,Spark自身擁有MLlib作為機器學習庫。現在Mahout已經停止接受新的MapReduce演算法了,向Spark遷移,也就是現在的Spark ML
3、TensorFlow:google提供的開業機器學習庫。
4、R語言:於統計分析、繪圖的語言,可以實現各種資料探勘演算法
5、Python語言:在大資料分析、機器學習、資料採集、系統維護等方面使用比較廣泛,如果要在Java語言之外再掌握一門程式語言,最好就是Python了
五、分散式、叢集管理
1、Zookeeper:叢集協同服務,提供統一命名、配置、叢集管理、分散式鎖、負載均衡、分散式佇列管理等功能,目前很多需要在叢集計算框架都結合Zookeeper來使用,如Kafka、SolrCloud、Storm、
2、 Hadoop:分散式儲存和計算,其核心為HDFS和MapReduce
六、訊息服務
1、StormMQ、ZeroMQ、RabbitMQ、ActiveMQ
2、Kafka:基於分散式,高吞吐量,實時訊息平臺,是在叢集訊息處理中比較好的技術方案。
七、搜尋引擎
1、Lucene:搜尋引擎框架,提供資料索引和搜尋介面,使用簡單功能強大,有不少搜尋引擎框架基於此開發
2、Nutch:基於Lucene的Web搜尋引擎,同時實現了網路爬蟲功能,以及搜尋引擎的管理介面
3、Solr:基於Lucene的搜尋引擎,是一個獨立的企業級搜尋應用伺服器,之後結合Zookeeper發展出分散式搜尋方案SolrCloud
4、ElasticSearch:基於Lucene的分散式搜尋引擎框架
5、Sphinx:基於SQL的全文檢索引擎,可以結合MySQL,PostgreSQL做全文搜尋
八、基礎服務
1、OpenStack:覆蓋了網路、虛擬化、作業系統、伺服器等各個方面,作為雲基礎服務來提供(IaaS基礎即服務)。
2、Docker:打包部署環境的容器
看完這個,你的心理就已經有答案了吧
回覆列表
財經大學專業偏重的是研究財經領域大資料研究方法論,即大資料模型建立。電子科技大學大資料專業偏重大資料技術落地,即實現,分析過程建立。再通俗點,財經大學同學提思路,電子科技大學同學來實現落地。