金融方向的大資料分析與計算機科學方向的大資料處理有什麼區別？

首頁>Club>倔強的函式2021-04-18 13:34

金融方向的大資料分析與計算機科學方向的大資料處理有什麼區別？

回覆列表

1 # 16根資料線

財經大學專業偏重的是研究財經領域大資料研究方法論，即大資料模型建立。電子科技大學大資料專業偏重大資料技術落地，即實現，分析過程建立。再通俗點，財經大學同學提思路，電子科技大學同學來實現落地。

2 # 風火0357

首先說一下大資料在金融行業的具體運用吧

金融行業猶如國民經濟的血脈，滲入市場的各個環節，與宏觀經濟和微觀經濟生活都密切相關，而中國擁有14億的龐大人口，社會生活多元化，需求多元化。在此複雜多變的背景下，金融機構要想實現正確的商業判斷，難度很大，但藉助金融大資料分析軟體，可以實現更全面更精準的決策。例如，在個人信用風險控制方面，金融機構除了可以從人民銀行徵信中心調取資料外，還可以利用網路、電商等不同來源的“大資料”，來解決個人客戶信用評價的全面性與客觀性不足的問題。
目前，金融行業越來越重視大資料的應用，但面臨一些疑惑：分析處理什麼資料？資料怎麼分析處理？資料用在哪些產品或活動中？基於大資料做出的分析判斷如何落地推動業務發展？

從現狀來看，大資料目前最主要應用在於幫助金融機構實現“精準營銷”、“客戶價值管理”和“風險控制”。

首先，實現精準營銷。傳統上，營銷無外乎是尋找目標客群、細分目標客群、觸達客群個體。但採用利用大資料機器學習的分析手法，金融機構可以判斷他們的習慣偏好以及短期需求，形成畫像描述，從而找到精準的目標客群。在第三方大資料支援下，金融機構可以在網際網路使用者中發掘需求。一般在3-5次業務資料迴圈後，營銷的效果會達到最優。比如，某銀行的現金貸款營銷中，經過5次大資料最佳化，客戶響應率、響應客戶的資質合格率均有大幅度提升。
其次，高效的客戶價值管理。目前，儘管大型金融機構沉澱了大量客戶及客戶資訊，但從大資料角度看，由於對客戶資訊缺乏挖掘、分析，導致對存量客戶的瞭解不能加深，金融機構在進行客戶管理時的效率提升會遇到困難。

以客戶啟用為例，某行有4億的存量客戶，其中30%以上客戶為靜止客戶，但在這1億多靜止客戶中，銀行對哪些是高淨值客戶，哪些需要加大力度挽留一直不得而知。如果對所有的靜止客戶進行啟用，則成本會相對較高。

但藉助大資料進行客戶聚類和客戶行為分析，為金融機構的客戶啟用、客戶管理和產品設計提供更精準的依據，幫助金融機構整體提升存量客戶的價值，或交叉銷售更多的產品，或啟用能夠帶來價值的客戶。

最後，加強風險控制。透過客戶標籤的匹配，對客戶進行行為分析，把客戶進行聚類，標示客戶的風險級別，這樣金融機構在客戶貸款時，就確立了精準的風險控制，進而減少了違約風險。
再說一下大資料的處理

一、資料採集

由於資料來源的限制，資料採集上可能很不一樣，最典型的有網路爬蟲、網站資料庫資料、日誌檔案等。其中網路爬蟲涉及網站頁面抓取，連結抽取（URL Extractor），連結過濾（URL Filter。），內容抽取（（Content Extractor），爬取URL佇列（Site URL Frontier）和資料儲存。

二、資料儲存

1、傳統關係型資料庫：Oracle、SqlServer、MySql等，因為這些資料庫難以橫向擴充套件，面對海量的資料很進行有效處理。

2、NoSQL資料庫：幾個有代表性Redis、MongoDB、HBase。Redis是一個Key-Value模式的資料庫，主要用於快取操作；MongoDB是在傳統關係型資料庫下，對事務性進行妥協，這樣就可以實現一些傳統資料庫不能實現的功能，比如海量資料、分散式處理等；HBase也是一個Key-Value型資料庫，是基於Hadoop的，具備海量資料儲存和分散式平行計算功能，這兩點是Redis不具備的，但是Redis是實時的，HBase只能滿足準實時狀態。Redis透過Codis框架現在也可以實現分散式儲存。
3、HDFS：是Hadoop的一個核心功能，提供分散式檔案儲存。

三、資料探勘和分析

1、Storm：流式實時計算，其計算模式與Hadoop中的MapReduce類似

2、Hive：Hadoop之上的批處理資料分析工具，提供了類似於SQL語言的查詢語言，透過MapReduce實現分散式平行計算，非實時的。

3、Spark Streaming：流式實時計算，按時間單位分割資料

4、Kylin：Hadoop之上的分散式的大資料分析引擎，它對外暴露的是標準SQL介面，支援TB到PB量級的資料，以秒級甚至亞秒級的時間返回響應。

四、機器學習

1、Mahout：在hadoop之上執行，提供一些可擴充套件的機器學習領域經典演算法的實現
2、Spark ML：Mahout是hadoop的一個機器學習庫，主要的程式設計模型是MapReduce；Spark ML則是基於Spark的機器學習，Spark自身擁有MLlib作為機器學習庫。現在Mahout已經停止接受新的MapReduce演算法了，向Spark遷移，也就是現在的Spark ML

3、TensorFlow：google提供的開業機器學習庫。

4、R語言：於統計分析、繪圖的語言，可以實現各種資料探勘演算法

5、Python語言：在大資料分析、機器學習、資料採集、系統維護等方面使用比較廣泛，如果要在Java語言之外再掌握一門程式語言，最好就是Python了

五、分散式、叢集管理
1、Zookeeper：叢集協同服務，提供統一命名、配置、叢集管理、分散式鎖、負載均衡、分散式佇列管理等功能，目前很多需要在叢集計算框架都結合Zookeeper來使用，如Kafka、SolrCloud、Storm、

2、 Hadoop：分散式儲存和計算，其核心為HDFS和MapReduce

六、訊息服務

1、StormMQ、ZeroMQ、RabbitMQ、ActiveMQ

2、Kafka：基於分散式，高吞吐量，實時訊息平臺，是在叢集訊息處理中比較好的技術方案。

七、搜尋引擎

1、Lucene：搜尋引擎框架，提供資料索引和搜尋介面，使用簡單功能強大，有不少搜尋引擎框架基於此開發
2、Nutch：基於Lucene的Web搜尋引擎，同時實現了網路爬蟲功能，以及搜尋引擎的管理介面

3、Solr：基於Lucene的搜尋引擎，是一個獨立的企業級搜尋應用伺服器，之後結合Zookeeper發展出分散式搜尋方案SolrCloud

4、ElasticSearch：基於Lucene的分散式搜尋引擎框架

5、Sphinx：基於SQL的全文檢索引擎，可以結合MySQL,PostgreSQL做全文搜尋

八、基礎服務

1、OpenStack：覆蓋了網路、虛擬化、作業系統、伺服器等各個方面，作為雲基礎服務來提供（IaaS基礎即服務）。

2、Docker：打包部署環境的容器
看完這個，你的心理就已經有答案了吧

∧ 中秋節和大豐收的關聯？

∨ 頭髮處於不長不短的尷尬期，到底應該怎麼打理？

熱門排行

劇多

金融方向的大資料分析與計算機科學方向的大資料處理有什麼區別？