回覆列表
  • 1 # 愛投資官方

    首先先了解什麼是大資料,當然是大啦,大資料時代不再是隨機的抽樣調查,而是全體資料。

    在大資料時代進行抽樣分析就像在汽車時代騎馬一樣,一切都在改變。我們得到的資料再也不是隨機的抽樣,而是所有的資料。“樣本=總體”。

    大資料的核心:預測。 它是把數學演算法運用到海量的資料上來預測事情發生的可能性。例如,

    名為Farecast的公司,找到了一個行業機票的預定資料庫,系統預測的結果是根據美國商業航空產業中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。透過預測機票價格的走勢以及增降幅度,Farecast票價預測工具能幫助消費者抓住最佳購買時機。到2012年為止,Faecast系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價,Farecast票價預測的準確度已經高達75%,使用Fcat票價預測工具購買機票的旅客,平均每張機票可節省50美元。

    大資料以一種前所未有的方式,透過對海量資料進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。

    然後回答題主的問題,大資料和金融。

    麻省理工與通貨緊縮預測軟體

    “10億價格專案”(The Billion Prices Project ,BBP提供了一個有趣的例子。美國勞工統計局的人員每個月都要公佈消費物價指數(CPI),這是用來測試通貨膨脹率的。這些資料對投資者和商家都非常重要。在決定是否增減銀行利率的時候,美聯儲也會考慮消費指數。一旦發生通貨膨脹,工人工資也會增加。聯邦政府在支付社會福利和債券利息的款項時,這項指數也是他們參考的依據。聯邦政府為了得到這些資料,會僱用很多人向全美”個城市的商店、辦公室打電話、發傳真甚至登門拜訪。他們反饋回來的各種各樣的價格資訊達80000種,包括土豆的價格、計程車的票價等。政府採集這些資料每年大概需要花費兩億五千萬美元。

    這些資料是精確的也是有序的,但是這個採集結果的公佈會有幾周的滯後。2008年的經濟危機表明,這個滯後是致命的。政策決策者為了更好地應對變化,需要及時瞭解通貨膨脹率,但如果以傳統的依賴取樣和追求精確的方式進行資料收集,政府就不可能及時獲得資料了。麻省理工學院(MT)的兩位經濟學家,阿爾貝託·卡瓦略和羅伯託·裡哥本 o be no Rigobon)就對此提出了一個大資料方案,那就是接受更混亂的資料。透過一個軟體在網際網路上收集資訊,他們每天可以收集到50萬種商品的價格。收集到的資料很混亂,也不是所有資料都能輕易進行比較。但是把大資料和好的分析法相結合,這個專案在2008年9月雷曼兄弟破產之後馬上就發現了通貨緊縮趨勢,然而那些依賴官方資料的人直到11月份才知道這個情況。——資料來源《大資料時代》

    我們不製造答案,我們只是答案的搬運工。

    大資料並不是一個充斥著運演算法則和機器的冰冷世界,其中仍需要人類扮演重要角色,人類獨有的弱點,錯覺錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱或固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂資料一樣,因為這些資料服務的是更加廣大的目標。畢竟混亂構成了世界的本質,也構成了人腦的本質而無論是世界的混亂還是人腦的混亂,學會接受和應用它們才能得益

    大資料是一種資源,也是一種工具,大資料提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案的出現。這也提醒我們在使用工具時侯,應當懷有謙恭之心,銘記人性之本。

  • 2 # 昆明華信智原

    回答:

    當大資料遇上金融市場

    近期股市起伏較大,前幾日的暴跌引起了市場上大面積的情緒恐慌。不知道技術宅們是否也有注意到呢?大資料時代的到來,使得越來越多的研究將大資料與金融市場相結合,無論是使用大資料分析企業的盈利狀況,還是利用大資料預測金融市場,學術界、商業界都抱之極大的興趣。那麼,你知道如何利用社交媒體的資料來預測金融市場嗎?今天,小編就來跟大家談一談。

    股市漲跌,是一個引人關注、甚至關乎投資者性命的重大話題。在行為經濟學沒有傳播開以前,傳統經濟學是建立在隨機行走和有效市場假說的基礎之上的,根據有效市場假說理論,股票價格的變動取決於新出現的資訊(新聞),而非取決於過去或未來的股價。眾所周知,市場新資訊的湧現是無法預測的。由此而言,預測股市的漲跌也是幾乎不可能的事情。

    但是隨著行為經濟學的傳播與大資料時代的到來,出現越來越多的新工作挑戰著有效市場假說的合理性,許多研究表明金融市場並不是一個完全的隨機過程,在一定程度上,金融市場存在著一定的可預測性。雖然我們確實無法掌控市場上新資訊的出現,如中美貿易關稅徵收、美股漲跌等等,但是我們現在可以從社交網路上抓取一些相關的徵兆,透過模型分析,預測其對應的市場上資訊的變化。

    舉例而言,在經濟與社會上,已經出現的相關工作有:利用線上聊天資料預測圖書銷量,利用PLSA模型從部落格中抓取情緒化資訊來預測電影票房,利用Google搜尋資料來預測流感的早期傳播和傳播速率等。

    小編在知乎上看到,曾有這樣一篇論文發表於《Journal of Computational Science》,印第安娜大學和曼切斯特大學的研究人員利用Twitter使用者發表的tweet內容,透過OpinionFinder和Google-Profile of Mood States (GPOMS)這兩種情緒分析模型,針對公眾的情緒變化進行資料抓取與分析。其中OpinionFinder是將人的情緒區分為正面和負面兩種模式,而GPOMS將情緒分成更細緻的六類,分別是Calm, Alert, Sure,Vital, Kind和Happy。

    利用格蘭傑因果檢驗(Granger causality test),作者發現公眾情緒和道瓊斯平均指數(DJIA)之間存在著明顯的關聯,且公眾情緒的時間序列可以作為股指變化的自變數。尤其是GPOMS中的Calm指標,在提前2天到6天的範圍內,可以對指數變動做出有效的反應。因此,從某種程度上講,公眾情緒某些指標可能可以有效的預測未來股價的變動。

    基於這樣的猜測,該文作者在一個自組織模糊神經網路模型(Self-organizing Fuzzy Neural Network [SOFNN] model)的基礎上,將公眾情緒時間序列作為一個自變數輸入到該模型中,透過這樣的改進,使得預測的效果有明顯的改進。該模型可以有效地預測DJIA指數收盤價的漲和跌的方向,其準確率高達86.7% ,而預測失誤的平均百分比下降6%。

    現階段的股市,除了資訊對股票價格的變化產生影響外,企業的實際經營能力和投資者情緒其實都發揮著重要的作用。從長期來看,企業的實際盈利能力是對股票價格走向起著決定性的作用;但是從短期的波動來看,投資者情緒的影響往往相當顯著。而投資者卻是很難做到完全理性的,我們並不完全都是傳統經濟學觀念中的理性人。在今年上半年,美股的大跌就曾引起連鎖反應——國內的情緒恐慌,間接影響國內的指數大跌。

    雖然依靠投資者情緒分析並不能完全預測金融市場的動向,但是不可否認其具有相當的參考意義。這也為社會化媒體資料的發展起到了一定的推動作用。隨著網路社交媒體的普及,實時獲取並分析公眾的情緒變化越來越容易,成本逐漸降低,相信未來相關行業會湧現一批新職業。

    大資料應用領域日益廣泛,無論是金融市場,還是其他行業,大資料技術的加入都會推進著行業的發展與進步,跨行業複合型人才需求也將越來越大。華信智原也將會在大資料人才培養的路上越走越遠。

  • 3 # 使用者行為洞察研究院

    舉一個證券的例子,舉一個銀行的例子。

    證券行業的案例

    以上是一個神策標籤畫像產品的實施流程示意,如上圖,可以發現,我們整體的專案管理做的非常精細,包括專案準備、系統部署、標籤需求梳理、產品持續交付、標籤系統實施、交付與培訓、交付後支援七個步驟。

    1.需求調研:梳理業務場景、運營策略和需求

    具體到其中的需求調研階段,上圖是我們根據瞭解到客戶的業務場景、運營策略和需求初步建立的一個需求梳理框架。因為該企業設計標籤體系的目的是做使用者運營,所以會從新客培育、活躍留存、交易提升、資金留存、沉沒喚醒、流失預防、喪失召回、使用者體驗、大客戶運營等維度來梳理企業的業務體系,但是如果企業的標籤體系設計目的是做個性化推薦,設計思路將完全不同。

    所以,我們為每一個企業梳理標籤體系前都要明確目標,根據目標來梳理一個基本的業務需求框架,再透過前期調研,如訪談、查資料等來補充框架上的資訊。

    2.由業務需求抽離出標籤需求

    明確企業的業務需求後,我們再根據企業的業務需求梳理標籤需求,並梳理出相應的標籤策略,最後制定對應的標籤,這些標籤是企業最終的場景應用會使用到的標籤。

    如上圖,我們最終幫該證券客戶的標籤梳理成幾大類。

    第一類是使用者的基本資訊。基本資訊包括如使用者識別、啟用資訊(引流或者拉新時的重要資訊,如使用者什麼時候來、什麼渠道來等)、風險特徵(金融行業用的比較多)等資訊。

    第二類是使用者的賬戶特徵。因為證券企業的使用者有多套資金帳戶,但是不管使用者操作的是哪個資金帳戶,企業最終營銷的都是使用者本身,關於使用者本身的特徵和偏好才是最重要的資訊,所以我們會對使用者的帳戶做一層設計。

    第三類是業務特徵。之所以我們會劃分交易、理財、資訊、服務四類,與企業的運營體系相關,他們是按照板塊劃分具體的運營的。所以要建立真正代表使用者在特定業務場景下的標籤,我們會拆分業務層,業務層對應的標籤就是表徵業務本身的特點,如理財的標籤與交易標籤完全不一樣,股票標籤會涉及到個股偏好,但是理財產品實際上對特定產品偏好較弱,更看重產品型別。還有活躍特徵和價值標籤很好理解,我就不贅述了。

    下圖是某證券客戶標籤畫像系統實施的 demo 示例

    第二個銀行的案例,是中原銀行大資料架構師劉遠東的一次分享。

    平臺建設目標與思路

    中原銀行已將大資料治理與應用建設上升到全行戰略層面,並制定了以技術創新為導向,秉承自主可控、開放共享的理念,構建統一完整、便捷高效、智慧安全的大資料技術體系,提供全流程、一站式、智慧化的資料服務的目標。

    值得強調的是,中原銀行一直以來的目標不是做一個系統,而是為了提供一種服務。比如,當業務人員想知道流失了多少客戶,就目前來說,很難提供給他 BI ,即使提供了資料,他也很難算出來,但透過場景化分析,制定出該場景下所需要的維度和指標,透過調取相關資料,很容易進行分析。因此,我們計劃把一個場景做成服務,未來提供給業務團隊使用。

    資料平臺建設進展與規劃

    這是中原銀行大體的平臺建設進展情況:

    2016 年已完成基礎平臺搭建和資料架構的設計;

    2017 年建立了一個數據整合平臺,構建了資料服務引擎、OLAP 自助分析引擎和挖掘分析平臺的基礎搭建;

    2018 年計劃做資料治理、實時計算服務、圖計算服務、資料交換平臺、機器學習平臺等;

    2019 年,我們可能會從技術角度出發,做一些更加整合類的、更加完善類的、提升類的專案。

    在很多情況下,雖然科技部門領頭建立了技術體系,但並沒有真正的業務落地,現在我們在嘗試往實現業務跨越發展的方向轉移。

    在 2018 年 6 月,中原銀行特別成立了一個一級部——資料銀行部,這是從資訊科技部分離出來的一個部門。

    以前我們更多地專注於技術,但現在意識到用技術驅動業務,在營銷和風控方面的成本和難度都非常高,且技術並不一定能驅動業務帶來收益,從這一點上,我們決定嘗試神策資料提供的這一套場景化的方法論和邏輯。

    中原銀行在過去幾年做了一些技術驅動的改進。比如,面向全行的集中交付能力最佳化,包括固定報表和移動報表,自助查詢模型等,特別是在過去幾年銀行業的自助查詢比較流行,沒有做的銀行未來也一定要做,這是一個必經的階段。

    資料分析需求理解:五種模式支援全行應用

    我認為銀行業的資料分析需求可能有五種場景的資料互動模式(如上圖)。中原銀行目前做了一個數據實驗室,其實是一套資料湖的系統,就是把以前的倉庫、集市這些平臺遷到了一個新的計算架構上面,它的主要作用是為了做資料建模和探索性的分析,該平臺完全獨立於原來的 P2P 平臺,且不像以前那樣只做報表,也能做一些自助分析、資料建模,以便將來能支援更多建模師的使用。

    我們希望這種專案出來成果之後,能做成不同類的業務場景應用。不過,有些舊有模式,比如即席查詢在中國視角下會一直存在,因為很難從別的應用場景完全替代它。

    資料分析平臺體系建設

    中原銀行目前規劃了一套資料平臺體系,但目前這個體系還在演進。

    在過去幾年,中原銀行大概做了將近 1000 張報表、20 多個主題的自助分析以及資料實驗室的平臺。

    這些平臺面向的人員有所不同,報表主要面向資料使用人員;自助分析主要面向條線,比如給領導編制報表和往下發布資料的人;資料實驗室主要面向一些有科技背景的人員,比如建模師。

    除了上述三大平臺,中原銀行還建立了一個社群平臺,我們把這些統稱為一站式分析平臺。

    資料驅動創新社群的建立是為了引領行業資料驅動的發展,目前,科技部正在主導這個社群的建設。

    我們會在該社群大量地釋出一些資料驅動的內容,比如,資料分析報告,文章等。

    個人認為,像資料驅動這種工作的推動,將來一定是業務牽頭的,因為即使技術人員有思路也很難達到盈利,所以需要站到業務角度上去實踐,現在,我們會把自己的技術人派遣到業務部門,學習在業務場景下進行分析。

    前面提到的這幾種資料分析平臺還是比較偏技術方向,不過我始終認為,未來一定是場景化的方向才有發展。因為場景化的成本更低,比如,更低的使用成本,場景化讓業務人員使用更方便;更低的人才成本,場景化的應用不需要招很多技術人員。

    面向大資料的綜合分析平臺架構

    這是中原銀行目前面向大資料的綜合分析平臺架構,在這方面各行差異不大。

    不過,中原銀行集市做的很薄,只有一個貼源的 ODS,以及 4-5 塊集市,比如管會、內部運營、營銷等,與其他銀行相比,中原銀行是一個非常輕的架構,從貼源可以直接到集市,有的集市甚至沒有指標加工,就直接整合明細,再到自助分析、報表,有的也往實驗室裡面供。

    個人認為,像自助分析和場景化分析、資料湖這樣的思路早晚會替代我們之前做的大量報表,T+0 會替代 T+1,這只是時間問題,所以,我們整個架構現在也在往這邊遷移。

    分析平臺建設實踐—效能最佳化

    在前幾年中原銀行對分析平臺做了一些效能調優。一般剛開始從報表轉到 BI,肯定會面臨效能問題,因為 BI 本身是一種以空間換取靈活性的方式。

    我們採用大資料技術支撐計算,用了 30 個物理計算節點,大概有二三十個面向大資料反正規化設計的主題模型,也就是寬表模型,因為寬表模型犧牲了很多空間的代價,在這個大資料的平臺上一般會跑得比較順,冗餘度高一點,效能會提高。

    不過,大資料平臺的一個主要特點是成本較低,擴容方面也可以接受,所以我們現在更多選用這種方式。

    分析平臺建設實踐—質量提升

    資料質量提升,是中原銀行今年的重點,我們準備啟動一個新的資料治理專案。下面簡單介紹下:

    我們建設了一個線上口徑管理的渠道。舉個例子,現在業務在看報表發現數據問題的時候,會有一個線上的渠道直接在上面反饋問題,之後會有專門的技術人員跟進,除此之外,我們還有一個類似知識庫的渠道,該渠道有利於口徑的沉澱,但是,對資料的治理,比如主資料、標準管理,我們還需要進一步完善。

    分析平臺建設實踐-靈活性提升

    這個是中原銀行的 BI 平臺,總體來說使用還不錯。我認為銀行到一個階段必須做 BI,如果沒有 BI 很難把資料驅動的思路真正地讓業務落地,因為業務人員無法直接接觸資料,很難了解資料在未來的作用。只有他們把 BI 用熟了之後,你才能告訴他以後可以做場景化分析和預測類分析,現在中原銀行就是沿著這樣的軌跡發展。

    分析平臺建設實踐—資料安全管控

    金融業會涉及很多敏感資料,特別要注意資料安全問題,為了保證資料安全,我們做了一些技術上的加工,比如:

    下載管理,我們建立了完善的資料使用稽核流程和設定了資料最小訪問授權,按需分配報表訪問許可權;

    實時脫敏,Smartbi 支援不同形式的資料脫敏展現,可以實現前臺敏感資訊的脫敏展示,對像身份證號這樣的敏感資料在實時展現時會隱去;

    使用痕跡的管理,我們會統計釋出報表訪問資料,促進報表使用過程中的自我監督和相互監督,便於及時發現因崗位調整,多餘授權帶來的資料洩漏風險;

    行為監控,我們利用大資料與機器學習技術,建設資料安全智慧分析預警平臺,對資料操作行為進行智慧化監控,防範內部資料安全事件。

    未來建設規劃—資料深度探查服務體系

    我們的未來建設規劃大體如上圖,目前來說,我們還處於資料探索和多維分析階段,在今年我們啟動了幾個資料建模專案,下面列舉一二。

    我們啟動了一個叫做網點的現金流預測專案,要做到精準預測,需要考慮到很多維度,比如網點的維度、人員的維度、客流的維度、天氣的維度。因此,這個專案透過分析研究所有網點的歷史資料來預測各支行每天需要多少存款,這裡的存款指的是現金。因為對支行來說現金的存量是個非常大的成本,比如運輸成本,而且現金沉澱到支行沒有利息,相當於現金放那兒了。

    我們希望預測類的專案在明年會有一些階段性的成果出現,也希望透過我們在資料驅動變革創新方面的努力,能為推進金融業數字化轉型建設發展進一份力。

  • 中秋節和大豐收的關聯?
  • 慈母多敗兒的下一句是什麼?