Nature | 依賴於多巴胺和基底神經節的學習模型

首頁>科學>BioArt2021-02-08 10:09

Nature | 依賴於多巴胺和基底神經節的學習模型

撰文 | 章臺柳

整個系統發育過程中，大腦中多巴胺（DA）的釋放誘導細胞的可塑性，從而促進行為的適應性。哺乳動物中，哺乳動物中，伏隔核（NAc）是由腹側被蓋區（VTA）的DA釋放神經元（DANs）高度支配的的紋狀體區域，NAc中DA活動介導了運動行為與動作結果之間的聯絡，這是個體學習重複行為以獲得良好結果的必要條件【1】。之前對NAc中VTA DANs和DA水平的操縱確定了NAc中DA釋放對於行動加強的充分性。此外，NAc中VTA DAN和DA水平的活效能夠編碼獎賞預測誤差【2】（結果的實際值和預期值之間的差異）。

棘突投射神經元（SPNs）是NAc的主要細胞，其解剖學和分子結構都顯示出SPNs上具有對DA的拮抗作用，是研究DA作用的理想模型。NAc的SPNs由紋狀體-前腦的SPN（支配中腦區域）和紋狀體-腦幹的SPN（支配蒼白球的腹側）組成。這個解剖分割槽與分子差異有關【3】：紋狀體-前腦SPN表達Gαs-耦聯1型DA受體（D1R），透過這種受體DA增強cAMP的產生和PKA的活性；紋狀體-腦幹SPNs表達Gαi/o耦聯2型DA受體（D2R），可抑制cAMP產生和抑制PKA（蛋白激酶 A ，又稱依賴於cAMP的蛋白激酶A）活性。強化學習模型結合了這些差異，並將編碼獎賞預測誤差的DA瞬態性與PKA依賴的興奮性調節、突觸的可塑性和SPNs的轉錄聯絡起來。然而，在學習行為中，棘狀投射神經元中多巴胺和PKA的實時關係尚未得到驗證。

近日，來自哈佛大學醫學院的Bernardo L. Sabatini在Nature雜誌上發表文章Cell-type-specific asynchronous modulation of PKA by dopamine in learning，對學習過程中小鼠的伏隔核中棘突投射神經元（SPNs）的PKA活性、多巴胺釋放神經元的活動性和細胞外多巴胺的水平進行監測。發現多巴胺的正向和負向調節在訓練過程中不斷演變，這對解釋棘突投射神經元的PKA活性的實時波動是必要且充分的。在表達1型和2型多巴胺受體的SPNs中，PKA的調節是不同的，這些神經元對不同學習階段多巴胺的增加和減少有選擇性的敏感度，從而選擇性啟用不同的神經元。

研究人員首先利用活體熒光成像技術FLIM-AKAR，監測腹腔注射DA受體激動劑和拮抗劑後SPNs中PKA的活性。D1R激動劑刺激，導致NAc中D1R-SPNs中PKA活性增加，而突變PKA磷酸化位點則無法觀察到PKA活性增加；D1R拮抗劑略微但顯著地降低D1R-SPNs的PKA活性。D1R拮抗劑的預處理可阻斷D1R激動劑的反應，證實了激動劑的特異性。D2R激動劑導致D2R-SPNs的PKA活性受到抑制；而D2R拮抗劑增加D2R-SPNs的PKA活性。D2R拮抗劑預處理可阻斷D2R激動劑的作用。

因為FLIM-AKAR中對獎勵的熒光變化的時間可持續40-60s，因此研究人員設計了食物-獎勵強化任務，用來研究學習過程中多巴胺神經元（DANs）活性、NAc中DA水平和PKA活性是如何被調節的。首先讓小鼠在試驗場地待1天進行適應，然後訓練完成11天的全部任務（1-11天）。第12天，25%任務成功的小鼠沒有得到獎勵，收集“獎勵-遺漏”資料。第13天，收集“LED-遺漏”試驗資料，即沒有LED提示，小鼠偶爾還是能做出正確的動作，並獲得“意想不到的”獎勵。小鼠需要學會任務的3個關鍵組成部分：1）待在觸發區開始新的試驗；2）在LED提示後跑向插座區；3）一旦進入插座區，就在插座區等待。剛開始訓練的小鼠，NAc中DA水平在獎勵交付後顯著增加，但LED提示時僅最低限度地增加；訓練過的小鼠，獎勵後DA釋放量低於新手小鼠，LED提示後DA釋放量更大。LED-遺漏試驗中，出現遺漏的LED提示時，DA水平沒有顯著增加，表明LED誘導的DA反應需要提示。此外，DA釋放從獎勵到提示的轉變在整個訓練過程中逐漸發生，並與成功率相關。獎勵-遺漏試驗中，獎勵遺漏時，預期獎勵出現時間的DA水平降低到基線水平以下；LED-遺漏試驗中，獎勵後的DA峰值大於常規的獎勵試驗。這兩項觀察與獎賞期望與DA的雙向調節一致。無論是學習過程還是訓練狀態下，DAN的胞體和末端的活動模式都與DA水平類似，且NAc中DAN末端活性和DA釋放的大部分差異（50-60%）可由DAN胞體活性解釋。總之，訓練期間，任務的獎賞預期可誘導對DAN活性和DA釋放的正向和負向調節。

對SPNs中DA水平和PKA活性進行同時監測，初學小鼠中，D1R-SPNs中PKA活性在獎賞時增加。訓練過的小鼠中，PKA活性的增加轉移至LED出現時。獎賞LED-遺漏試驗的訓練過小鼠時，D1R-SPNs中PKA的啟用程度比常規獎賞試驗更高。D1R拮抗劑可阻斷LED和獎賞驅動的D1R-SPNs中PKA活性的增加，即D1R-SPNs中PKA的啟用是與DA釋放有關，且依賴於D1R受體。初學小鼠中，D2R-SPNs的PKA活性並沒被明顯地調控。在中間訓練和已經訓練過的小鼠試驗失敗時，DA水平顯著下降至基線以下，顯著增加D2R-SPNs中PKA活性。獎賞-遺漏試驗中，由於DA降低至基線以下，D2R-SPNs的PKA訊號啟用。D2R拮抗劑可阻斷獎賞遺漏誘導的D2R-SPNs中PKA的啟用，即D2R受體介導了PKA的啟用，且需要本底的DA與D2R結合。即，D1R-SPNs的PKA在早期學習階段被獎賞、獎賞預期線索和學習後的獎賞等啟用，而D2R-SPNs的PKA盡在晚期學習階段獲取預期獎賞失敗時才會被啟用。

進一步利用光遺傳學啟用或失活DAN，研究對SPNs中PKA的影響。啟用操作使DA釋放的峰值與獎賞試驗類似，增加D1R-SPNs中PKA的活性，且依賴於D1R受體，而D2R-SPNs的PKA活性受DAN啟用調控較少；與此相比，D1R-SPNs中PKA活性沒有受到DAN失活的顯著影響，而DAN失活誘導D2R-SPNs中PKA的活性顯著增加，且依賴於D2R受體。最後，在D1R-SPNs中抑制PKA啟用影響學習過程，表現在觸發區的每日平均時間、LED後的速度和進入故障的比率。在D2R-SPNs中抑制PKA啟用的作用在學習的後期更顯著，4-7天時LED提示後的速度和進入失敗的比率發生變化。即SPNs中抑制PKA減緩學習過程。

總的來說，研究揭示了一個依賴於多巴胺和基底神經節的學習模型，即學習過程中產生正向和負向的多巴胺訊號，進而非同步地調控表達D1R和D2R的SPNs中PKA訊號的啟用，從而調控學習過程。

原文連結：

https://doi.org/10.1038/s41586-020-03050-5

製版人：啟萌之星

參考文獻

1. Bromberg-Martin, E. S., Matsumoto, M. & Hikosaka, O. Dopamine in motivational control: rewarding, aversive, and alerting. Neuron 68, 815–834 (2010).

2. Eshel, N., Tian, J., Bukwich, M. & Uchida, N. Dopamine neurons share common response function for reward prediction error. Nat. Neurosci. 19, 479–486 (2016).

3. Gerfen, C. R. et al. D1 and D2 dopamine receptor-regulated gene expression of striatonigral and striatopallidal neurons. Science 250, 1429–1432 (1990).

最新評論

∧ mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶

∨ TuPro：一種為臨床決策提供支援的整合多組學腫瘤分析策略

熱門排行

劇多

Nature | 依賴於多巴胺和基底神經節的學習模型