撰文 | 章臺柳
整個系統發育過程中,大腦中多巴胺(DA)的釋放誘導細胞的可塑性,從而促進行為的適應性。哺乳動物中,哺乳動物中,伏隔核(NAc)是由腹側被蓋區(VTA)的DA釋放神經元(DANs)高度支配的的紋狀體區域,NAc中DA活動介導了運動行為與動作結果之間的聯絡,這是個體學習重複行為以獲得良好結果的必要條件【1】。之前對NAc中VTA DANs和DA水平的操縱確定了NAc中DA釋放對於行動加強的充分性。此外,NAc中VTA DAN和DA水平的活效能夠編碼獎賞預測誤差【2】(結果的實際值和預期值之間的差異)。
棘突投射神經元(SPNs)是NAc的主要細胞,其解剖學和分子結構都顯示出SPNs上具有對DA的拮抗作用,是研究DA作用的理想模型。NAc的SPNs由紋狀體-前腦的SPN(支配中腦區域)和紋狀體-腦幹的SPN(支配蒼白球的腹側)組成。這個解剖分割槽與分子差異有關【3】:紋狀體-前腦SPN表達Gαs-耦聯1型DA受體(D1R),透過這種受體DA增強cAMP的產生和PKA的活性;紋狀體-腦幹SPNs表達Gαi/o耦聯2型DA受體(D2R),可抑制cAMP產生和抑制PKA(蛋白激酶 A ,又稱依賴於cAMP的蛋白激酶A)活性。強化學習模型結合了這些差異,並將編碼獎賞預測誤差的DA瞬態性與PKA依賴的興奮性調節、突觸的可塑性和SPNs的轉錄聯絡起來。然而,在學習行為中,棘狀投射神經元中多巴胺和PKA的實時關係尚未得到驗證。
近日,來自哈佛大學醫學院的Bernardo L. Sabatini在Nature雜誌上發表文章Cell-type-specific asynchronous modulation of PKA by dopamine in learning,對學習過程中小鼠的伏隔核中棘突投射神經元(SPNs)的PKA活性、多巴胺釋放神經元的活動性和細胞外多巴胺的水平進行監測。發現多巴胺的正向和負向調節在訓練過程中不斷演變,這對解釋棘突投射神經元的PKA活性的實時波動是必要且充分的。在表達1型和2型多巴胺受體的SPNs中,PKA的調節是不同的,這些神經元對不同學習階段多巴胺的增加和減少有選擇性的敏感度,從而選擇性啟用不同的神經元。
研究人員首先利用活體熒光成像技術FLIM-AKAR,監測腹腔注射DA受體激動劑和拮抗劑後SPNs中PKA的活性。D1R激動劑刺激,導致NAc中D1R-SPNs中PKA活性增加,而突變PKA磷酸化位點則無法觀察到PKA活性增加;D1R拮抗劑略微但顯著地降低D1R-SPNs的PKA活性。D1R拮抗劑的預處理可阻斷D1R激動劑的反應,證實了激動劑的特異性。D2R激動劑導致D2R-SPNs的PKA活性受到抑制;而D2R拮抗劑增加D2R-SPNs的PKA活性。D2R拮抗劑預處理可阻斷D2R激動劑的作用。
因為FLIM-AKAR中對獎勵的熒光變化的時間可持續40-60s,因此研究人員設計了食物-獎勵強化任務,用來研究學習過程中多巴胺神經元(DANs)活性、NAc中DA水平和PKA活性是如何被調節的。首先讓小鼠在試驗場地待1天進行適應,然後訓練完成11天的全部任務(1-11天)。第12天,25%任務成功的小鼠沒有得到獎勵,收集“獎勵-遺漏”資料。第13天,收集“LED-遺漏”試驗資料,即沒有LED提示,小鼠偶爾還是能做出正確的動作,並獲得“意想不到的”獎勵。小鼠需要學會任務的3個關鍵組成部分:1)待在觸發區開始新的試驗;2)在LED提示後跑向插座區;3)一旦進入插座區,就在插座區等待。剛開始訓練的小鼠,NAc中DA水平在獎勵交付後顯著增加,但LED提示時僅最低限度地增加;訓練過的小鼠,獎勵後DA釋放量低於新手小鼠,LED提示後DA釋放量更大。LED-遺漏試驗中,出現遺漏的LED提示時,DA水平沒有顯著增加,表明LED誘導的DA反應需要提示。此外,DA釋放從獎勵到提示的轉變在整個訓練過程中逐漸發生,並與成功率相關。獎勵-遺漏試驗中,獎勵遺漏時,預期獎勵出現時間的DA水平降低到基線水平以下;LED-遺漏試驗中,獎勵後的DA峰值大於常規的獎勵試驗。這兩項觀察與獎賞期望與DA的雙向調節一致。無論是學習過程還是訓練狀態下,DAN的胞體和末端的活動模式都與DA水平類似,且NAc中DAN末端活性和DA釋放的大部分差異(50-60%)可由DAN胞體活性解釋。總之,訓練期間,任務的獎賞預期可誘導對DAN活性和DA釋放的正向和負向調節。
對SPNs中DA水平和PKA活性進行同時監測,初學小鼠中,D1R-SPNs中PKA活性在獎賞時增加。訓練過的小鼠中,PKA活性的增加轉移至LED出現時。獎賞LED-遺漏試驗的訓練過小鼠時,D1R-SPNs中PKA的啟用程度比常規獎賞試驗更高。D1R拮抗劑可阻斷LED和獎賞驅動的D1R-SPNs中PKA活性的增加,即D1R-SPNs中PKA的啟用是與DA釋放有關,且依賴於D1R受體。初學小鼠中,D2R-SPNs的PKA活性並沒被明顯地調控。在中間訓練和已經訓練過的小鼠試驗失敗時,DA水平顯著下降至基線以下,顯著增加D2R-SPNs中PKA活性。獎賞-遺漏試驗中,由於DA降低至基線以下,D2R-SPNs的PKA訊號啟用。D2R拮抗劑可阻斷獎賞遺漏誘導的D2R-SPNs中PKA的啟用,即D2R受體介導了PKA的啟用,且需要本底的DA與D2R結合。即,D1R-SPNs的PKA在早期學習階段被獎賞、獎賞預期線索和學習後的獎賞等啟用,而D2R-SPNs的PKA盡在晚期學習階段獲取預期獎賞失敗時才會被啟用。
進一步利用光遺傳學啟用或失活DAN,研究對SPNs中PKA的影響。啟用操作使DA釋放的峰值與獎賞試驗類似,增加D1R-SPNs中PKA的活性,且依賴於D1R受體,而D2R-SPNs的PKA活性受DAN啟用調控較少;與此相比,D1R-SPNs中PKA活性沒有受到DAN失活的顯著影響,而DAN失活誘導D2R-SPNs中PKA的活性顯著增加,且依賴於D2R受體。最後,在D1R-SPNs中抑制PKA啟用影響學習過程,表現在觸發區的每日平均時間、LED後的速度和進入故障的比率。在D2R-SPNs中抑制PKA啟用的作用在學習的後期更顯著,4-7天時LED提示後的速度和進入失敗的比率發生變化。即SPNs中抑制PKA減緩學習過程。
總的來說,研究揭示了一個依賴於多巴胺和基底神經節的學習模型,即學習過程中產生正向和負向的多巴胺訊號,進而非同步地調控表達D1R和D2R的SPNs中PKA訊號的啟用,從而調控學習過程。
原文連結:
https://doi.org/10.1038/s41586-020-03050-5
製版人: 啟萌之星
參考文獻
1. Bromberg-Martin, E. S., Matsumoto, M. & Hikosaka, O. Dopamine in motivational control: rewarding, aversive, and alerting. Neuron 68, 815–834 (2010).
2. Eshel, N., Tian, J., Bukwich, M. & Uchida, N. Dopamine neurons share common response function for reward prediction error. Nat. Neurosci. 19, 479–486 (2016).
3. Gerfen, C. R. et al. D1 and D2 dopamine receptor-regulated gene expression of striatonigral and striatopallidal neurons. Science 250, 1429–1432 (1990).