沈渔邨精神病学(第6版)
上QQ阅读APP看书,第一时间看更新

第四节 精神疾病的遗传学

一、遗传基础
(一)DNA和基因
1.脱氧核糖核酸(deoxyribonucleic acid,DNA)
脱氧核糖核酸又称去氧核糖核酸。DNA是由脱氧核糖核苷酸组成的长链状结构。脱氧核糖核苷酸由核苷和磷酸组成,而核苷是由脱氧核糖和四种碱基(adenine,腺嘌呤 A;guanine,鸟嘌呤 G;cytosine,胞嘧啶C和thymine,胸腺嘧啶T)形成。脱氧核糖核苷酸按照特定的排列顺序,通过3',5'-磷酸二酯键依次头尾相连,以线形单链多聚体为一级结构。两条单链按照碱基互补配对原则(A与T配对,C与G配对)形成反向平行的双螺旋二级结构(图2-7)。DNA主要以染色质(chromatin)的形式储存在细胞核中(3.3×10 9碱基对),另有少量DNA遗传信息储存在线粒体中(16569碱基对)。
图2-7 DNA双螺旋结构及碱基互补配对图示
DNA通过形成十分致密的染色质结构将大量的遗传信息组装到细胞核中。首先,146bp的DNA分子超螺旋缠绕组蛋白八聚体1.75周,组蛋白H1在核心颗粒外再结合20bp DNA构成核小体结构,两个相邻核小体之间以60bp左右DNA相连。核小体为染色质的基本结构单元,通过进一步压缩折叠约8400倍后最终组装成染色质的结构。染色质上存在着丝粒(centromere)的结构,如果着丝粒不在染色体的中央,则可区分为长臂(q)和短臂(p)。在染色体末端有保护作用的端粒(telomeres)结构,是由一小段DNA和端粒结合蛋白组成的蛋白复合体,保持染色体的完整性和控制细胞分裂周期。
2.基因(gene)
基因是具有遗传效应的DNA片段,为控制生物性状的基本遗传单位,基因中储存着丰富的遗传信息。根据目前的研究人类基因组共有基因约3万个。基因具有三大特点:①能够自我复制,是生物繁衍保持物种稳定的基础;②基因能够通过遗传信息的表达决定性状;③基因能够发生突变,进而导致个体死亡、遗传病或者物种进化。基因的结构包括编码区(外显子与内含子),前导区(5'非编码区),尾部区(3'非编码区)及调控区(启动子和增强子等)(图2-8)。其中,外显子(exon)是一个基因表达为多肽链的部分,内含子(intron)转录后会被剪切掉。
图2-8 基因结构图示
(二)DNA的复制
DNA复制是一个半保留复制的过程,在细胞分裂的间期(S期)完成,包括三个步骤:复制的引发、DNA链的延伸和复制的终止。
1.引发阶段
在引发阶段,DNA分子利用细胞提供的能量,在解旋酶的作用下将复制起点的双链解开,通过转录激活合成RNA引物,DNA聚合酶将第一个脱氧核苷酸加到引物RNA的3'-OH末端,进而引发DNA的复制。之所以用RNA引物来引发DNA复制是因为,DNA复制开始处的几个核苷酸最容易出现差错,即使RNA引物出现差错最后也要被DNA聚合酶Ⅰ切除,提高了DNA复制的准确性。
2.延伸阶段
DNA复制引发后,即以解开的每一段母链为模板,以 dNTP(dATP、dCTP、dGTP和dTTP)为原料,按照碱基互补配对原则,在DNA聚合酶的催化作用下,各自合成与母链互补的子链。在新合成的子链不断地延伸的同时,每条子链与其作为模板的母链盘绕成双螺旋结构,进而各形成一条新的DNA双螺旋分子。在这个过程中有两种机制可以防止因出现拓扑学问题而停止,一种是DNA解链而产生正超螺旋可以被原来存在的负超螺旋所中和;另外一种是DNA拓扑异构酶的协调作用,即DNA拓扑异构酶Ⅰ打开一条链,使正超螺旋状态转变成松弛状态,而DNA拓扑异构酶Ⅱ(旋转酶)则在DNA解链前方不停地将负超螺旋引入双链DNA。
3.终止阶段
DNA复制为双向复制,即以复制起始点为中心,分别向两个方向进行复制。DNA上存在着复制终止位点,DNA复制将在这些位点处终止,并不一定等全部DNA合成完毕。一个DNA分子通过半保留的方式完成复制,并保证了遗传信息的完整性和准确性。在复制结束后,新合成的DNA分子通过细胞分裂分配到两个子细胞中去,并进一步将遗传信息从亲代传递到子代。
(三)基因的表达
基因表达(gene expression)是指基因中储存的丰富的遗传信息,在“中心法则(central dogma)”(图2-9)的指导下,通过转录(transcription)和翻译(translation)过程,形成具有生物学活性的蛋白质,并实现遗传信息的传递。
图2-9 中心法则图示
1.转录
转录是指遗传信息从DNA流向RNA的过程,即以双链DNA中的确定的一条链(模板链用于转录,编码链不用于转录)为模板,以dNTP(ATP、CTP、GTP 和 UTP)为原料,在 RNA 聚合酶催化下合成RNA。转录的过程大致可分作三个阶段:起始、延伸和终止。作为蛋白质生物合成的第一步,转录是mRNA以及非编码RNA(tRNA、rRNA等)的合成步骤。转录得到的RNA还要经过一系列后加工,如mRNA经过首尾修饰、剪接等形成成熟mRNA。
2.翻译
翻译是指遗传信息从mRNA流向蛋白质的过程。mRNA分子中每相邻的三个核苷酸编成一组,在蛋白质合成时代表某一种氨基酸,即密码子(codon)。mRNA中的密码子信息便决定了蛋白质分子中的氨基酸种类和排列次序。因此翻译是一个将成熟的mRNA分子中的密码子所储存的遗传信息解码,并生成对应的特定氨基酸序列的过程。翻译主要在细胞质内的核糖体中进行,过程包括起始、延长、终止三个阶段。翻译生成的多肽链需要通过正确折叠形成蛋白质,而多数蛋白质在翻译结束后还需要在内质网上进行翻译后修饰后才能具有真正的生物学活性。
蛋白质作为基因表达的产物,在生命活动中发挥着重要作用,同时也可以协助“中心法则”中的DNA复制、转录和翻译过程。基因的表达主要受到基因序列所储存的遗传信息的指导,同时也会受到环境条件的影响和表观遗传学的调控。
(四)表观遗传
表观遗传(epigenetics)是指在DNA序列不发生变化的情况下,基因表达产生了可遗传的改变。这种改变是由于细胞内除了DNA序列以外的可遗传物质发生了改变,通过DNA修饰、蛋白修饰及非编码RNA的调控等,使改变能够在细胞增殖和发育过程中稳定传递。表观遗传主要包括:DNA甲基化(DNA methylation)、组蛋白修饰(histone modification)、染色质重塑(chromatin remodeling)、基因组印记(genomic impriting)及RNA编辑(RNA editing)等。表观遗传是可遗传的,同时又会受到环境及药物等的影响而发生相应的变化,因此可能是环境因素对精神疾病产生影响的内在机制。
其中,DNA甲基化是研究比较广泛的表观遗传学修饰。DNA甲基化是指基因组中特定的碱基,以s-腺苷甲硫氨酸(SAM)为甲基供体,在DNA甲基化转移酶的作用下,结合一个甲基基团的过程。DNA甲基化主要形成5-甲基胞嘧啶(5-mC),少量的N 6-甲基腺嘌呤(N6-mA)及7-甲基鸟嘌呤(7-mG)。基因组中60%~90%的散在CpG被甲基化修饰,未甲基化的CpG成簇地组成CpG岛(CpG island),位于结构基因启动子的核心序列和转录起始点。DNA甲基化可引起基因组中相应区域染色质高度螺旋化,失去限制性核酶内切酶的切割位点,失去转录活性,进而抑制蛋白质的表达。
因此,DNA甲基化修饰异常可能会导致蛋白质的异常表达,这可能会对精神疾病的发病机制具有重大影响。有研究表明,母亲或者父亲的基因由于甲基化会不同程度地影响胎儿脑体积;DNA甲基化异常与很多智力异常类疾病相关,如Rett综合征、Prader-Willi综合征、Turner综合征及Angelman综合征等;DNA甲基化在X染色体失活机制中发挥着重要作用,因此对于很多精神类疾病的性别差异存在影响(男性的X染色体来源于母亲)。
二、双生子研究
数量遗传学(quantitative genetics)用于研究行为,它与行为遗传学(behavioural genetics)同步发展。数量遗传学是运用家系、寄养子或者双生子以及多种样本混合的实验设计来研究遗传和环境因素对个体差异的影响。
在家系研究中,一种疾病或性状在家系中的聚集常有助于推断其遗传模式。但家系研究不能区别遗传因素和共享环境因素(对两个体同时产生影响的环境因素),因为家系成员的相似性可能是由共享基因、也可能是由共享家庭环境所致;寄养子研究则可以克服这一不足。在寄养子研究中,如双生子早年被分别收养,则两双生子的相似性主要由共享基因贡献,而非共享环境因素贡献。但是,因为相关信息常常不公开,寄养子的数据比较难获得,并且父母影响和选择性的安置也可能使寄养子数据出现偏倚。基于上述原因,经典的双生子研究成为行为遗传学最普遍采用的设计。
行为遗传学以心理学和医学(如精神病学)研究为基础。医学科学采用模型将疾病定义为分类变量,诊断其存在或不存在。而心理学家则倾向于将认知能力、人格或其他表型作为可定量测评的连续变量。目前趋势是整合这两种方法,特别是对于一些既可以有诊断标准又有定量测定的性状。
(一)双生子法
经典的双生子研究运用单卵(monozygosity,MZ)和异卵(dizygosity,DZ)双生子的信息来解决遗传和环境因素对一个性状的影响。双生子研究有两种不同的类型,一种是通过患病先证者收集的双生子,一种是基于人群的双生子登记系统。前者适用于探索一些相对罕见的疾病,后者更适用于研究常见性状和定量的表型。无论何种方法,他们都基于相同的双生子研究的基本原理,阐述如下。
1.群体遗传和双生子研究方法
根据群体遗传学(Biometrical genetic)的理论,可以根据观测到的双生子表型写出关于遗传和环境的结构方程。通过对比家族成员之间观测到的和预期的相关性,可以预测出遗传和环境在其中发挥的作用。在行为遗传学中,遗传和环境的变量有以下几种。
(1)加性基因效应(additive genetic influence,A),指所有影响表型基因座的等位基因效果总和。
(2)非加性基因效应(non-additive genetic influence),指相同基因座等位基因之间的相互作用,包括显性基因(dominance,D),或不同基因座之间的相互作用。
(3)家庭成员共同分享的环境因素,简称共享环境因素(common environmental influences,C),如家庭的社会经济因素、父母教养方式或饮食习惯等同时对两个双生子产生相同作用的因素。
(4)个体特异性环境因素(unique environmental influences,E),指对同一个双生子家庭中两个体产生不同影响的因素。如遭遇特殊事件、父母态度不同,并且包括了测量误差。
综上所述,表型的总方差(VT)可以表示为VT=VA+VC+VD+VE。因为在MZ和DZ双生子中,A和D有不同程度的相关,而C和E相关程度相同,故双生子资料可以估计不同因素贡献的方差。在MZ双生子中,A和D因素的相关性均为1,而在DZ双生子中分别为1/2和1/4。MZ和DZ双生子的C因素相关性均为1,而E因素不相关。MZ双生子之间的差别完全是由个体特异性环境因素的造成的,两个体之间的相关即由基因和共享环境因素贡献的。因此根据Falconer规则:

DZ双生子表型之间的差异来自于基因和环境两个方面。在一起成长的双生子中,除了基因的影响,共享的环境因素也会使两者表型趋于相同。

与DZ对相比,MZ对之间的相关性更大。因此同时得到MZ和DZ双生子的信息可以从表型的个体差异中找到表型之后隐藏的基因或环境因素。根据双生子的关系式①和②,可以得出遗传和环境因素作用的大小:

如果考虑D因素而不是C因素,则

表型之间的相关系数可以初步提示遗传和环境之间的关系。对于相同表型的双生子对应的系数,可以发现,如:
rmz=rdz,则仅有E作用
2×rdz>rmz>rdz,则 A,C 和 E 起作用;
rmz>2×rdz,则 A,D 和 E 均起作用。
在双生子分析传统的结构方程单变量模型中,往往假设可观察到的表型是受到加性基因A、显性基因D、共享环境C和独特的环境E这些潜变量的影响。但是由于单变量模型里面总共只有三个统计量:表型方差、同卵双生子不同个体之间的协方差和异卵双生子不同个体之间的协方差,所以要使得单变量结构方程模型可解,最多只能有三个待定参数。一般的做法是在显性遗传D和共享环境C之间选择一个进行估计。
在现代的遗传学研究中,遗传度分为狭义遗传度(narrow-sense heritability)和广义遗传度(broadsense heritability)。前者是指表型方差中加性基因方差的百分比,后者指所有遗传因素对表型方差的贡献,包括加性基因、显性基因、上位基因(epistatic),以及父母表型对个体的直接影响(maternal and paternal effects)。如果选择估计共享环境C,则可以计算狭义遗传度, h 2=VA/VT。
2.双生子分析的假设
经典的双生子法有很多假设。重要的是这些假设的含义以及它们和性状之间的现实意义。双生子方法的假设包括:
第一是随机婚配,也就是不存在相似遗传背景的个体间婚配。正是由于这个假设,后面关于异卵双生子遗传因素在不同个体间的相关才能合理设置为0.5。
第二是相同的环境。共享的环境对MZ和DZ双生子影响程度相同。
第三是遗传和环境的交互作用。假设遗传和环境之间不存在相互影响,可直接观察到的表型变量和代表遗传因素的潜变量,代表共享环境的潜变量和代表独有环境的潜变量之间存在线性关系。
第四是就进行研究的表型而言,双生子与普通人群没有区别。
(二)分析方法
1.结构方程和通路分析
结构方程模型是由Sewell Wright(1921)首先提出。这一方法目前已成为一种双生子研究的标准方法。它可以同时拟合一系列的线性结构方程,找到与观察数据的方差、协方差相匹配的遗传和环境参数,其工作原理见图2-10。结构方程拟合的过程包括构建、拟合、评价和修正。在建立模型时,从生物遗传学的角度对方差的来源提出假设,通过通径法则或者协方差代数矩阵得到预测的方差/协方差模型;同时,从已知的双生子数据,得到实际的方差/协方差模型,用结构方程模型对预测的和实际的方差/协方差模型进行拟合。在构建模型时必须充分考虑变量间关系。同时需考虑不同模型的意义,考虑指标误差项相关的意义。
通路分析方法在可视化和图示方面有先天的优势,可以清楚地通过图例把变量表型和目标变量之间的因果和相关关系展示出来。图2-11是一个完整的单变量双生子模型,两个双生子的观测表型数据表示为方块中,不可观测的变量、潜变量,则表示在圆圈中,如遗传和环境因素变量。因果关系有单箭头来表示,从潜变量指向观测变量。估计的路径值(即回归系数)表示潜变量对观测变量的作用,用a、c、d和e表示。潜变量之间的双箭头则表示它们之间的相关系数。
图2-10 结构方程模型拟合过程
图2-11 双生子单变量表型的相关通径图
加性遗传效应(A)和非加性遗传效应(D)在MZ双生子中相关系数为1,在DZ双生子中相关系数分别为0.5和0.25;家庭成员共同分享的环境因素(C)的相关系数在MZ和DZ中均为1,因为他们在相同的家庭中成长;个体特异环境因素(E)在MZ和DZ中均不相关,是同一个家庭不同成员之间表型方差的来源。 a、d、c、e分别为 A、D、C、E 相应的负载系数。
结构方程模型(structural equation modelling,SEM)可以充分利用矩阵的性质和统计方法的特点,使用数据将具体的分析量化。比如可以将表型和某个感兴趣的基因之间的因果关系赋予一个合理的权值,这将使得随后的研究工作有据可依和更加严谨。
SEM程序包括了矩阵计算和数据的优化过程,比如 Mx、LISREL、Mplus和 AMOS。 其中 Mx是广泛应用于双生子分析设计的免费软件,它有灵活的处理模型拟合功能,可以绘制通径图,并在FORTRAN平台上进行模型优化和矩阵代数的计算。目前,开发者进一步升级到采用R平台的Open-Mx。
在OpenMx软件中,原始数据和协方差矩阵都可以作为输入的数据,运用全信息极大似然估计(full information maximum likelihood,FIML)对参数进行估计,比如A、C、D和E的路径值。同时,原始数据的缺失值可以在全信息极大似然估计的过程中自动处理。
SEM软件采用最小对数似然函数对模型进行优化,利用似然函数(minus 2 log likelihood,-2LL)作为拟合优度的目标指数。依赖该指标判断哪一个模型更好的拟合了原始数据。除了-2LL,另外一些指标也可以帮助我们判断模型的拟合优度,比如Akaike's Information Criteria(AIC)。采用拟合指数最好的模型作为最佳模型,估计其参数。
OpenMx可以比较模型拟合的好坏。模型相对于饱和模型(saturated model)的拟合优度似然比是服从卡方分布的,所以可以设置显著性水平对模型之间的差异进行卡方检验。这里所谓完美拟合的饱和模型是指所有的协方差均自由估计,所以他们的最大似然估计值即是样本的协方差。没有显著差异的卡方值表示模型和他们的数据一致,相反则表示模型对数据的拟合不理想。这个模型并不能反映实际的情况,所以不应该采用该模型。卡方检验的自由度等于实际观测到的统计量的数量(通常就是样本方差和协方差的数量)减去模型中需要估计的参数的个数。
2.多元回归分析
另外一个经常被用于分析双生子资料的方法是多元回归分析,DeFries-Fulker回归。这一方法的基本思想是双生子先证者与其未患病同胞有不同的遗传度,而正常同胞的分数平均值更倾向于回归至正常人群的平均值。这一方法通常运用在拥有极值的表型中。协方差,例如性别年龄等因素,可以很简单地纳入到回归方程中,对于这一方法的扩展即是运用二变量的回归,由此可以计算遗传在两个表型之间的作用。
三、分子遗传学研究
精神障碍的研究者往往利用遗传分析的手段对疾病诊断体系中的精神疾病的病因进行挖掘,进而为该疾病诊断体系的合理性提供科学依据和修订的建议。这类研究模式归根于大部分精神障碍迄今为止还没有清楚的生物学病因。在不同人群中进行候选基因的检测后,已经发现一些基因位点与不同精神障碍的关联,如精神分裂症断裂基因1(disrupted in schizophrenia 1, DISC1)与精神分裂症的关联,脑源性神经营养因子(brain-derived neurotrophic factor, BDNF)基因与双相情感障碍的关联,多巴胺受体基因(dopamine receptor D4, DRD4)和 DRD5与注意力缺陷多动障碍之间的关联等。尽管如此,这一些已经取得的发现尚不能从根本上揭示精神疾病的病因。近些年来一些学者认为这些在现有诊断标准中的单个疾病其内部症候群的病理生理机制可能有着显著差异,也即所谓的临床异质性,因此以目前诊断标准下的疾病作为表型的分子遗传学研究效能仍然较为低下且难以重复。
(一)候选基因研究
既往的双生子以及寄养子的研究发现不同的精神障碍有着不同的遗传度,重型抑郁和广泛性焦虑的遗传度大约为40%;注意缺陷多动障碍(attention-deficit hyperactivity disorder,ADHD)、双相情感障碍以及精神分裂症的遗传度为60%~90%。这些遗传度的发现使得不少学者认为精神障碍的遗传风险可能仅由为数不多的一些基因来决定,而这也是大量候选基因研究的主要理论基础。在过去数十年的关于精神障碍的候选基因研究中,只有小部分结果可以得到验证。在主要的几种精神障碍中,以精神分裂症的候选基因研究数量居多,主要以高加索白人发现为主。而在一些可以被反复验证的基因位点中,部分基因位点与两种或者两种以上的精神障碍相关,提示在精神障碍的发病机制中可能存在基因多能效应(pleiotrophy),而这些疾病间共同的风险基因位点以及这些基因富集的生物学通路可能是这些不同疾病间相似的症状学的生物学基础,如以5-羟色胺转运体(5-hydroxytryptamine transporter, 5-HTT;也称 SLC6A4)基因启动子连锁多态区(linkage polymorphism region,LPR)、5-羟色胺受体1A(5-hydroxytryptamine receptor 1A, HTR1A)基因C1019G多态性、色氨酸羟化酶(tryptophan hydroxylase 1, TPH1)基因218 A/C多态性为主的5-羟色胺系统;以多巴胺转运体(dopamine transporter 1, DAT1)基因、 DRD4 基因,以及儿茶酚邻位甲基转移酶(catechol-O-methyltransferase, COMT)基因Val158Met为主的多巴胺系统;以血管紧张素转换酶(angiotensin-convertingenzyme, ACE)基因Ins/Del多态性、载脂蛋白E(apolipoprotein E,ApoE)基因ε2/3/4多态性、亚甲基四氢叶酸还原酶(5,10-methylenetetrahydrofolate reductase, MTHFR)基因C677T和A1298C多态性为主的囊泡转运系统;D-氨基酸氧化酶激活因子(D-amino acid oxidase activator, DAOA)基因为主的谷氨酰胺系统以及以脑源性神经营养因子(brain-derived neurotrophic factor,BDNF)为主的神经营养因子等。位于5-羟色胺转运体系统中 5-HTTLPR基因的多态性主要调控转录系统,其中 s等位基因与 l等位基因相比可降低基因转录效能,降低5-羟色胺的再摄取和表达,使得突触间的5-羟色胺水平增加;多项研究提示 5-HTTLPR的 l等位基因可能是ADHD、焦虑障碍及强迫症的风险位点。
有关精神分裂症和焦虑障碍的研究发现 COMT基因Val可能是疾病的风险等位基因,在高加索白人的惊恐障碍中也被发现存在关联;同时其Met等位子被发现与双相情感障碍和焦虑障碍存在关联(以强迫症为主)。COMT使得大脑内神经元外的多巴胺失活,特别是杏仁体和前额叶皮质。其中Met等位子携带者的COMT酶活性下降了30%~40%,使得突触间多巴胺活性显著增加。而这些研究结果均提示皮质边缘系统的多巴胺水平降低可能是精神分裂症和惊恐障碍发病共同的风险因素,而其水平升高可能是双相情感障碍和强迫症共同的风险因素。
(二)常见变异的研究
以候选基因研究策略为主的遗传研究往往认为疾病的发病风险只与一个或者数个、数十个基因位点变异有关,在过去全基因组分型和测序技术没有出现的时代,这些候选基因研究毋庸置疑地为我们提供了疾病发病的一些重要信息;如 DRD2DISC1基因位点在精神分裂症家系中显著富集为精神分裂症多巴胺假说提供了重要的证据支持。然而,这些候选基因研究在复杂疾病的研究中往往经不住重复,以不同假说为理论基础的候选基因研究得到的结果往往也千差万别。相比较下,以全基因组关联研究(genome wide association study,GWAS)为代表的组学分子遗传学方法除了能对之前的候选基因研究进行验证外,还能为精神障碍的遗传度提供更多的信息。同时,常见单核苷酸多态性(single nucleotide polymorphism,SNP)往往组成了某一性状的常见可遗传的部分,对这类SNP遗传度的估计可以用来评价某一遗传性状中有多个常见SNP共同组成的遗传度的具体比例(多基因性)。利用这一策略,研究者发现多种精神障碍包括精神分裂症,双相情感障碍等的相当比例的遗传度均来源于位于多个基因位点的常见SNP的共同贡献;该现象也与其他系统的复杂疾病研究结果一致。因此,目前大多数观点均认为精神障碍遗传病因的一个重要组成成分特性为多基因性。对由多个微效SNP组成的多基因性意味着在对该领域进行研究的一个前提是有足够大样本的临床队列,这里值得借鉴的一个例子是精神障碍基因组学研究合作组织(Psychiatric Genomics Consortium,PGC)。该组织自2007年成立以来,PGC为世界最大的精神障碍组学研究联盟,旗下研究中心来自38个国家,目前研究的疾病包括精神分裂症、双相情感障碍、抑郁症、孤独症谱系障碍和强迫障碍等;临床队列样本数已经达到90万,并且在不断增加。PGC所开展的全球范围内多种的大样本队列研究结果对目前精神障碍遗传研究及诊断分类都产生了深远影响。同时,随着遗传研究数据的不断积累,突破单一病种的GWAS综合分析为研究者提供了新的思路。通过计算多基因风险分数(polygenic risk score,PRS)和 SNP遗传度( h 2SNP)可以进一步对多种精神障碍致病基因进行区分,明确各自特异性与相互交叉的突变位点。近年来利用生物信息学的方法,不同类型精神障碍的常见变异SNP数据间遗传相关性研究提示不同精神障碍之间有着很大的相关性同时发病风险具有不同程度的重叠性。如PGC分析发现5种常见精神障碍(精神分裂症、孤独症谱系障碍、注意缺陷多动障碍、双相情感障碍及抑郁症)同时与神经元钙离子通道基因多态性关联;多病种间有不同的遗传重叠度:精神分裂症与双相情感障碍、抑郁症的遗传重叠程度分别为15%和9%。这种跨病种综合分析方法,从另一个独立的视角提供了对不同精神障碍遗传基础异同性的崭新分析思路。
在国际单体型图谱计划(The International Hap Map Project)之后,即便人类的全基因组得到完整测序,但这对理解人类生理、心理和行为的复杂性还远远不够。人类基因组DNA元件百科全书(Encyclopedia of DNA Elements Consortium,ENCODE)计划在此背景下孕育而生,ENCODE计划是人类基因组计划的补充,旨在1%的蛋白编码区之外,寻找人类基因组中其他在蛋白和RNA水平的功能DNA序列,以及位于基因间对基因表达起到调控作用的元件。2003年该计划的第一阶段,研究者发现一些对基因表达调控起到重要作用的调控元件位于基因间区。迄今为止,ENCODE计划已经针对在人与小鼠标本中的147个不同的细胞类型产生了1640个数据,并发现在任何一种细胞类型中基因组上80.4%的序列都存在着不同的功能;ENCODE计划从编码区、非编码区、转录因子结合位点和DNA甲基化等方面对人类基因组功能和组成做了新的诠释。同时ENCODE计划将针对常见变异的GWAS结果进行有机整合来对复杂疾病的治疗及靶点选择提供依据。
(三)罕见变异研究
尽管样本量大,位点数量多,但不可否认的是:基于常见位点的GWAS结果对于揭示精神障碍的病因学仍然有限。针对该问题,很多研究者开始定位效应较强的罕见突变,其背后的理论支持认为以孟德尔遗传模式进行世代传递的突变通常对生物学功能必不可少而且其突变带来的后果足以出现临床表现。早期通过候选基因的外显子测序研究一个成功的案例是Rett综合征,Rett综合征是一种退行性的神经发育性疾病且多发生在女性患者中,1999年Amir等经过排查后在21个散发Rett患者及8个家族史阳性被试中进行了性染色体Xq28处多个基因突变研究,最终定位于甲基CpG结合蛋白 2(methyl-CpG binding protein 2, MeCP2)基因,在对这些患者进行外显子扩增测序分析后,在散发患者中发现了该基因3处新发( de novo,在合子形成期间产生)的错义突变(missence),一处新发无义(nonsense)突变以及一处框移(frameshift)突变,这些突变在蛋白不同位置导致了氨基酸的结构和功能的改变,而这些新发突变在95%的Rett患者中均存在且不同的突变类型与不同程度的疾病表现存在关联。但大部分精神障碍中,这一类重复验证率高的突变通常非常罕见且难以寻找。近年来不断发展的拷贝数变异(copy number variation,CNV)与全外显子测序(whole exonome sequencing,WES)技术的发展为发现此类罕见且外显率高的突变提供了契机。这类研究中最为突出的例子是针对孤独症谱系障碍(autism spectrum disorder,ASD)新发突变的研究,Jacquemont和Sebat等人首先进行的孤独症谱系障碍的罕见CNV研究证实了CNV与孤独症谱系障碍的显著关联;后续研究发现特发性(idiopathic)ASD个体中大约5%~7%的个体携带有片段>500kb的罕见新发CNV,而正常同胞仅有1%的类似突变。这些突变中的一些在之前的其他报道中出现过,具有再发性(recurrence);有一些来源于健康双亲(如15q11-13和16p11.2等)。值得注意的是这些突变中没有突变可以解释疾病发病风险的1%,与之相对应的还有一些关于可传递的影响片段较小且外显率略低的CNV研究。除孤独症外,一些研究也发现新发或可遗传CNV同样可增加精神分裂症发病风险,如3号染色体上缺失片段长度大1.6Mb的3q29(包括从TFRC到BDH1的21个基因)、16p11.2微重复(microdulication)、1q21.1、15q13.3及17q12等。这些CNV的共同特点包括:基因表现度不一,不完全显性以及与其他疾病的关联如ASD、癫痫及智力发育迟滞等。与之相比,目前针对双相情感障碍(bipolar disorder,BPD)、抑郁症、物质滥用、强迫障碍(obsessive-compulsive disorder,OCD)及 ADHD的罕见 CNV研究还较少,已有的研究均表明CNV对上述疾病的发病贡献率低于精神分裂症(schizophrenia,SCZ)或孤独症谱系障碍。与CNV研究类似,针对精神障碍的全外显子研究的阳性发现也难以得到高度重复验证,通常改变蛋白编码序列功能的变异位点人群频率较CNV更为常见,因而通过全外显子组测序来寻找罕见致病突变(causal mutation)面临的挑战更显巨大;这意味着要想定位到有足够多再发突变(recurrent mutation)位点的特定基因并明确其在疾病发病中的重要角色往往需要对数以千计的个体及其亲属进行重复测序。Iossifiv和Jamin等在两个大型研究中纳入近5000位先证者,两项研究均证实了ASD患者中存在新发罕见改变蛋白功能突变并定位到33个含有再发突变且有较高致病性的基因:如与一些罕见病相关的基因如脆性X智力低下 1(fragile X mental retardation 1, FMR1)、人第10号染色体缺失的磷酸酶及张力蛋白同源(phosphatase and tensin homologue, PTEN)及结节性硬化症 1(tuberous sclerosis 1, TSC1)等基因;在神经连接蛋白(neuroligin,NLGN)家系中重复发现的X连锁 NLGN4基因和 NLGN3基因,除此之外还有与NLGN有交互作用的SH3和多个锚蛋白重复结构域 3(SH3 and multiple ankyrin repeat domains 3, SHANK3)基因及在近亲婚配阿米什人家系中发现的接触蛋白相关蛋白样蛋白2(Contactin-associated protein-like 2, CNTNAP2)基因等,这些基因的发现提示ASD与精神发育迟滞发病中可能存在X连锁的现象。2011年Girard在14个核心家系中发现先证者的新发突变率显著增高,其中功能缺失数量比对照组高出3倍(8.7%与2.9%),新发突变的基因包括锌指蛋白(zinc finger protein 565,ZNF565)、低密度脂蛋白受体相关蛋白 1(Low Density Lipoprotein ReceptorRelated Protein 1,LRP1)、ZNF48、螺旋结构域蛋白(Coiled-coil domain-containing protein 137,CCDC137)等。 但这些基因在大样本中都难以得到重复验证。Fromer等采用候选通路的方法发现SCZ先证者中的新发突变显著富集于突触网络通路上,且与ASD与精神发育迟滞的易感基因显著重叠,这也进一步说明SCZ的神经发育疾病特点。
利用频率罕见、外显率高的突变也同样发现不同精神障碍致病基因位点间的重叠,一些罕见突变可以是多种精神障碍的致病位点。Irimia与Li等均发现一些受丝氨酸/精氨酸相关核基质蛋白4(serine/arginine repetitive matrix 4, SRRM4 或称 nSR100)、RNA 结合蛋白 1(RNA binding protein,fox-1 homolog, RBFOX)和多聚嘧啶序列结合蛋白1(polypyrimidine tract binding protein 1, PTBP1)等RNA蛋白调控的并且高度保守的微外显子片段(microexon)在 SCZ、ASD、精神发育迟滞甚至癫痫患者中的剪切(splicing)均存在异常,同时这些RNA在精神障碍中均有表达下调的现象。除此之外,迄今为止发现的大部分的CNV也很少具有疾病特异性,人群频率最高的 CNV之一——17q12缺失的携带者对ASD和SCZ均具有易感性。除此之外,罕见突变表现度不一也提示在进化中高度保守基因中破坏性较大的突变,往往是通过破坏某一类大脑发育过程而导致一系列神经发育障碍的发病急剧增高,而不是通过引起某一特定的临床精神障碍来表现其突变效应。总而言之,目前的精神科临床诊断系统还不能正确地展示大脑功能的复杂性。在未来随着更多致病突变及病理生理过程被发现,将会有新的疾病诊断系统利用神经生物机制来对疾病进行分类,而取代现有以现象学分类的诊断系统。
(四)表型的定义
精神障碍遗传研究不仅仅使得精神障碍之间的界限逐渐模糊,同时也使得疾病状态与正常变异间的界限变得模糊,从而对现行的诊断系统提出挑战。最近的一项研究发现针对BPD以及SCZ的多基因风险分数可以预测人的创造力;精神障碍聚集的家系中未患病亲属与先证者间往往有一些具有数量性状特点的异常生物学标记,把这些指标称为中间表型或者内表型。尽管一些针对内表型的研究已经取得一些成绩如 ZNF804基因与工作记忆和精神分裂症关系,社会反应性(social responsiveness)与chr8p21.3和chr8q24.22在孤独症患者中的关联,但仍有大量的工作要做。此外,一些内表型如起病年龄在部分患者中也可以作为人口分层的表型。同时大部分内表型,无论是认知还是神经影像和神经电生理,这些内表型与它们所代表的疾病一样同属复杂表型,需要多基因共同作用。但不可否认的是,随着致病基因不断被发现,研究基因与中间表型间的关系能更进一步了解疾病发病的病理生理机制。
四、关联分析后分析
(一)GO注释
目前对基因功能的注释,基因本体数据库(gene ontology,GO)是常用的数据库。基因本体数据库是GO组织(gene ontology consortium)在2000年构建的一个结构化标准的生物学模型,皆在建立基因及其产物的标准词汇体系,涵盖了基因的细胞组分(cellular component)、分子功能(molecular function)和生物学过程(biological process)三个部分。GO数据库最初收录的基因信息来源于3个模式生物学数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物、动物和微生物基因组数据库。
1.GO注释的特点
GO注释是通过控制注释词汇的层次结构来从不同层面去查找和使用基因注释信息;从整体上看GO注释是一个有向无环图,包括三个分支:生物学过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)。注释中每个节点都是基因或者蛋白的一种描述,节点之间保持严格的关系。有两种GO数据库的检索方式:用关键字检索和用序列检索。
2.GO注释的意义和方法
对一组基因直接注释的结果是得到大量的功能节点,而这些功能节点可能有概念上的交替现象,从而导致分析结果的冗余,不利于下一步的精细计算,因此需要对功能节点进行过滤和筛选,以便获得更有意义的功能信息。
GO注释的方法通常是分析一组基因在某个功能节点上是否过出现?在研究中通常基于一组相关基因去分析,所以在注释分析中增加了可靠性分析,更能识别与生物现象相关的生物过程。常用的方法有:超几何分布和Fisher精确检验。
3.分析工具
基于不同的算法原理,把目前常用的注释分析工具可以分为三类:单一分析、基因集分析和模块分析。
目前使用最多的免费分析工具有:DAVID(https://david.ncifcrf.gov/)和 WedGestalt(http://www.webgestalt.org/)等。
(二)通路分析(Pathway analysis)
在精神疾病的病理机制研究中,个体的遗传风险只能解释疾病的一部分。然而,大量研究发现遗传变异不是随机的,而是集中在某些相关的通路上,发挥生物学功能是基因通路和网络,而非单个的基因。因此基于生物通路去研究精神疾病可能会得到疾病的病理学机制以及目标性干预药物。很多研究者已经从研究单个核苷酸转向研究生物通路以及基因网络。
通路分析在候选基因分析、全基因组关联分析以及全外显子分析后常被用来做生物信息学的数据挖掘。Pathway分析对研究结果有提示作用,比如通过对差异基因的通路分析,可以获得差异基因富集的通路条目,寻找差异基因可能和哪些生物通路的改变有关。与GO分类法不同,通路分析利用的资源是很多研究已经清楚基因之间的相互作用,即生物通路。常常我们把一组候选基因或者易感基因(如基因表达发生变化的基因)导入通路分析软件中,得到表达差异的基因存在于哪些已知的通路中,计算差异基因与通路的超几何分布特征,通路分析会对每个有差异基因存在的通路返回一个 P值, P<0.05表示差异基因在该通路中出现了富集。
1.主要的生物通路数据库
(1)京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)
该数据库是向公众开放最为著名的生物通路资源,对每一种生物学通路都有专门的图示说明。该数据库也是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具。
(2)Pathway Commons
该数据库来自多个生物体的公开可用的通路数据的一个收集。它提供了一个基于网络的界面,使得生物学家能够浏览并搜索以一种共同语言表征的来自多个来源的通路的一个全面收集。一个下载链接提供了标准格式或者整合大量通路信息的集合;一个网络服务能够用于查询和访问所有数据。数据库提供者能够通过一个共同的数据仓库分享他们的通路数据。通路包括生物化学反应、复杂装配、运输和催化事件,涉及蛋白质、DNA、RNA、小分子和复合物的物理相互作用。Pathway Commons旨在收集并整合以标准格式可获得的所有公开的通路数据。该数据库目前包含来自9个数据库的数据,具有超过1400个通路和687000个相互作用,并将持续扩展和更新。
(3)WikiPathways
该数据库的设立是为了促进生物通路在生物学界的发展。WikiPathways是致力于生物通路开放协作的平台,从而出现了通路数据库的新模式,如 KEGG、Reactome和 Pathway commons。该数据库增加了一个自定义的图形化途径编辑工具和综合数据库,涵盖了主要的基因、蛋白和小分子。
2.Pathway分析工具
目前常用的免费分析工具有:DAVID (https://david.ncifcrf.gov/)和Wed Gestalt(http://www.webgestalt.org/)等等。
Ingenuity pathway analysis(IPA)分析工具综合了GO和pathway等分析功能。该工具的主要特点有:自动从IPKB中数百万条研究结论中自动建模寻找最可能作用途径,研究者通过背景文献,预测调控趋势与实验结合建立假设模型。其数据来源主要是顶尖杂志、专业书籍和相关知名公共数据库,主要内容包括:基因功能、蛋白相互作用、组织表达、生物标志物和药物靶标等。
该工具能够解决以下一些问题:①基因组学、转录组学:可以帮助解决大多数基因、转录组相关的生物问题。②生物标志物发现:从实验数据集中识别最相关、最有潜力的候选生物标志物。③微小RNA(microRNA)研究:结合microRNA靶标筛选工具与mRNA知识库来构建microRNA潜在调控机制。④代谢组学:为代谢物提供关键的调控信息,从而理解代谢组数据中从细胞形态到代谢作用机制的信息。⑤毒理学:提供化合物毒性及安全评估信息,提供全面的药理作用,药物代谢途径和毒性作用机制信息。⑥蛋白质组学:对蛋白质组学数据进行全面分析,深入了解蛋白质表达机制和相关生物学过程。
(三)基于GWAS结果的后续分析
1.INRICH
该方法主要的计算步骤包括:①基于连锁不平衡获得独立的相关区域;②基于区域的permutation方法去计算经验富集 P值;③对第二步的 P值基于基因水平进行多重校正。如应用该方法对36989例精神分裂症患者和113075例正常对照的GWAS分析结果进行通路分析,发现脆性X智力低下蛋白(fragile X mental retardation protein,FMRP)交互体(mRNAs)以及钙离子通道。
2.FORGE
该方法主要的计算步骤有:①通过基因组信息映射每个SNP到特定的基因上;②解析不同的基因集;③对基因或基因集的计算结果进行Meta分析,其中对每个通路分析采用了非参数检验方法。该软件只需SNP信息及其对应的 P值,以及对普通遗传相关分析软件的结果都能分析。在计算过程中对基因或基因区域中的遗传突变位点基于连锁不平衡进行校正。该工具下载地址:https://github.com/inti/FORGE。
3.MAGENTA
该方法在执行通路分析时需要以下三个步骤:①在基因或基因间区域中选取最小 P值的SNP位点;②采用多元线性回归方法对所得 P值基于基因大小和连锁不平衡进行校正;③利用非参数检验得到通路分析的 P值。GWAS分析结果的 P值输入软件中即可计算。
4.Set screentest
该方法基于Fisher检验去综合基因的 P值或通路的 P值,在计算过程中考虑了SNP之间的相关结构或连锁不平衡。该方法在计算过程中调用了PLINK分析软件。在通路分析或基因集分析中,一般考虑至少一个SNP出现在通路或者基因集中。该方法和FORGE方法相似。
5.ALIGATOR
该方法和前面列举的方法有所不同,在分析过程中采用随机抽样10万次的形式去评估基因集的大小,并且应用了bootstrap方法计算经验性 P值。
(四)蛋白质交互网络(protein-protein interaction,PPI)
在复杂疾病的遗传研究中,常常得到的结果是一组易感基因,为了观察基因间蛋白质水平的关系,需要对结果进行后续分析。蛋白质的相互作用是指蛋白质分子间的相关性,并从生物化学信号转导和遗传网络角度去研究这种关系。生命的基本过程是不同蛋白质在时空上有序协同作用的结果;信号传导是利用蛋白质相互作用将信号从细胞外部转到细胞内部;代谢也是蛋白质复合体或者多蛋白网络协同作用来实现的。因此蛋白交互作用在生物过程和疾病研究中起着重要的作用。
蛋白质交互数据库,目前已有大量的蛋白质交互数据信息存储在公共的数据库里,从而提供了大量的蛋白质交互信息,其中包括BOND数据库、DIP数据库、MIPS数据库、GRID数据库、MINT数据库和intAct数据库等。从这些数据库中可以得到不同物种的蛋白质交互信息及其实验证据。
1.BOIN 数据库(http://bind.ca/)
该数据库是生物分子对象网络数据库(Biomolecular Object Network Databank)中最重要的组成部分。主要记录蛋白质相互作用在内的生物分子间的相互作用信息,并将其中的信息分为经过人工检查的可信信息和高通量数据信息。用户可以通过网络工具查找相互作用信息也可以将相互作用信息下载到本地进行分析。
2.DIP 数据库(http://dip.doembi.ucla.edu/)
该数据库中也含有人工检查的可用信息和自动计算方法所获取的高通量数据。该数据库可以按照不同物种选择下载不同格式的蛋白质相互作用信息。用户可以通过网络信息工具查询相互作用信息也可以将相互作用信息下载到本地进行处理。
3.MIPS 数据库(http://www.helmholtz-muenchen.de/en/mips/)
该数据库是跨物种的综合数据库,也包含多种其他的数据库。其中的CYGD数据库提供了比较完整的酵母蛋白质交互作用信息。而MIPS哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质相互作用信息。用户可以通过网络信息工具查询相互作用信息也可以将相互作用信息下载到本地进行处理。
4.BioGrid 数据库(http://www.thebiogrid.org/)
该数据库是一个包含多物种蛋白质交互作用的数据库。该数据库中既包括物理作用信息也包括遗传交互作用信息。物理交互作用信息是指蛋白间通过空间构想或者化学键彼此发生的结合或化学反应。遗传交互作用是指在特殊环境下,蛋白或者其编码基因受到其他蛋白或者基因的影响,常常表现为表型变化之间的关系。用户可以通过网络信息工具查询相互作用信息也可以将相互作用信息下载到本地进行处理。
五、精神疾病相关基因的功能研究
精神疾病具有一定的遗传度,而且关于精神疾病的遗传研究也发现了很多相关基因,但是目前关于精神疾病发病机制的研究尚未取得一致的定论,因此对于精神疾病相关基因的功能研究便显得十分迫切。目前,对于已知基因的功能研究方法很多,也取得了非常大的进展,其中最主要的成果集中在精神疾病的转基因动物模型上,这得益于一些传统的和新兴的转基因技术(transgenic technology),如基因修饰(包括基因敲除和基因导入)、光遗传学方法(optogenetics)和声遗传学方法(sonogenetics)等。 目前,转基因动物模型已广泛应用于疾病发病机制的研究、检测新的治疗方案、药效评价及药物筛选等方面。
(一)基因修饰
基因修饰主要是指通过基因打靶技术,把目的基因序列敲入到小鼠的相应基因位点,使用小鼠的表达调控元件指导目的基因表达(即基因导入,gene knockin),或者把目的基因特定序列从基因组中删除,进而导致该基因功能丧失作用或部分功能被屏障(即基因敲除,gene knockout),通过研究基因打靶后目的基因引起相应生物学效应的内在生物学机制,进而获取该目的基因在疾病发病机制中的生物学功能,作为可能靶点的药物开发价值及潜在的临床应用前景。基因修饰目前已经广泛应用于精神疾病的发病机制研究和药物开发领域。其中,以基因敲除方法应用较多,本文也将主要集中在基因敲除方面进行基因修饰的阐述。基因敲除的方法有很多,根据发展历程可以分为传统的方法(包括全基因敲除、条件性基因敲除和诱导性基因敲除等)和新兴的方法(锌指核酸酶打靶、TALEN切割和CRISPR/Cas9等)。
1.传统的基因敲除方法
(1)全基因敲除(conventional knockout)
全基因敲除是用一段外源DNA序列(通常是用于药物筛选的抗性基因,如新霉素Neomycin)将目标基因取代,从而达到使内源性目的基因失活的目的。该方法的打靶质粒构建相对简单,一般包括一个阳性筛选基因如新霉素抗性基因(neomycin resistance gene,NeoR)和一个阴性筛选基因如单纯疱疹病毒胸苷激酶(herpes simplex virus-thymidine kinase,HSV-tk)、白喉毒素 A 链(diphtheriatoxin A,DTA)。在阳性筛选条件下(如G418),只有重组了打靶载体的胚胎干细胞才能成功成活发育;如果发生了同源重组,阴性筛选基因丢失导致不能表达;如果发生了随机插入,HSV-TK会造成DNA复制停止,而DTA可以直接杀死细胞。由于全基因敲除会将模型生物的所有器官组织和细胞中的目的基因敲除,通常会带来比较明显的生物学效应,严重的导致不育甚至死亡。因此在特定时期或特定组织器官将目的基因敲除的条件性敲除研究逐步发展起来。
(2)条件性基因敲除(conditional knockout)
条件性基因敲除是指将某个基因在特定的时期、特定的组织和器官中敲除,主要是通过染色体位点特异性重组酶系统Cre-LoxP和FLP-frt来实现的。首先在待敲除的一段目标DNA序列的两端各放置一个LoxP(或Frt)序列,然后将得到的小鼠与带有细胞特异性表达的Cre(或Flp)的小鼠交配,以获得在特定细胞里把目标基因敲除掉的小鼠,即条件性基因敲除小鼠。通过该方法使模型小鼠基因组的修饰的范围和时间处于一种可控状态,主要用于研究在发育的某一阶段或某一特定的组织器官中将目的基因敲除后引起的生物学效应及内在机制,从而使对小鼠基因组的修饰的范围和时间处于一种可控状态。
(3)诱导性基因敲除
诱导性基因敲除,即在一定的诱导条件下,激活特定基因的转录因子从而启动或阻断目的基因的表达。其中最常用的一种方法需要将两套受特异性启动子调控的表达载体转入小鼠体内,即受特异性启动子调控的tTA/rtTA的表达载体和受Ptet启动子调控的Cre重组酶的表达载体。实际上,该方法由两个互补系统协调发挥作用,分别为 Tet-Off(tTA依赖)系统和 Tet-On(rtTA依赖)系统。在四环素或者其衍生物多西环素(强力霉素)存在的情况下,转录因子rtTA与启动子Ptet的相互结合,而在没有四环素的情况下转录因子tTA与启动子Ptet的结合,从而调节下游基因的表达。因此这两个互补系统是以四环素或多西环素作为Tet-On和Tet-Off系统的效应剂,主动控制特定基因在特定时期特定组织器官中的表达,实现对靶位点的剔除或修饰进行时间和空间二维调控。
另外一种诱导性基因敲除采用LightOn系统,该系统由一种光调控的转录因子和含有目的基因的转录单元构成。转录因子在蓝光的照射下迅速被激活,从而启动目的基因的转录与表达。Wang等利用该系统实现了红色荧光蛋白在小鼠肝脏和肾脏的指定区域的光控表达,而且还成功地将患有Ⅰ型糖尿病小鼠的血糖降到较低水平。由于该技术采用光源作为调控基因表达的诱导条件,因此除了能够在时间和空间上精确可逆地控制目标基因的表达,而且无污染无残留,因此在生物工程产品生产方面也将具有广阔的应用前景。
2.新兴的基因敲除方法
(1)锌指核酸酶(zinc finger nuclease,ZFN)打靶技术
ZFN又名锌指蛋白核酸酶,是一种人工改造的核酸内切酶,源自转录调控因子家族,在真核生物中从酵母到人类广泛存在。该酶由一个特异性的DNA识别域和一个非特异性核酸内切酶构成,两者结合就可在DNA特定位点进行定点断裂,启动细胞自身的修复系统;然后“同源重组”将以导入的相似序列作为模板修复该基因区域,实现指定部位的碱基替换。
(2)转录激活样效应物核酸酶(transcription activator-like effector nucleases,TALEN)
切割TALEN是基因组编辑核酸酶三大类之一。该技术借助于 TAL效应子(TAL effectors(TALEs),一种由植物细菌分泌的天然蛋白)来识别特异性DNA碱基对,附加一个在特定位点切断DNA双链的核酸酶,即构建出实现特定位点基因修饰的TALEN方法。相较于ZFN打靶技术,TALEN设计更简单也更容易构建,而且能够高度特异性地识别任意目标基因序列,且能够靶向更长的基因序列。
(3)CRISPR/Cas9基因敲除技术
2013年初,CRISPR/Cas9作为一种简单高效的全新人工核酸内切酶技术出现,引起了基因敲除领域的极大关注。规律成簇的间隔短回文重复(Clustered regularly interspaced short palindromic repeats,CRISP)是细菌和古细菌用来抵御病毒侵袭和躲避哺乳动物免疫反应演化来的获得性免疫防御机制,CRISPR/Cas9则利用RNA引导Cas9核酸内切酶家族靶向和剪切外源DNA。近来一系列研究证实,通过RNA引导的方式比DNA注射能更有效地在胚胎中产生定点突变,而且可以不限制品系地对大片段的基因组DNA进行删除,如果同时注射针对不同目的基因的RNA序列可以实现在同一模式生物中产生多个基因突变的效果。基于该种技术是一种可靠、高效、快速的构建敲除动物模型的新方法,将在动物模型构建方面具有非常广阔的应用前景。
(二)光遗传学
光遗传学(optogenetics)是一种结合光学技术和遗传技术来实现控制单个细胞行为的方法,同时兼具高时空分辨率和细胞类型特异性的特点。在2005年美国斯坦福大学Karl Deisseroth及其同事们证明了来自于绿藻的视蛋白可以使神经元产生对光的应答后,便使得光遗传学在神经及精神研究领域成为一种让人激动的研究手段。2007年Diesseroth课题组在Nature杂志上发表关于光控制神经回路的文章,同年被麻省理工学院技术评论评为该年度十大最有影响的技术之一。2010年光遗传学技术入选 Nature Methods杂志的年度方法(Method of the Year)和 Science杂志的十年突破(Breakthroughs of the Decade)。
经过几年的发展,光遗传学技术经过一些改进和优化,已经成为一项比较成熟的技术体系。基本过程包括:①利用病毒作为携带基因的载体,将光敏蛋白基因导入特定神经元细胞中并使其细胞膜上表达;②通过特定波长光的激发,激活或关闭光敏感通道蛋白;③光敏感蛋白的激活和关闭通过控制细胞膜上离子通道的打开或关闭,导致细胞膜电势发生变化,进而引起膜的去极化与超极化。④去极化与超极化的发生,使得相应的神经元出现兴奋或者抑制的反应,进而引起下游神经元信号的传导,甚至某个或某些神经环路的生物学效应。
基于该技术能够通过光学方法无损伤或低损伤地控制特异神经元的活动,启动神经元内特异的生物学过程神经元间的信息投射,通过神经环路进而控制生物行为,特别适用于在体甚至清醒动物行为学实验,因此在神经疾病及精神疾病研究领域得到了非常广泛的应用。例如,空间工作记忆(Spatial working memory,SWM)是对空间信息进行暂时加工和贮存的记忆系统,在许多复杂的认知活动中发挥着重要作用。研究表明前额叶皮质(prefrontal cortex,PFC)在空间工作记忆过程中具有重要意义,前额叶皮质与海马(hippocampus,HPC)之间的网络连接也被证实参与这个过程,然而这两个脑区的哪些具体亚区参与,其在空间工作记忆的哪个阶段(编码、存储和提取)以及如何发挥作用尚不清楚。Timothy Spellman等人通过光遗传学技术特异性地将海马的CA1/腹侧下托-内侧前额叶皮质(CA1/subiculum of the ventral-medial prefrontal cortex,vHPC-mPFC)之间的投射阻断,结果证实阻断该投射后空间工作记忆整体来看受损不明显,但是在记忆的编码阶段则受到了严重损害。因此首次用实验证实了vHPC-mPFC在空间工作记忆的编码阶段发挥着不可替代的作用。
(三)声遗传学
超声作为一种安全、经济、便携和快速的成像方法,在临床及科学研究的各个领域都得到了广泛的应用。Stuart Ibsen等采用基因工程技术将痛觉离子通道蛋白TRP-4转入蠕虫大脑神经细胞,给予低压超声波刺激可以将这种离子通道打开,进而激活神经元放电。由于超声在空气中的传播能力不强,Ibsen等将蠕虫放于液体中,通过在培养皿表面添加微小脂质泡产生振动来放大超声强度。实验中通过改变不同功能神经元表达TRP-4蛋白,科学家可以让蠕虫改变活动方向或停止活动。同时,研究中他们还发现存在对超声更敏感的其他离子通道。这种通过超声技术来调控基因表达进而改变动物行为学的方法便是新兴的声遗传学(sonogenetics)。声遗传学与光遗传学在原理和技术方面有很多相似之处,但是超声是一种损伤非常轻微的方式不会造成创伤,而且穿透能力比较强,可以深入大脑深部组织,因此可以广泛地运用于体内调控细胞功能,并将在神经和精神疾病的机制研究及治疗手段方面具有广阔的应用前景。

(王强 李涛)

六、常见精神障碍的分子遗传学研究进展
精神障碍作为重大的人口健康问题,在全球范围内引起广泛关注。随着神经科学基础研究迅猛发展,常见精神障碍的分子遗传学研究也取得了飞速进展。
(一)精神分裂症的遗传学研究进展
精神分裂症是一种常见的重大精神障碍,临床表现幻觉妄想、淡漠退缩、认知功能损害等,致残率高,疾病负担沉重。精神分裂症的发病机制未明。遗传因素在发病过程中发挥重要作用,遗传概率约为80%,分子遗传学研究发现可能为该病预防、诊断和治疗提供重要线索。
近年来研究者提出精神分裂症的多因子病因模式,包括常见疾病-常见变异、常见疾病-罕见变异和混合模式假说。精神分裂症的遗传风险由常见变异(common variants)和罕见变异(rare variants)组成,常见变异致病效应较小,罕见变异效应较大。
随着全基因组单核苷酸多态性(SNP)芯片广泛应用,全基因组关联研究已成为寻找精神分裂症等复杂疾病易感基因的重要策略。引起诸多关注的是,精神病基因组联盟(PGC)对36989例精神分裂症患者和113075名健康对照进行全基因组关联研究(GWAS)分析,发现108个独立的精神分裂症易感位点。PGC是迄今为止精神分裂症GWAS最大的样本量,为精神分裂症的分子遗传机制提供了许多重要线索。例如,PGC研究发现潜在的抗精神病药物作用靶点,如多巴胺-D2( DRD2)和代谢型谷氨酸受体3( GRM3)基因。此外,PGC研究发现的易感基因主要参与谷氨酸能通路,神经系统钙离子信号通路,突触可塑性,神经系统离子通道和神经发育通路。近期,Broad研究所Stanley精神中心等的研究人员采用65,000名被试的遗传数据进行分析,发现位于6号染色体短臂、参与“突触修剪”功能(消除神经元之间的连接)的补体4(C4)基因导致精神分裂症的风险显著增加。
通路分析是利用全基因组中单个SNP与复杂疾病关联程度计算出对应基因与疾病的关联性,将全基因组基因注释到生物学通路中后,采用不同的数学模型计算每条通路与疾病关联性。中国科学院昆明动物研究团队等利用遗传关联信息网(Genetic Association Information Network,GAIN)的精神分裂症GWAS数据进行通路分析,发现谷氨酸代谢通路、转化生长因子-β(transforming growth factor β,TGF-β)信号通路、肿瘤坏死因子受体通路、雌雄激素代谢通路。
随着全基因组研究的深入和数据积累,目前利用GWAS数据检验不同疾病之间的遗传机制的共性成为常见的研究手段,主要可以分为SNP水平和多位点水平。在SNP水平,主要通过寻找与多个疾病或性状显著关联的SNP。中国科学院和云南省动物模型与人类疾病机理重点实验室利用欧洲多个样本的精神分裂症GWAS数据进行Meta分析,发现 SLC39A8基因上多个风险SNP,进一步研究发现风险SNP rs13107325与多种疾病和性状显著关联,如高血压、肥胖、体重指数(body mass index,BMI)、能量摄取等。 在多位点水平,在全基因组水平选取一组与疾病或性状相关的风险SNP,从而计算疾病或性状之间的遗传关联,目前常用的方法有连锁不平衡系数回归(LD score regression)、多基因遗传风险分析(polygenic risk score,PRS)。Hill等利用连锁不平衡系数回归方法,对精神障碍、儿童和老年认知、受教育程度的GWAS数据进行分析,结果发现精神分裂症与老年认知存在着遗传关联(rg=-0.231, P=3.81e-12),而与儿童时期认知(rg=-0.044, P=0.443)、受教育程度(rg=0.06, P=0.093)并无遗传关联。该结果提示,对年龄相关的认知功能衰退具有保护作用的遗传变异与精神分裂症存在显著地遗传关联,也为达尔文学说负性选择(negative selection)没有筛选掉精神分裂症风险SNP提供了线索。
拷贝数变异(CNV)研究也是近年来基因组学研究热点,22q11.21是目前最为熟知的精神分裂症相关拷贝数变异,它代表22号染色体长臂上1.5~3Mb缺失,22q11.21缺失在精神分裂症患者的患病率为0.3%,该区域基因大多数在脑中表达,其中儿茶酚氧位甲基转移酶( COMT)、脯氨酸脱氢酶( PRODH)、锌指蛋白(zinc finger DHHC-type containing 8, ZDHHC8)和 DGCR8基因功能受损或者缺失,会造成分子/细胞功能改变,神经环路损害,神经系统变化,最终会造成行为和认知功能的异常。
DNA甲基化是表观遗传学修饰的主要机制之一,近年来许多研究者根据表观遗传修饰假说研究精神分裂症的甲基化修饰情况。2016年,Jaffe等选取335名正常对照和191例精神分裂症患者尸脑的前额叶皮层组织进行全基因组甲基化研究,结果发现精神分裂症GWAS发现的风险SNP中,大约有1/4会影响大脑发育时期的甲基化修饰程度。研究表明,表观调控机制尤其是甲基化修饰在精神分裂症发病机制中起到重要作用。
(二)抑郁症的遗传学研究进展
抑郁症又称抑郁障碍,是心境障碍的主要类型,临床上主要表现为情绪低落、思维迟缓、意志活动减退、认知功能损害等。抑郁症所致疾病负担沉重,占全球疾病伤残调整生命年(disability-adjusted life year,DALYs)的 42.5%,是导致非致命性疾病残疾的主要原因。
Kohli等采用GWAS发现脑源性神经营养因子( BDNF)基因rs1545843多态性位点在欧洲和非裔美国人群样本中均与抑郁症显著关联,且风险等位基因A携带者脑内海马体积显著下降。2015年中国牛津弗吉尼亚州立大学遗传流行病学实验研究(China,Oxford and Virginia Commonwealth University Experimental Research on Genetic Epidemiology,CONVERGE)发表了一项重型抑郁症的研究中,研究者通过对环境因素的筛查严格控制了临床表型的异质性,发现去乙酰化酶(sirtuin 1,SIRT1)及无机焦磷酸化酶/无机焦磷酸酶(phospholysine phosphohistidine inorganic pyrophosphate phosphatase,LHPP)多态性与重型抑郁症关联,并得到初步重复。SIRT1参与编码去乙酰化酶(sirtuins),主要功能包括促进轴突伸长、神经突发生和树突分支、调控突触可塑性、参与记忆形成等。连锁分析发现 LHPP与5-羟色胺1A受体( HTR1A)基因的交互作用与抑郁症关联。该研究也进一步验证了之前Neff等利用连锁分析策略和测序技术在犹他人群中发现 LHPP多态性位点与抑郁症关联的结论。
2015年人格遗传联盟(Genetics of Personality Consortium)对27个队列63000名被试进行人格维度GWAS分析,发现膜相关鸟苷酸反转激酶1(membrane-associated guanylate kinase 1, MAGI1)基因存在一个GWAS水平显著关联位点,该基因曾被报道与双相情感障碍和精神分裂症关联;进一步采用多基因风险评分(PRS)方法,在独立GWAS样本中验证,发现神经质相关的风险基因型可以显著地预测重度抑郁。
至今文献重复性相对较好的抑郁症易感基因有:色氨酸羟化酶-2(tryptophan hydroxylase 2, TPH2)、5 羟色胺转运体(solute carrier family 6,member 4, SLC6A4)、 COMTBDNF 等。 德国抑郁症患者中 SLC6A4基因S等位基因频率显著增高。高加索人群 SLC6A4基因型L等位基因可以预测抗抑郁药物缓解作用。
在对抑郁症易感基因的功能探索中发现,青少年期抑郁症的产生是由于体内糖皮质激素浓度过高,导致多巴胺能神经元的酪氨酸羟化酶(tyrosine hydroxylase,TH)基因发生表观遗传学改变,而当给予糖皮质激素受体抑制剂之后,小鼠抑郁样行为得到缓解,多巴胺的水平也恢复正常。该研究提示青少年期应激的表观遗传调控与抑郁症存在某种关联。
近年来,药物遗传学研究进展,尤其是基于抗抑郁序贯疗法(sequenced treatment alternatives to relieve depression,STAR*D)等临床试验样本的后续药物基因组学研究,为抑郁症提供了潜在的新型治疗靶点,已获得文献支持相对较多的选择性5-羟色胺再摄取抑制剂(selective serotonin reuptake inhibitors,SSRIs)治疗效应易感基因有 SLC6A4HTR2A、单胺氧化酶 A 基因( MAOA)、 BDNF、G 蛋白 β3 亚单位(G protein subunit beta 3, GNB3)、色胺酸羟化酶 2( TPH2)、CYP 酶( CYP2D6CYP2C19)、ATP结合 B亚家族成员 1转运蛋白( ABCB1)等;如 SLC6A4基因LPR多态性L等位基因携带者SSRIs疗效较好;抗抑郁药疗效与不良反应受CYP酶基因分型的显著影响。
(三)双相情感障碍的遗传学研究进展
双相情感障碍是常见的精神类疾病,一般指既有符合症状学诊断标准的躁狂或轻躁狂发作,又有抑郁发作的一类心境障碍。躁狂发作时,表现为情感高涨、言语增多、活动增多;而抑郁发作时则出现情绪低落、思维缓慢、活动减少等症状。研究表明该病具有复杂的遗传结构,遗传度为60%~80%;与精神分裂症和重度抑郁症具有一些相似的临床特征,存在一定的共发性及共同的遗传因素。
中国科学院昆明动物所的研究团队开展的遗传影像学研究发现,环磷腺苷效应元件结合蛋白(CAMP-response element binding protein, CREB1)基因的rs6785多态性位点与双相情感障碍显著关联,其风险等位基因与海马体下降及左侧海马功能活性降低有关;进一步研究发现双相情感障碍患者淋巴细胞系及前额皮层叶CREB1的mRNA表达水平下降也与rs6785风险等位基因关联显著。
Mertens等的研究发现,相比正常个体而言,双相情感障碍患者的脑细胞对于刺激更加敏感。研究者从6名患者机体中收集皮肤细胞后重编程使其成为干细胞再发育成神经元,同健康个体进行对比发现,正常情况下神经元会被刺激所激活并且产生反应,而患者机体收集到的细胞甚至不需要刺激就发生强烈反应。对锂盐治疗反应较好的患者机体细胞在锂盐溶液中其兴奋性明显减弱,对锂盐治疗无效患者机体细胞却依然表现出了高度活性。
近年来全基因组研究不断深入,通过对超过24000个病例和对照的GWAS分析,在五个染色体区域分离出56个显著相关的SNP位点,包括之前已经报告过的易感基因锚蛋白3(ankyrin 3,node of Ranvier, ANK3)、固生蛋白 4(teneurin transmembrane protein 4, ODZ4)、四肽重复及锚蛋白重复激酶 1(tetratricopeptide repeat and ankyrin repeat containing 1, TRANK1),同时识别出两个新的双相情感障碍遗传风险变异体:腺苷酸环化酶2(adenylate cyclase 2, ADCY2,5p15.31)和 MIR2113 与(POU class 3 homeobox 2, POU3F2,6q16.1)之间的区域。前者被预测对ADCY2蛋白(该蛋白参与神经传输)会产生损害性影响,后者可能影响信息处理速度。
(四)强迫症的遗传学研究进展
强迫症(obsessive-compulsive disorder,OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的精神障碍,一些毫无意义或违背自己意愿的想法或冲动反反复复侵入患者的日常生活。其终生患病率为1%~3%。世界卫生组织(world health organization,WHO)的全球疾病调查中发现,强迫症已成为15~44岁人群疾病负担最重的20种疾病之一。
既往研究提示强迫症可能与特殊蛋白引发的突触功能异常有关。近年研究者发现一种存在于神经元膜间名为Slitrk的蛋白,可以与突触前白细胞常见的抗原相关受体蛋白酪氨酸磷酸酶(LARRPTPs)相互作用,产生一种蛋白复合物,而且Slitrk也参与突触形成的起始阶段,可以平衡神经元的兴奋信号及抑制信号。该研究为理解因突触黏附分子异常而引发的诸如强迫症等疾病的发病机制提供了很好的研究基础。
通过对1065个家系(包括1406个强迫症患者)和基于人群的样本进行SNP水平和基因水平的综合分析发现,最小的 P值出现在9号染色体酪氨酸磷酸酶 PTPδ(protein tyrosine phosphatase,receptor type D,PTPRD)基因附近(SNP rs4401971, P=4.13×10 -7)。突触前PTPRD可以促进谷氨酸突触的分化,并与 SLITRK3基因相互作用,共同选择性调节抑制性神经递质γ-氨基丁酸(γ-aminobutyric acid,GABA)能突触的生长。 PTPRD基因缺陷小鼠表现出学习与记忆功能损伤,与强迫症患者症状类似。之前报道过的OCD相关基因 DLGAP1和红藻氨酸离子能谷氨酸受体2(glutamate ionotropic receptor kainate type subunit 2, GRIK2)得到一定验证,研究也提示了更多可能与OCD相关的基因。
总之,随着分子遗传学技术的飞速发展,近年来常见精神障碍的遗传学研究取得了巨大进展,而不同精神障碍之间重叠的及特异性的遗传变异也受到一定关注,如PGC相关研究发现,孤独症谱系障碍、注意缺陷/多动障碍、双相情感障碍、抑郁症及精神分裂症GWAS数据meta分析,PGC的两项研究极有代表性:其一,研究者通过对33 332例病例与27 888名对照GWAS数据进行深入分析,发现5种常见精神障碍(精神分裂症、孤独症谱系障碍、注意缺陷多动障碍、双相情感障碍及抑郁症)同时与神经元钙离子通道基因(calcium voltagegated channel subunit alpha1 C, CACNA1C;calcium voltage-gated channelauxiliary subunitbeta 2, CACNB2)多态性关联;其二,进一步分析不同疾病的遗传重叠度发现,精神分裂症与双相情感障碍之间的遗传重叠程度为15%,与抑郁症重叠度9%,与孤独症重叠度3%;双相情感障碍与抑郁症重叠度10%。这种跨病种综合分析方法,从另一个独立的视角提供了对不同精神障碍遗传基础异同性的崭新分析思路;但这种多个基因对应同一种疾病(many-to-one),或一种基因共同参与调节多种疾病(one-to-many)的复杂遗传机制,以及种族的遗传异质性及疾病临床表型的差异仍待深入探索。未来针对多种精神障碍开展GWAS后续数据挖掘与验证分析可能是重要的研究方向之一。

(张岱)