-
- 地区
- 全部
-
- 会员级别
- 全部
973-2012CB316500-G基于新一代测序的生物信息学理论与方法-多功能混匀仪技术文章
一、关键科学问题及研究内容
解读生物细胞复杂的信息调控系统是理解各种复杂生命现象机理的关键。新一代测序技术为我们提供了从多个角度观测这个复杂调控系统的可能,但要从数量巨大、类型复杂的测序数据中挖掘出规律性的知识、并通过整合这些知识形成对系统的整体认识,需要解决一系列生物信息学理论与方法问题。
本项目拟结合基因组、表观基因组、转录组、调控组、宏基因组等各个生物层面上的应用,从数据产生的源头、数据处理的各个环节和对复杂生物机理的解析等方面入手,系统研究新一代测序相关的一系列生物信息学问题。这些问题包括:怎样建立各种新一代测序数据产生和误差的数学模型?能否通过对数据模型和后续应用的研究指导测序的实验设计和技术改进?怎样通过算法、软件、硬件和系统的策略有效应对超海量测序数据带来的存储、传输与计算问题?如何通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号?怎样建立比较各种信号的统计模型?怎样通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统?如何通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式?如何在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生物群落的功能进行刻画?如何对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序?怎样将不同层次、不同尺度上的组学数据进行整合?如何定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联?在新一代测序数据下,怎样才能更有效地开展群体遗传学研究?采用混合样本测序策略进行全基因组关联研究的统计学性质是怎样的?怎样通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路?等等。
这些问题是紧密联系的,概括起来,可以总结为两类科学问题,我们称之为新一代测序数据的计算问题和推理问题。所谓计算问题,主要包括通过对数据模型的认识改进数据处理质量,通过对算法、软件、存储和计算机体系结构、服务模式等的研究提高数据处理效率和能力等;所谓推理问题,则是指通过对生物问题和测序数据特点两方面的深入研究,对于多种类型的新一代测序数据,提出和发展有效提取生物学信息的理论和方法,提出和发展整合多种组学数据的理论和方法,提出和发展定量描述复杂生物网络、系统及动态演化的理论与方法,并将这些理论与方法应用到细胞分化、癌症发生发展等复杂生物过程调控系统的解析和建模上,获得新的生物学认识。换句话说,这里的计算问题就是怎样改进和提高超大规模测序数据的处理方法和处理能力,推理问题就是怎样从复杂的测序数据中获取知识和规律。对这两类问题的研究相辅相成,构成了我们拟研究的新一代生物信息学理论与方法。
围绕这些关键科学问题,按照新一代测序数据产生、处理、解析、应用的主要环节,本项目拟开展的主要研究内容可归纳为10项,分别针对上述两方面的科学问题、按十个主意研究内容展开研究:
(一)
超大规模测序数据的处理方法与处理能力
(1)对新一代测序数据产生模型和特点的数学描述,以及在此基础上的新一代测序实验设计理论与方法。深入理解数据产生过程中可能影响数据质量的各个因素,建立数据产生的数学模型,是更好地处理和应用新一代测序数据的基础。新一代测序的发展主要是由测序技术自身的发展推动的,尚缺乏从最终应用角度对不同测序技术中各个影响因素的系统研究。我们将在本项目中对包括Illumina/Solexa、Roche/454、AB/SOLiD和国产AG-100/200测序系统在内的多种测序平台进行实验设计、误差分析、质量评估和平台比较的研究,也包括对将来第三代测序平台的相应研究,发展新一代测序技术的误差分析和质量控制理论,建立数据分布和测序误差的数学模型,设计具有容错和误差纠正能力的数据处理方法,为后续处理算法提供数据模型指导,也通过对测序误差和质量控制的研究为测序技术本身的发展提供反馈。另一方面,针对测序实验中可以采用的生物条码(barcoding)技术和SOLiD等技术采用的碱基组合编码测序策略,研究在测序技术和实验设计中的编码理论,发展针对不同类型应用的优化实验设计策略和方法。
(2)高效的新一代测序数据基本处理算法和工作流,以及跨平台测序数据的统合分析。不同类型测序技术的数据有各自的特点,但共同特点是数据量大、数据处理过程复杂、对计算资源要求高,这些特点,制约了生物学和医学实验室对测序数据的应用,也构成了将来个体化基因组发展的一个瓶颈。我们将对各种测序数据的典型处理算法进行优化,发展针对新一代测序数据处理的可视化交互工作流;研究发展利用GPU/FPGA加速器支持的快速算法,包括大量短序列比对、从头组装、变异位点检测等,大大提高常见测序数据处理流程的计算效率;研究对多种测序平台数据以及基因芯片数据的统合分析(meta-analysis),比较不同平台的数据,有效利用平台间技术差异和互补性,并结合人类基因组和变异组数据资源,提升数据质量,消除测序噪声。
(3)适应大规模基因组数据的数据压缩存储、传输方法和搜索方法,面向深度测序大数据量的计算模型与体系结构探索。新一代测序的发展和推广应用使生物序列数据增长速度远远超过了摩尔定律对计算机处理能力增长的预期。我们将深入分析各种基因组数据的特点,针对性地研究高效数据压缩和传输方法,研究新型的数据存储系统构架;研究在压缩空间上进行数据处理的方法,将存储、压缩和处理、应用结合起来考虑,发展适应超大规模基因组数据的搜索方法;深入分析测序数据的特点和测序数据常见处理任务对计算资源的需求特点,探索新的软硬件模型和可能的新型体系结构,探索新的计算服务模型在测序数据存储、传输和处理上的应用,从计算技术上为迎接个体基因组时代的到来做好充分准备,同时推动我国相关信息技术和产业的创新发展。
(二)
从复杂的多种测序数据中获取知识和规律
(4)基于高通量基因组、表观基因组数据进行基因调控信号的识别和调控元件功能注释。新一代测序技术发展了ChIP-seq、bisulfite-seq等高通量、高分辨率检测表观遗传学特征的实验技术,能够揭示基因组中很多原来被认为没有功能的区域或原有技术无法检测的调控因素。我们将对这些数据进行深入挖掘,研究从中高分辨率检测DNA甲基化、组蛋白修饰等表观遗传学因素的方法,结合基因芯片等其他组学数据,开展表观基因组状态注释和功能预测、研究启动子注释及其使用偏好性,研究非编码RNA的注释及其对染色质沉默和启动子、增强子活性的影响,研究基因测序数据的染色质三维拓扑结构功能注释,建立不同类型细胞间染色质三维结构状态变化的比较和分析方法,研究基因转录系统与基因组序列、表观基因组状态间的联系。
(5)基于多种组学数据研究细胞分化和重编程的数学模型及肿瘤细胞基因组演化模型。对细胞分化和肿瘤发生等重要生物过程内在分子调控机制的数学描述,是真正理解这些生物过程的关键。新一代测序提供的高分辨率基因组学、转录组学和表观基因组学数据为建立这种数学描述提供了可能。本项目将比较和用数学模型刻画不同来源诱导多能干细胞与胚胎干细胞、体细胞在染色质状态与基因表达等方面的差异,分析染色质状态对细胞分化与重编程潜能的影响,建立描述细胞分化与重编程过程的动态演化模型,探索利用人工合成方法修改或扰动生物调控回路的关键环节。另一方面,将以在我国发病率高的肝癌等恶性肿瘤为例,以体细胞基因突变、染色体重排和表观遗传学修饰等数据为切入点,研究建立肿瘤多维度演化模型,对肿瘤发生和细胞分化过程进行比较,从演化和发育角度探索肿瘤发生发展的机制并进行数学建模。
(6)基于RNA测序的基因表达和选择性剪接分析、转录组分析。系统研究RNA测序数据处理与分析的方法,重点研究基因选择性剪接模式的定量推断方法和比较不同样本间基因剪接模式差异的方法,与基因表达芯片数据进行比较研究,从理论上探索特殊选择性剪接形式的不可分辨问题,综合考虑基因表达总量、选择性剪接模式和剪接等位体表达比例等因素,研究基因差异表达的概念和组间比较的统计检验方法,发掘不同形式的差异表达的功能影响,研究非编码RNA转录本的表达规律,研究不同样本间或发育过程中转录组变化的比较方法,结合CLIP-seq数据分析基因选择性剪接调控网络。
(7)宏基因组与宏转录组数据的处理方法与功能分析方法研究。新一代测序的宏基因组、宏转录组数据的处理与单一基因组数据处理相比有很多独特之处,目前通过短序列测序进行宏基因组研究的方法尚很少。我们将系统研究短序列宏基因组和转录组数据的拼接、组装和比较方法,重点研究宏转录组中的功能转录本识别和基于序列统计特征的宏基因组/转录组监督和非监督分类方法,研究人体微生物群落特征与人体表型特征之间可能的联系,探索微生物基因与宿主基因之间可能的相互作用。
(8)多种组学数据的集成方法研究和生物网络的建模、数学描述和功能研究。多种测序技术和其他组学技术以不同的尺度向人们展示了复杂生物对象的不同侧面,本项目将研究如何将不同类型的组学数据联系起来、构建包含多种调控因素的分子调控网络。进一步,系统研究多种类型生物分子网络的数学描述方法,提出能够从整体上反映网络功能特点的数学指标,探索复杂生理病理现象与基因调控网络或蛋白质相互作用网络之间整体特性的关联,探索定量研究复杂生物网络的新途径。
(9)深度测序数据中遗传多态性信号的检测方法,混合样本测序关联研究的统计遗传学理论与方法。与SNP芯片相比,新一代测序技术能检测人群中发生频率更低的遗传多态性,为研究由多种罕见突变导致的复杂疾病开辟了道路,但开展大规模的基于深度测序的遗传学研究又提出了很多新的理论与方法问题。本项目将深入研究这些问题,发展从短测序片断中检测点突变、插入删除、基因组结构变异和拷贝数变化等遗传多态性的有效算法,研究在限定测序总量的条件下平衡样本量与测序深度的实验设计方法,发展采用混合样本策略进行基因组、外显子组和RNA测序的优化实验设计理论,研究混合样本测序对统计检测功效的影响,为基于新一代测序的大规模关联研究奠定理论基础。
(10)应用新一代测序数据和统计遗传学分析研究肿瘤演化过程和分子标记。综合运用本项目取得的理论与方法成果,用群体遗传学方法研究癌细胞群体演化规律,选择对我国人民健康影响极大的肺癌作为研究对象,针对非小细胞肺癌的侵袭和转移,采用混合样本策略进行新一代测序,从基因结构、拷贝数变异、剪接体变异及非编码RNA等水平上寻找各类型非小细胞肺癌的分子特征,为研究这一恶性肿瘤的早期诊断、预后分析和理解其分子机理提供有价值的线索。
二、预期目标
本项目的总体目标是,基于和围绕新一代测序技术相关的一系列科学问题,研究高效处理、分析、挖掘和整合超大规模测序数据和其他组学数据的生物信息学模型、方法、算法和软件,发展新的生物信息学理论与方法,促进新一代测序数据的有效应用,促进从海量数据到科学知识的转化,推动对复杂生命现象内在信息调控系统的认识,推动相关信息技术的发展,使我国生物信息学研究进入世界前沿行列。
五年的预期目标是:
l
建立多种新一代测序数据的数学模型和质量控制方法,建立面向新一代测序的编码和实验设计理论。这些理论和方法,将对测序数据处理提供重要的指导,也为测序技术的改进提供借鉴。
l
建立适应多种平台、针对多种应用的新一代测序数据处理方法、算法和软件体系,包括测序读段的回帖、拼接、纠错、多态性检测、蛋白质结合位点信号检测与比较、表观遗传学状态标定和功能元件注释、基因表达估计和剪接模式估计、基因表达比较、宏转录组组装与比较等。
l
实现面向新一代大数据量序列数据处理的硬件加速方法,发展基于参考序列的海量测序数据压缩、存储和传输方法,发展面向海量基因组数据的搜索引擎技术,发展适应深度测序数据和个体化基因组数据处理的可重构计算系统结构和编程模型。
l
对高等真核生物中大量存在的选择性剪接基因,提出定性和定量分析基因表达和基因差异表达的新理论框架,对选择性剪接的功能和调控形成更系统的认识,对基因差异剪接表达在复杂疾病中的作用得到新的认识。
l
针对新一代测序技术的特点,发展基于混合样本测序的统计遗传学新理论和方法,建立基于新一代测序数据进行大规模关联研究的优化实验策略。
l
发展集成新一代基因组学数据和其他数据构建分子调控网络的方法,和定量分析生物网络功能的数学模型;综合应用多种测序数据提供的信息,建立细胞分化、癌症发生发展等过程中基因调控与基因组演化的数学模型,在对肝癌、肺癌等疾病的机理分析和分子标志物发现上取得进展。
l
主要研究成果在国际权威期刊或重要学术会议上发表。预计发表重要学术论文100篇以上,部分技术性成果以专利和软件著作权等形式发表,预计申请专利或软件著作权5-10项。通过发表高水平成果、在国际会议做特邀报告、主办顶尖国际学术会议等,在国际同行中建立重要学术影响。
l
通过本项目研究,培养一批具有坚实的生物信息学基础、善于处理和解析超大规模生物学数据、善于从庞杂的数据中探寻复杂生物学规律的年轻科学家。预计培养博士生、硕士生各20-30名。
三、研究方案
1)总体思路和创新点
新一代测序包含了一系列复杂的实验技术,它对生物学研究带来的革命是多方面的,很多分子和系统生物学问题都需要通过深度测序进行研究;同时,对信息科学与技术的挑战也是系统性的,很多传统的生物信息学问题都需要重新研究。针对这些特点,本项目将从测序数据产生、处理、解析、应用的各个主要环节进行深入剖析,对其中的生物信息学问题进行系统研究。研究过程将采用理论研究与实验研究相结合,科学问题与技术问题相结合,生物学研究与信息处理、计算技术和统计学研究相结合的策略。整个项目研究将围绕统一的总体学术思路来进行。
首先,从数据产生的源头开展生物信息学研究。发挥项目参加团队同时拥有各种主流第二代测序平台和自主知识产权国产测序平台的优势,针对各种平台分析其数据特点和噪声规律,结合后期处理需求研究影响数据质量的各种因素,以从数据中挖掘生物学规律的最终应用目标来研究优化的实验设计。
同时,提取各种测序数据处理任务中最具共性的信息技术问题,从算法、软件、硬件、系统、服务模式等多角度进行深入研究,一方面研究对现有方法的改进和现有技术的巧妙应用,另一方面从长远考虑,力求发展新的技术体系,从根本上解决不断增长的基因和基因组数据所提出的计算和存储挑战。
更重要的,本项目充分意识到,数据的产出和积累不是目的,而是探究复杂生命系统的手段,真正的目的是通过数据挖掘出知识,推进对生命体内在信息调控系统的认识,进而对健康、农业、环境、能源等相关研究领域做出贡献。因此,数据的获取不能是盲目的,数据的处理也不能是孤立的,而是必须纳入到整个研究的大循环中进行研究。这是本项目总体学术思路的关键。我们将以细胞分化、癌症发生发展等过程中的具体科学问题为例,以最终对生物过程背后分子调控程序进行数学建模为目标,引导对新一代测序数据相关的一系列生物信息学理论、技术与方法的研究。与目前国内外多数关于新一代测序数据处理的研究大都仅关注某个独立环节相比,这一学术思路是本项目最大的特色。
这一总体思路是本项目最大的创新点,预期成果的创新点包括新理论、新方法、新系统、新发现四个层面。新理论是指,建立新一代测序数据的信号和噪声模型理论、选择性剪接基因表达和差异表达的新理论、生物网络功能分析的数学模型和定量指标、混合样本测序的统计遗传学新模型;新方法,核心是处理和分析下一代测序数据的方法体系;新系统是,大规模测序数据存储和计算的新的软硬件系统;新发现是,在细胞分化和癌症发生发展中的信息调控规律和模型方面的新发现。
我们也意识到,落实这种整体的、系统的学术研究思路并非轻而易举的事,必须将系统进行合理的分解。为此,我们对核心科学问题进行了认真梳理,组织国内相关领域最具优势的研究力量,将研究内容划分为分工明确又紧密联系的五个课题,在各个课题的研究中落实总体思路,通过项目的有效组织和研究内容之间的内在联系将各个课题凝聚在一起。下面分别对各个课题的技术路线和预期创新性进行介绍。
2)技术途径
课题一、多种新一代测序技术的数据产生模型与优化处理方法
本课题重点从测序数据产生源头开始研究数据的特点、实验设计策略和数据处理技术,是整个项目的一个基础。主要从四个方面开展研究工作,预期可以在对数据产生和实验设计的数学建模、多种不同平台测序数据的联合研究和实用、高效的测序数据处理工作流方面取得创新性的成果。
(1)新一代测序技术中的编码模型及高通量实验设计理论与方法
对基因序列进行编码连接测序是测序技术的一个重要方向,将信息学中的编码理论应用于连接测序技术中,结合荧光检测的分辨率分析,设计可靠的具有纠错能力的多碱基荧光标记测序探针编码与解码方法。可望建立新的测序编码理论,指导大幅度提高测序读长和速度。由于新一代测序通量很高,对于一些特定范围的测序实验,可以通过生物条码技术在一个测序通道上对多个样本测序,处理时再利用解码程序将来自不同样本的数据分开;或者,如果测序目的是检测基因组稀有变异,可以采用将多个样本按照一定策略进行混合测序,通过可能的组合模式来推断携带稀有变异的样本。在这两种策略中,都涉及到怎样更有效设计样本组合模式和编码方案的问题,以最少次数的测序实验来获得最多的无歧义的检测结果。
目前发表的测序应用研究,实验设计很多是根据经费和样本的制约来进行的,缺乏从理论角度对最优实验方案的设计。本项目将对这一问题进行系统研究,针对具体的生物医学研究问题,综合考虑实验各个环节技术特点,考查实验中影响最终结果的主要因素,对样本量、测序深度、多次测序的批次组合等进行分析,发展能够从理论上指导实验方案设计的新方法。
(2)新一代测序数据的数学模型和质量控制方法
对三种最常用的国外新一代测序平台(Illumina/Solexa、Roche/454、AB/SOLiD)、我国自主研发的AG系列测序平台和将来的第三代测序,通过对实验环节中多种因素的分析,定量研究测序错误出现的规律和与之相关的因素,建立数据的误差模型,用以指导后续的数据处理算法。在此基础上,研究不同测序平台的特点,研究不同平台和不同应用的质量控制方法以及平台选择和优化组合方案。
在自主研发的AG系列新一代测序平台上,研究与测序编码技术相衔接的测序图像处理和碱基标识算法,结合上述误差模型和组合编码策略,建立我国自主知识产权的高通量测序原始数据处理算法和软件。同时,也将这些研究的成果反馈到测序技术研发中,推进测序技术本身的进步。
(3)新一代高通量测序数据的高效处理方法与工作流
针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等共同特点,从硬件环境和软件算法两方面入手,对测序数据的典型处理算法进行优化,研究利用GPU(图形处理单元)/FPGA(可编程逻辑门阵列)对算法进行硬件化来大幅度提高系统性能。利用CUDA(统一计算设备架构)编程技术,发展适用于GPU的高通量测序数据处理算法和应用程序。研究可重构工作流技术,发展测序数据处理的可视化交互工作流,实现各种复杂处理流程的快速组装。
(4)测序数据的统合分析(meta-analysis)
统合分析(亦称荟萃分析)是指用数学和统计学方法对多个渠道的数据资料进行定量的综合分析和概括,以提供比单一数据更准确的结果。生物学研究中,针对同一问题往往存在多种类型的数据,包括不同平台或不同实验室的测序数据、早先的基因芯片数据等,我们将着重进行对两类统合分析问题的研究:一是不同测序平台数据的统合分析,比如结合454和Solexa测序平台的误差模型,通过统合分析实现基因组中重复序列的精确评估;二是测序数据与其他关联数据的统合分析,比如在人群的遗传关联图谱研究中整合个体基因组测序与国际单倍型计划(HapMap)数据等。
课题二、面向新一代测序大数据量的计算模型与体系结构研究
本课题重点从计算模型和计算机体系结构方面研究新一代测序所面临的计算与存储瓶颈,基本技术路线是:1、深入发掘哈希索引(Hash indexing)算法的潜力,实现高效的读段回帖和拼接算法;2、充分利用基因组数据自身特点,研究数据压缩和冗余数据删除技术,实现高效的数据压缩与存储方法;3、参考分布式并行系统和MapReduce编程模型,研究实现针对高密度压缩海量基因组数据的搜索核心算法;4、在计算机体系结构方面,通过提取各种测序数据处理算法的核心特征,研究可重构计算技术的混合异构系统结构及其编程模型,利用可重构计算技术突破商业处理器中的指令集和系统结构的限制,实现序列回帖、数据压缩及传输、数据检索等核心算法的加速。本课题是面向新一代测序数据所提出的现实和未来需求的探索性研究,研究成果将不但是生物信息学领域的创新,也将是对计算、存储技术自身的重要创新。
以最常用的短序列回帖和拼接算法为例,目前方法都采用哈希索引和动态规划方法提高程序效率,进一步分析表明,影响算法性能的主要原因有:哈希索引表没有数据局部性,导致CPU的缓存命中率低;建立索引需要消耗大量内存;缺乏针对性的计算指令,大量的高并行度位运算只能在CPU中低效率进行;动态规划中数据紧耦合,在CPU难以并行,需要脉动阵列并行系统;通用CPU中强大的浮点运算单元和深度流水线技术在基因序列数据运算中得不到有效利用甚至可能带来负面影响。
基于这些分析和对计算机体系结构发展历程的研究,我们设想提出新型的可重构的体系结构以满足深度测序数据处理需求,利用商业的双CPU系统设计,包含一个X86CPU和标准芯片组和基于FPGA的可重构协处理器,动态地载入针对不同应用优化的指令,配备大容量高宽带内存系统和统一编址的内存空间,X86指令和协处理器扩展指令在同一个虚地址和实地址空间中执行。在新的结构中,我们拟对测序数据处理程序进行重新设计,解决哈希表和动态规划计算中的性能瓶颈,发展深度测序数据处理的软件包,预期处理速度至少可以比现有基于CPU的系统高出一个数量级以上。
数量巨大且不断增加的数据量是新一代测序对信息技术的一大挑战,我们将从数据压缩方法和存储方法两方面进行深入研究。基因序列数据有很多自身的特点,我们希望利用这些特点,通过改进基于参考序列的压缩方法达到对巨量测序数据的高密度压缩,而这其中同样涉及到高效的序列回帖算法问题。我们将把序列回帖与拼接和数据压缩结合起来研究,发展高效的条件压缩方法,并通过考虑序列的生物学性质帮助提高压缩率。
目前的测序数据存储主要依赖传统的磁盘阵列技术,随着数据量超摩尔定律速度的增长,预计近三五年内,一个基因组数据中心需要存储和访问的数据量将达到EB(260)量级,远非当前的磁盘阵列技术能够解决,十分需要前瞻性地对存储方法和系统结构进行研究。这里的主要问题是存储容量和访问速度。在硬件层次,采用分层管理的异构介质分级存储系统是拟发展的方向,将SSD固态硬盘、磁盘、磁带、光盘等不同存储介质通过高速网络整合成透明的逻辑存储池,辅以高效能动态分级存储管理软件,有效解决数据中心内冷热数据的合理存放,在可以控制的成本内实现EB级存储。在软件层次,深入研究面向基因组序列的冗余数据删除技术以降低对物理存储容量的需求,结合高性能序列数据计算系统实现在有限的计算代价下高效的冗余数据删除。针对访问速度问题,拟采用集群化Scale-out的方法解决数据I/O瓶颈问题,通过多个廉价X86处理节点达到比传统高端存储更优的性能。
从海量的数据进行检索和查询是测序数据应用中的一个基本需求。基因组数据属于比较典型的非结构化数据,无法利用现有数据库技术进行高效的检索与查询,存储经过高度压缩的数据更增加了检索和查询的难度。我们将充分考虑测序数据在压缩、存储和处理方案上的特点,参考分布式并行系统和针对大规模数据的MapReduce编程模型,研究发展适应海量基因组数据的搜索引擎核心算法和软件。
课题三、基于新一代表观基因组测序数据的细胞分化和肿瘤发生模型研究
数据的采集、存储和处理是基于新一代测序开展科学研究的基础,而从数据中挖掘出知识、促进人类对生命现象机理的认识才是研究的根本任务。本项目的后三个课题就是从不同层面对深度测序数据中进行知识的提取和挖掘。本课题重点研究基因组各种功能元件的识别、表观遗传学信息的提取和功能分析、以及在此基础上对细胞分化和肿瘤发生过程进行数学建模,预期将获得对表观遗传调控和细胞分化、肿瘤发生机理的新认识。
(1)表观基因组测序数据处理方法及基因调控元件的识别和功能注释
与基因组测序不同,对用于功能研究的各种复合的测序数据,比如ChIP-seq转录因子结合位点测序、bisulfite-seq甲基化测序、3C染色质结构测序等,除了读段回帖等基本处理外,最主要的处理任务是从数据中准确检测有效信号。我们将采用混合概率模型和现代信号处理技术,结合测序数据误差模型,发展高分辨率识别转录因子结合位点、DNA甲基化、组蛋白修饰区域、染色质结构等信号的方法;将测序数据与DNA序列特征分析相结合,精细注释蛋白质编码基因、基因间区miRNA和长非编码RNA基因的启动子,包括单向和双向启动子及分歧启动子;通过综合测序数据和比较基因组学、表观遗传学和转录组数据,系统地注释基因组上的各种非编码RNA;收集或采集人和小鼠胚胎干细胞、体细胞和肿瘤细胞等多种细胞的DNA甲基化和组蛋白修饰数据,用统计学和机器学习方法划分染色质状态,建立基因组功能元件、DNA甲基化和染色质状态之间的联系,分析细胞在不同分化阶段的表观遗传学变化,建立表观遗传学调控网络并进行实验验证。
(2)分析细胞分化过程的动态表观基因组学数据,建立细胞状态转化的数学模型
收集和采集细胞分化不同状态的基因组学和表观基因组学测序数据,通过对数据的信号处理和模式识别分析,发现与细胞状态变化相关的基因组学和表观基因组学标志,建立调控网络模型。分析不同分化阶段的调控网络,借鉴物理学中势能的概念和信息论中熵的原理,发展通过表观遗传调控网络描述细胞分化能力的“分化势能”概念,定量刻画细胞分化状态。在此基础上,用基因组学与表观遗传学标志和分化势能建立细胞分化的坐标空间,结合蛋白质相互作用、细胞信号通路等信息,寻找网络中可以调控细胞状态间相互转化的关键环节。通过计算机仿真对细胞分化和重编程过程进行模拟,设计细胞实验对关键环节进行验证。
(3)综合运用新一代测序与其他组学数据,构建肿瘤细胞演化的数学模型
选择肝癌这一对我国人民健康有重大影响的疾病作为研究对象,收集正常、慢性肝炎、肝硬化、肝癌的序贯样本并应用新一代测序技术进行DNA和RNA测序,利用数据处理与分析方法的研究成果,检测体细胞突变、染色体重排与基因拷贝数变异、启动子甲基化异常和RNA转录后变异等可能与肝癌发生发展过程相关的因素,结合其他组学数据,探索建立肿瘤发生过程的演化数学模型。系统收集多发性肝癌和肝癌血管侵犯(LVI)、淋巴结转移、肺转移、术后复发等样本,通过高通量测序或基因芯片比较原发肿瘤和转移灶、多原发灶及肿瘤复发前后样本之间的差异信号,应用肿瘤发生模型分析转移和复发过程中的信号变化路径,建立肿瘤转移和复发的数学模型。通过动物实验对模型的关键环节进行验证。进一步,通过生物信息学与细胞实验相结合,探索肿瘤干细胞演化模型,利用新一代测序检测肿瘤干细胞在不同刺激条件下的DNA变异水平和甲基化位点动态变化,系统描述肿瘤干细胞自我更新和不对称分化等方面的分子过程。
课题四、新一代转录组数据处理与网络集成分析的理论与方法
在生物分子调控系统中,编码和非编码基因的转录是一个关键的环节,存储在基因组中的遗传信息、表观遗传学的调控作用,都是通过转录过程发挥作用。转录组学就是对转录的整体研究。本课题重点围绕转录组开展对新一代测序数据处理与分析的研究,并研究在转录组基础上整合多种数据构建调控网络,以及对网络功能进行定量分析的理论与方法,将在选择性剪接基因表达的新概念和计算方法、宏转录组的功能分析方法和复杂调控网络的定量功能描述等方面开展创新性的探索。
对转录组测序数据研究的基础是RNA-Seq数据读段回帖、基因表达模式推断和表达量估计。由于人类基因大量存在剪接和选择性剪接,RNA-Seq数据回帖比基因组测序数据回帖更具有挑战性。本课题拟结合转录本特点的动态哈希表技术,实现外显子跨越读段的快速回帖,基于隐马尔科夫模型等方法推断选择性剪接基因的表达模式,建立考虑读段分布特点的基因和选择性剪接等位型表达量估计方法。同时,根据对当前测序技术数据产生模型的认识,建立各种剪接模式及其组合下测序数据的正演模型,通过算法反演剪接模式及其表达量,系统研究现有测序技术下的不可分辨组合,并通过模型研究完全区分各种组合对测序数据的要求,为第二代测序的实验优化和第三代测序的发展指出方向。
对微生物群落的宏基因组和宏转录组测序是新一代测序应用的一个重要发展方向,研究生物体携带的微生物群落与宿主生理病理表型之间的联系,是系统生物学研究的一个崭新方向。宏基因组和转录组测序数据处理与单一物种测序数据处理有很多共同的任务,可以采用本项目研究的各种数据处理方法,但更有自己独特的特点。将针对宏基因组和转录组数据,我们将研究不依赖序列比对的读段序列分析方法,通过统计k字词的出现频率,用模式识别方法对宏基因组/转录组进行分析。进一步,重点研究宏转录组数据中跨物种的基因转录本识别和局部拼接,通过比较不同样本的宏转录组表达谱,选择特征,实现对微生物群落功能的分类,探索宏转录组表达谱与宿主状态之间的联系。
基因的转录受到转录因子和多种表观遗传学因素的调控,而转录后又通过其蛋白质或RNA产物参与对其他基因的调控,或者与其他蛋白质发生相互作用,构成了复杂的转录调控网络。对高等真核生物,调控网络中还包含了复杂的、人们目前尚了解很少的剪接调控网络。本课题拟研究整合RNA-seq、ChIP-seq、CLIP-seq等测序数据以及基因芯片、序列模体分析等数据构建转录和剪接调控网络的方法,发展描述存在多元调控关系的生物网络的数学方法,通过监督学习、非监督学习和半监督学习方法对网络进行功能分解。从功能角度和遗传稳定性角度探索定量描述网络或模块的整体功能性质的统计量,尝试发展定量描述网络整体功能的生物信息学理论与方法,以癌症疾病等为例探索网络功能指标与疾病表型的关联。
课题五、基于新一代测序数据的统计遗传学新理论、方法与应用
研究遗传信息作用的一个重要途径是通过群体样本数据用统计遗传学手段寻找遗传规律,如果说从细胞和分子入手探索生物系统机理是从底向上的方法,那么统计遗传学可以看作是从顶向下的方法。二者各有优势、相辅相成。从孟德尔遗传定律,到摩尔根发现基因遗传连锁、重组规律,很多生物学原理都是通过这种从顶向下的方法发现的。近年来,随着基因芯片等高通量技术的发展,统计遗传学取得了很大进展。新一代测序对统计遗传学带来了很多新的问题和机遇,本课题将对其中的基本理论和方法进行研究,并应用于对癌症尤其是肺癌的研究,预期可在混合样本统计检验的理论和对癌症分子标志物的研究等方面取得创新性成果。
基于新一代测序进行统计遗传学研究,首先要发展从测序数据有效、准确地检测各类多态性信号的方法和软件。本课题拟结合测序数据误差模型,以贝叶斯模型为基础,发展准确鉴定基因组序列中的碱基突变、小片断缺失/插入和拷贝数变化的方法;研究外显子捕获测序和酶切测序中影响序列捕获效率和酶切效率的因素,建立统计回归模型进行校正;针对混合样本基因组或外显子测序,发展DNA序列变异识别方法尤其是稀有变异的识别方法,以及混合样本RNA测序中剪接变异的识别方法;研究新一代测序数据中对基因型缺失数据的估计策略,以及从群体全基因组数据中准确检测近期正选择突变的方法。
混合样本测序是在有限成本下进行大规模群体遗传学研究的有效途径,但关于混合样本测序对统计检测功效的影响和如何优化混合样本测序方案,尚没有很好的理论。我们将研究建立混合样本基因组、外显子组和RNA测序实验优化设计的基本理论,根据混合样本测序的性质重建用于基因组、外显子组及RNA测序的分析方法,将统计学中混合数据分析、不完全数据分析、分布拖尾分析的理论和方法应用于混合测序数据的理论模拟与分析之中,研究不同测序深度下测序数据的统计学性质,通过对数据的模拟完善理论和方法研究。
综合运用新一代测序技术和上述研究成果,以对我国人民健康影响极大的非小细胞肺癌(NSCLC)为例进行应用研究,拟通过合作者收集各类NSCLC(包括腺癌、鳞癌、大细胞癌和腺鳞癌)和正常对照样本,建立各类肺癌和正常组织的混合样本池,进行DNA和RNA测序,寻找与肺癌侵袭和转移相关的分子标志物,尤其是可能的新剪接体和miRNA,通过必要的细胞和分子实验验证其生物学功能。同时,通过对肿瘤细胞群体演化的研究,深入分析肿瘤基因组改变发生的模式,筛选转录调控元件上的肿瘤特异性序列变异,探索癌症发生发展的特征。
3)课题组织
课题1:多种新一代测序技术的数据产生模型与优化处理方法
研究内容:重点从各种测序技术平台数据产生的源头开始研究数据的特点、实验设计策略和数据处理方法,研究内容和目标包括:发展新一代测序技术中的编码模型和高通量实验设计理论与方法,研究各种测序平台数据的数学模型和质量控制方法,发展高通量测序数据的高效处理方法与工作流,研究跨平台测序数据的统合分析方法。
预期目标:建立多种新一代测序数据的数学模型和质量控制方法,建立面向新一代测序的编码和实验设计理论。建立适应多种平台、针对多种应用的新一代测序数据处理方法、算法、可重构软件工作流和和跨平台数据统合分析方法。在国际权威期刊或重要学术会议上发表重要学术论文20篇以上,申请专利或软件著作权2-5项。培养博士生、硕士生15名左右。
承担单位:中科院上海生命科学研究院、东南大学、上海生物信息技术研究中心
课题负责人:李轩
学术骨干:李轩、陆祖宏、孙啸、李园园、顾万君、张国庆、谢雪英、赵琼一
经费比例:24.9%
课题2:面向新一代测序大数据量的计算模型与体系结构研究
研究内容:重点从计算机科学角度系统研究新一代测序巨大的数据量带来的挑战。研究内容和目标包括:发展高效的短序列回帖与拼接算法,结合大量序列回帖与拼接的算法需求探索优化计算机体系结构和编程模型的方法,研究针对基因组数据的高比率数据压缩算法和冗余数据删除方法,实现高密度数据压缩与存储,针对高密度压缩的海量基因组数据发展高性能、高可靠的基因组数据搜索方法。
预期目标:实现面向新一代大数据量序列数据处理的硬件加速方法,发展基于参考序列的海量测序数据压缩、存储和传输方法,发展面向海量基因组数据的搜索引擎技术,发展适应深度测序数据和个体化基因组数据处理的可重构计算系统结构和编程模型。在国际权威期刊或重要学术会议上发表重要学术论文8篇左右,申请专利或软件著作权3-5项。培养博士生、硕士生10名左右。
承担单位:中科院计算技术研究所
课题负责人:张佩珩
学术骨干:张佩珩、卜东波、熊劲、谭光明
经费比例:13.2%
课题3:基于新一代表观基因组测序数据的细胞分化和肿瘤发生模型研究
研究内容:研究从新一代基因组和表观基因组测序数据中检测基因调控元件、提取表观遗传学信息的方法,识别各种调控因子的功能,分析细胞在不同分化状态的表观遗传学变化;建立细胞状态转化的数学模型,发展根据调控网络定量刻画细胞分化状态的生物信息学新概念,实现对细胞分化和重编程过程的仿真模拟;通过综合运用新一代测序数据和其他组学数据,以肝癌为例建立肿瘤发生、转移和复发的数学模型,推进对肝癌发生发展机理的认识,也为新一代测序综合应用提供一个方法学框架。
预期目标:建立新一代测序数据的蛋白质结合位点信号检测与比较、表观遗传学状态标定和功能元件注释方法。综合应用多种测序数据提供的信息,建立细胞分化、肝癌发生发展等过程中基因调控与基因组演化的数学模型。在国际权威期刊或重要学术会议上发表重要学术论文25篇以上。培养博士生、硕士生15名左右。
承担单位:清华大学、第二军医大学上海东方肝胆医院
课题负责人:张奇伟
学术骨干:张奇伟、鲁志、汪小我、古槿、陈磊、谈冶雄
经费比例:21.0%
课题4:新一代转录组数据处理与网络集成分析的理论与方法
研究内容:研究对RNA测序数据的处理与分析方法,重点发展选择性剪接基因转录模式和表达量的推断方法,建立对基因表达和差异表达的新认识;研究宏基因组和宏转录组的数据分析方法,发展基于序列统计特征的宏基因组、宏转录组数据比较和模式识别方法,通过宏转录组探索生物群落的功能特征;集成多种组学数据构建基因转录调控网络和剪接调控网络,研究网络的数学描述方法,发展新的网络功能表征指标,探索通过这些指标研究复杂疾病中调控网络的变化。
预期目标:发展RNA转录组测序数据处理方法体系,对高等真核生物中大量存在的选择性剪接基因,提出定性和定量分析基因表达和基因差异表达的新理论框架,对选择性剪接的功能和调控形成更系统的认识,对基因差异剪接表达在复杂疾病中的作用得到新的认识。发展集成新一代基因组学数据和其他数据构建分子调控网络的方法,和定量分析生物网络功能的数学模型。在国际权威期刊或重要学术会议上发表重要学术论文25篇以上。培养博士生、硕士生10名左右。
承担单位:清华大学
课题负责人:张学工
学术骨干:张学工、李衍达、江瑞、周彤、刘莉扬
经费比例:17.3%
课题5:基于新一代测序数据的统计遗传学新理论、方法与应用
研究内容与目标:发展从各类测序数据中准确高效地检测基因组遗传多态性信号的方法;重点研究采用新一代测序数据进行复杂疾病关联研究所需要的新的统计遗传学理论和方法,研究混合样本测序的理论问题和实验设计问题;对非小细胞肺癌设计深度测序实验,运用所研究的方法成果在肺癌数据中寻找关键标志物,探索肿瘤基因组发生改变的规律。
预期目标:建立从新一代测序数据中精确检测遗传多态性的方法。针对新一代测序技术的特点,发展基于混合样本测序的统计遗传学新理论和方法,建立基于新一代测序数据进行大规模关联研究的优化实验策略,在对肺癌等疾病的分子标志物发现和肿瘤基因组演化模型上取得进展。在国际权威期刊或重要学术会议上发表重要学术论文25篇左右。培养博士生、硕士生15名左右。
承担单位:复旦大学、中科院北京基因组所、中科院-马普学会计算生物学伙伴研究所
课题负责人:罗泽伟
学术骨干:罗泽伟、田卫东、张洪、胡小华、蔡军、翟巍巍、李海鹏
经费比例:23.6%
各课题之间的关系如下图所示。
4)项目特色和可行性分析
新一代测序是最近几年内发展起来的新技术,所带来的一系列生物信息学理论与方法问题在国内外都刚刚开始被重视,尚未有十分系统的研究。本项目的主要特色有:(1)从计算模型和推理模型两方面系统梳理新一代测序数据从产生、处理、存储到分析、解析、应用各个层面的生物信息学问题,包括理论问题、技术问题和方法问题,集中多学科优势力量展开系统研究。这种系统性是本项目的一大特色。(2)以认识和挖掘数据中蕴藏的科学知识为最终目标,指导对数据的实验采集、处理、压缩、存储等各环节的研究,避免片面追求数据的局部指标;在对数据的分析、挖掘和应用中,充分运用数据产生模型、误差模型和实验设计等方面的研究结果,避免对数据的盲目应用。(3)与我国自主研制的新一代测序技术密切结合,既考虑现有测序技术产生的数据,又充分考虑未来的技术发展,并且从生物信息学研究出发对测序技术自身发展提供导向。(4)对生物信息学的研究不停留在理论和方法上,而且紧密结合当前生物学前沿,对细胞分化、癌症发生发展等重要科学问题展开深入研究,力求在生物信息学理论方法和前沿科学发现上同时取得突破。(5)以积极的姿态应对不断增长的新一代测序数据对信息技术带来的挑战,不满足于对算法的改良和加速,而是从计算和存储模型、数据压缩核心思想、计算机硬件和软件系统等方面探索系统性的解决方案,不但推动生物信息学的发展,而且对信息技术自身的发展做出贡献。
本项目经过了充分的论证和准备,我们对在新一代生物信息学理论、方法和应用上取得重大突破充满信心,主要原因有:(1)项目对新一代测序相关的生物信息学和生命科学、信息科学问题进行了深入系统的分析,研究内容既有前瞻性又切实可行,项目设计思路清晰,已形成先进、可行的学术思路和技术路线。(2)项目组织了一支在生物信息学和相关方面有雄厚基础并充满活力的多学科研究队伍,既包括了国内相关领域骨干力量,也包括了新近回国的优秀人才,在高通量组学生物信息学、系统生物学、统计遗传学和高性能计算等方面已经有充分的研究基础。(3)项目团队拥有良好的研究条件,尤其是同时拥有目前国际上主流的第二代测序平台和我国自主研发的第二代测序平台,同时与国际上第三代测序技术领导者已经建立了密切的合作关系,在用于开展实验研究的实验条件和样本、病例条件上都已经有充分准备,在计算机体系结构和高性能计算上有很强的研究能力和实验条件,有条件完成计划的研究任务。(4)研究团队已经在本项目主要方向上开展了一定的前期研究和调研,从技术上充分考查了所提研究目标的先进性和可行性。(5)目前,我国信息科学界、生命科学界和科技管理部门都非常重视生物信息学交叉学科研究,这种宏观环境为生物信息学研究创造了有利的条件。
四、年度计划
研究内容
预期目标
第
一
年
1.
梳理多种新一代测序技术平台的生物和医学应用,综合考查各个环节的技术特点和对实验设计、生物信息学数据处理的影响,研究测序数据的可重构工作流技术。收集当前主流测序平台产生的对人和多种模式生物的多种新一代测序数据,研究不同平台、不同物种间数据的统计特征。
2.
优化AG系列测序技术,研究具有纠错能力的多碱基荧光标记测序探针编码与解码问题。
3.
研究面向深度测序的高效读段回帖算法,分析其中的核心算法问题。研究可重构计算技术混合异构系统结构中的耦合问题和一致性问题。研究基因测序数据的压缩问题。
4.
收集ESC/iPSC和肝癌等肿瘤样品的高通量测序数据,收集和优化已有处理方法,对ChIP-seq和3C/Hi-C数据处理问题进行研究。
5.
收集和采集本项目在肝癌和肺癌方面的应用研究中所需要的样品,研究其测序实验的设计和实验流程,展开对肺癌细胞系、癌组织与癌旁正常对照组织的基因组DNA、RNA、miRNA样本的抽提、制备的探索性准备实验。。
6.
研究RNA测序数据的处理方法和选择性剪接基因表达的推断和比较方法,基于16S rRNA测序研究微生物群落特征与宿主表型之间的联系,研究基于新一代测序数据构建生物分子网络的方法。
7.
建立能反映DNA、RNA、miRNA分子变异特征的混合样本的概率模型、分析这些概率模型的统计学性质。构建上述测序数据的随机模拟的数学模型并实现为随机模拟计算机程序,展开随机模拟研究。将测序误差的大样本统计学特征整合到上述概率模型,建立混合样本分别用于测序检测这些分子变异的优化设计参数(或设计方案)。
1.
完成多平台的数据特征分析,针对一项典型应用提出一套优化实验设计方案,建立一个测序数据可视化处理应用的工作流。
2.
设计出具有纠错能力的多碱基荧光标记测序探针编码和解码方法。初步优化国产AG测序系统的性能,提高测序读长一倍以上,同时取得速度、准确性上的提高。
3.
提出一种高效的读段回帖算法,实现将cache命中率由低于50%提高到90%,将空间需求压缩80%以上。提出一种可重构计算技术的混合异构系统结构,提出系统设计方案,完成关键接口的微结构设计及仿真。初步提出一致测序数据的压缩方法,争取压缩率达到10%。
4.
初步建立ESC/iPSC和肝癌等肿瘤相关的基因和表观修饰数据库,提出处理ChIP-seq数据GC含量偏差和非唯一映射问题的方法。提出一种利用比较基因组、表达谱和表观遗传修饰预测ncRNA的方法。
5.
初步建立肿瘤发生(单细胞或细胞株演化)高通量CNV测序数据的随机概率模型。
6.
初步建立起RNA测序数据常规处理的平台,基本建立比较选择性剪接基因差异表达的方法。
7.
收集用于宏基因组学研究的20个以上的胃炎和健康对照样品,完成其16S rRNA的测序和数据分析。
8.
获得不同测序数据中测序误差、读段长度、测序深度、目的基因覆盖程度、回帖成功率等的经验分布与相应的统计学特征。获得基因组DNA、RNA、miRNA混合样本测序测序数据的大样本统计性质。初步建立优化混合测序样本的设计原理与重要参数。
9.
建立简易、可靠的适用于新一代测序实验的DNA、RNA、miRNA、16S rRNA样本制备和预处理流程。
10.
发表20篇左右的研究论文。
第
二
年
1.
开展大样本混合编码方法研究,研究通过可能的组合模式来推断携带稀有变异的样本,研究与AG系列测序编码技术相衔接的测序图像处理和碱基标识算法。
2.
启动比较国外新一代测序平台、我国自主研发的AG系列测序平台和Pacific Bioscience第三代测序的技术特征研究。研究国外新一代测序平台和自主研发的AG系列测序平台的数据误差模型。
3.
针对典型高通量测序数据处理应用,研究利用GPU/FPGA对算法进行硬件化来大幅度提高系统在此关键应用上性能。
4.
结合可重构计算技术研究大规模测序数据回帖的算法问题,研究可重构计算技术的混合异构系统的设计与实现、动态指令集开展等问题,研究基因组测序数据压缩和冗余数据删除技术。
5.
研究DNA甲基化和多种表观遗传学因素的关系,利用ChIP-seq/ RIP-seq数据,研究ncRNA和PcG蛋白的结合,构建蛋白质与小RNA的相互作用网络。对3C/Hi-C数据研究如何鉴别有功能DNA-looping,特别是组织特异的增强子与启动子的相互作用。
6.
分离单一肿瘤样本中不同亚群的肿瘤干细胞,解析不同亚群肿瘤干细胞的序列变异水平,结合肿瘤进化模型系统分析单一肿瘤样本中不同亚群肿瘤干细胞之间以及这些细胞与非肿瘤干细胞之间的进化演进关系,绘制肿瘤干细胞的系统演进图谱,从实验层面验证肿瘤的克隆形成学说的意义,并阐明不同肿瘤干细胞遗传学基础的异同。
7.
在考虑选择性剪接情况下研究基因表达和差异表达的理论与方法。研究单细胞中基因转录调控过程的数学模型和基因表达时间序列数据的正演模拟方法。
8.
采用宏基因组/宏转录组测序研究人体消化道微生物群落特征与宿主表型之间的联系。
9.
通过随机模拟研究及真实数据分析,验证、比较混合样本优化测序设计基本理论与方法的可靠性,确定不同限制条件下,不同测序目的的混合样本的设计方案。展开利用混合样本的新一代DNA测序数据,准确、快速预测测序分子序列变异的方法学研究。发展多位点-复等位基因遗传连锁不平衡分析的理论与方法。
1.
完成与测序编码技术相衔接的测序图像处理和碱基标识算法,完成一套具有我国自主知识产权的高通量测序图像处理和碱基标识等原始测序数据处理算法和软件,并应用于国产AG系统测序仪。
2.
完成具有均衡特征和容错特征的大样本混合编码方法开发,建立有纠错能力的多样本序列标记编码算法,至少一项相关应用范例。
3.
初步实现一个利用GPU/FPGA对高通量测序数据处理算法进行硬件化加速的技术。
4.
提出一种利用可重构计算技术加速读段回帖算法的方法,争取将其加速比提高一个数量级。实现一种可重构计算技术的混合异构系统原型,并可运行部分核心算法。利用面向基因数据的高效压缩方法,实现一种支持冗余数据删除的高效文件系统。
5.
得到对DNA甲基化数据几个重点研究问题的建模,开发一套基于CLIP-seq对蛋白质-RNA相互作用进行系统分析的方法,开发基于3C、Hi-C数据预测染色质状态和3D结构的数学模型,建立预测功能非编码基因,特别是在不同肿瘤细胞中特异表达的新型ncRNA及其调节网络通路的系统方法。
6.
利用流式细胞分选技术分离单一肿瘤样本中不同亚群的肿瘤干细胞,用高通量测序技术精细解析不同亚群肿瘤干细胞的序列变异水平以及演化关系,绘制肿瘤干细胞的系统演进图谱。对肿瘤发生发展的的多阶段演化模型的两类理论(肿瘤的随机演化模型,肿瘤干细胞演化模型),争取从数据中找到支撑不同理论的证据。
7.
建立起定量比较选择性剪接基因表达模式的方法,初步建立关于基因表达差异的新理论。
8.
建立描述一个细胞中基因转录调控过程的数学模型,实现在多个转录因子作用下基因表达数据的定量模拟。
9.
累计收集50例以上的胃炎患者和健康对照样本,完成对他们的16S rRNA测序研究和对部分样本的宏基因组/宏转录组测序研究。
10.
完成新一代测序混合样本优化设计的基本理论与实施方法。提出遗传连锁不平衡分析的新理论与新方法。
11.
发表25篇左右的研究论文,申请3-5项专利或软件著作权。
第
三
年
1.
对在自主研发的AG系列新一代测序平台,开展多个应用的测序实验和详细的统计分析,发现AG系统固有的偏差及其发生规律,建立其数据误差模型,同时建立AG系统质量评估和控制方法。根据误差模型,发展测序数据纠错算法和软件,集成建立高通量测序数据处理的软件系统。
2.
开展不同测序平台数据的统合分析算法研究,通过结合不同测序平台的误差模型,通过统合分析实现基因组中序列的更精确评估。
3.
研究深度测序的高效读段回帖算法在可重构计算技术的混合异构原型系统上的加速运行问题,研究可重构计算技术的混合异构系统编程问题,研究基因数据压缩和冗余数据删除在混合异构系统上的实现问题,研究Seed-based Filtering算法和Systolic Array,实现海量基因组数据的搜索引擎核心算法。
4.
研究多种数据整合的方法,争取对干细胞与肿瘤基因(特别是非编码基因)和表观修饰在全基因组水平上有一个全面的认识。分析细胞分化过程的动态表观基因组学数据,建立细胞状态转化的数学模型。收集和采集细胞分化不同状态的基因组学和表观基因组学测序数据,通过对数据的信号处理和模式识别分析,发现与细胞状态变化相关的基因组学和表观基因组学标志,建立调控网络模型。
5.
分析不同分化阶段的调控网络,借鉴物理学中势能的概念和信息论中熵的原理,发展通过表观遗传调控网络描述细胞分化能力的“分化势能”概念,定量刻画细胞分化状态。通过计算机仿真对细胞分化和重编程过程进行模拟,设计细胞实验对关键环节进行验证。
6.
结合RNA-seq、ChIP-seq、CLIP-seq等数据研究转录调控和剪接调控的规律和网络。利用RNA-seq数据研究不同类型细胞中非编码RNA的表达规律。
7.
完善宏基因组/宏转录组测序实验和数据处理流程,研究微生物群落转录本表达与宿主表型之间的关系。
8.
研究多种生物分子网络功能的描述方法。
9.
研究利用混合样本的新一代miRNA、Bisulfate测序数据,准确、稳健预测miRNA表达水平、结构变异、甲基化位点变异的理论与方法。建立适用于处理-对照样本的多层次新一代测序数据的全基因组关联分析的相关理论与方法。
10.
完成肺癌细胞系的外显子DNA、mRNA、miRNA,Bisulfate测序实验分析。
1.
建立面向AG系统的质量评估和控制方法及测序数据纠错算法,建立具有相应的高通量数据处理软件系统。
2.
利用可重构工作流技术,完成一项项高通量测序数据的可视化处理应用工作流范例。
3.
使所研究的高效读段回帖算法可在可重构计算技术的混合异构原型系统上加速运行,并可使用人类基因组的大数据集。提出并实现一种可重构计算算法库函数或宏指令,以解决异构系统的编程问题。利用可重构的系统加速基因数据压缩和冗余数据删除算法,争取实现1个数量级以上的加速比。争取在可重构的混合异构系统上采用Systolic Array方法,将搜索的速度提升2个数量级。
4.
开发出多种数据整合的方法,并得到对不同基因功能区的染色质状态分类以及与基因(包括非编码基因)表达的关系。建立刻画细胞分化动态表观遗传调控网络的数学模型并在实验干预中得到检验和完善。
5.
寻找量化多潜能的“熵”或“分化势能”及其决定因素,建立模型模拟其在分化或重编程中的变化规律。
6.
以14q32.2基因组区间的DLK1-DIO3 miRNA cluster为例,进行综合分析,构建基因印迹和染色质沉默的模型,以用来预测基因组中其他类似结构区域。
7.
结合第二代测序和第三代测序数据,对选择性剪接基因的表达规律和调控形成系统的认识。建立描述多个转录因子调控一个基因的多细胞数学模型和模拟数据产生方法。
8.
以胃炎的典型表型为例,从宏基因组/宏转录组测序数据中找到若干于表型显著相关的微生物转录本,建立机遇宏基因组序列特征的监督和非监督分类方法。
9.
提出定量表征生物分子网络整体功能的统计量。
10.
完成建立从miRNA、Bisulfate混合样本的新一代测序数据,快速、准确、稳健预测miRNA表达水平、序列结构变异,基因组甲基化修饰位点与分布的理论与方法。整合多层次新一代测序数据的全基因组关联分析的相关理论与方法。
11.
完成不少于20株不同类型的肺癌细胞系的外显子DNA、mRNA、miRNA,Bisulfate测序数据。
12.
预计发表研究论文25-30篇。
第
四
年
1.
以研究取得的AG系统系统误差模型及其发生规律为指导,研究AG系统测序技术的改进方法。以提高纠错能力为目标,综合各种测序平台的技术特点和误差模型,进一步发展高通量测序实验平台组合设计方法。
2.
开展测序数据与其他关联数据的统合分析算法研究。
3.
产品级的可重构计算技术的混合异构系统设计与开发,重点研究解决系统的可靠性、扩展性及应用性方面的问题。
4.
研究EB级基因测序数据的存储问题,重点是海量文件元数据的高效组织和管理、EB级数据存储系统中的数据对象映射、EB级数据存储系统中的数据放置。
5.
研究如何改进方法,更有效地应用到单细胞测序实验数据的分析中去。如何控制误差以及如何用随机过程模拟等。进而研究单细胞测量结果与细胞集群测量结果之间的定量关系。
6.
建立实验性动物诱癌模型,研究肝癌复发转移的模型。
7.
研究转录组比较的方法、机遇时间序列基因表达数据推断基因间调控关系的方法和转录调控网络与剪接调控网络构建的方法,探索剪接调控过程的数学模型。
8.
研究宏转录组中功能转录本的识别和注释方法,研究基于功能转录本的宿主表型分类方法。
9.
研究基于监督学习、非监督学习和半监督学习集成多种组学数据构建生物分子网络的方法体系,研究定量描述生物分子网络功能特征的数学指标和方法,探索复杂生物网络中因果关系的推断方法。
10.
展开肺癌细胞系的外显子DNA、mRNA、miRNA,Bisulfate测序实验数据的分析。开展多层次测序数据的全基因组关联分析、网络构建、预测关键性生物分子标记、展开生物分子标记物变异的群体遗传学、进化规律的分析。
11.
完成肺癌与正常组织样本的外显子DNA、mRNA、miRNA,Bisulfate测序实验分析。开展对预测关键性生物分子标记功能的实验验证并将相关信息反馈到理论分析中,以进一步提高理论预测的效率。
1.
进一步优化改进AG系统的测序性能,重点提高系统测序的准确性,并完成AG系列高通量测序仪的第二项应用范例。建立以提高纠错能力为目标的多平台组合实验设计方法。
2.
完成多种不同高通量测序数据平台整合分析方法的研究,并实现至少一个应用案例。
3.
争取能够提供一种产品级的可重构计算混合异构系统,可满足包括基因数据处理和网络信息搜索等多种类似应用的加速需求。
4.
提出EB级基因数据存储系统的设计思路,并解决其中的有关元数据的组织和管理、数据放置及映射等关键问题。
5.
开发单细胞高通量测序数据分析的相应方法。并通过应用得到单细胞测量结果与细胞集群测量结果之间的定量关系。
6.
结合单细胞测序比较原发肿瘤和转移灶、多个原发灶,以及肿瘤复发前后样本之间的变异,初步建立肿瘤的复发和转移进化模型。
7.
得到动物诱癌模型,在动物模型中验证在肝癌网络预测的靶点的可能功能。
8.
建立基于时间序列基因表达数据推断基因调控关系和构建调控网络的方法和相关理论,初步建立剪接调控过程的数学模型。
9.
发现与胃炎表型相关的微生物群落转录本特征,推测可能的微生物基因与宿主基因相互作用通路。
10.
建立一套集成多种组学数据构建生物分子网络的方法和分析网络功能的方法。
11.
完成不少于200肺癌与正常组织样本对的外显子DNA、mRNA、miRNA,Bisulfate测序数据。
12.
提出一套预测显著影响肺癌细胞病变发生、发展的生物分子标记的科学理论与方法。建立癌细胞抑、原癌体细胞突变发生、演化的群体遗传学理论模型与相关数据的分析方法。
13.
预计发表研究论文25-30篇。
第
五
年
1.
整理、总结、集成前四年的理论、方法与应用研究成果。
2.
完善AG系列测序技术相关的数据处理方法系统和实验设计方法体系。
3.
开展产品级的可重构计算技术的混合异构系统的应用技术研究。继续研究EB级基因测序数据的存储问题,包括
EB级数据存储系统中的重复数据删除技术,和
EB级数据存储系统中的访问负载均衡与自动容错技术。
4.
通过比较、整合和建模分析,深入研究肿瘤发生的表观特征:全基因组的hypo-DNA甲基化和肿瘤抑制基因(包括非编码基因)启动子hyper-DNA 甲基化。寻找其与iPS重编程的表观特征:全基因组的去甲基化(特别是核心TF,如Oct4等的启动子)和定向分化TF启动子的甲基化的内在联系。并争取在细胞和动物模型的实验中进行验证。
5.
整合肺癌细胞系、组织样本的外显子DNA、mRNA、miRNA,Bisulfate测序实验数据的分析。完成多层次测序数据的全基因组关联分析、网络构建、预测关键性生物分子标记。
6.
继续上述预测生物分子标记物的实验验证工作。将所获得的实验数据反馈到总体的实验数据理论分析中,进一步完善、确证本课题发展的新一代测序数据理论模拟与分析方法。
1.
完成自主研发的AG系列新一代测序平台的质量评估理论方法。
开发出针对AG系统的纠错数据处理方法。完成自主知识产权的相关软件的开发。
2.
完成测序数据和一种其他组学平台数据整合分析方法的研究。
完成一个利用GPU/FPGA对高通量测序数据处理算法进行硬件化加速的应用。
3.
争取将可重构的混合异构系统推广应用,以满足网络信息搜索等多种类似应用的加速需求。争取实现一种高可用的EB级基因数据存储系统,满足国家基因数据库的需求。争取将有关读段回帖、压缩、存储、检索等方面的研究成果在可重构的异构混合系统上高效地运行,并提供服务。
4.
初步得到对iPS重编程或的肿瘤发生中DNA甲基化一般性表观遗传基本特征的机理或解释。打包和发表对用户友好的程序软件。建立有效传播本课题研究成果的网站和工具。
5.
建立完善的RNA测序数据分析系统,建立对基因表达、差异表达和剪接、差异剪接的统一理论和检测方法,建立能够描述和模拟多个转录因子调控的基因表达的动态过程的数学模型。建立生物分子网络功能定量描述的数学方法。
6.
完成本课题拟定的各项理论分析、方法构建、计算机软件开发的研究任务。
转自生命科学论坛