生物行•生命百科  > 所属分类  >  生物化学    分子生物学    生物信息学   

暗蛋白质组与肽质

目录

1. 定义编辑本段

蛋白质组(Dark Proteome) 是指人类基因组中位于传统认知的“非编码区”或“基因间区”、 长期以来被忽视或被认为无功能的DNA序列所编码的蛋白质类分子的总和。 这些区域占人类基因组的绝大部分, 长期以来被冠以“垃圾DNA”的标签。 ADFASDFAF23RQ23R

肽质(Peptidein) 是2026年TransCODE联合体为描述这类分子而创造的全新术语, 指那些由非经典开放阅读框(ncORF)编码、 结构极小(通常少于100个氨基酸65% 少于50个氨基)、 功能状态介于“完全无用”和“成熟蛋白质”之间的微型蛋白类分子。 正如研究团队所言, 这一概念“将这些分子从阴影中带入参考注释”。

ADFASDFAF23RQ23R

1

2. 历史背景: 从“垃圾DNA”到“暗蛋白质组”编辑本段

人类基因组计划完成后, 科学家震惊地发现, 编码传统蛋白质的基因仅占类基因组总长度的不到2% 。 其余超过98%的DNA序列长期被冠以“垃圾DNA”或“非编码DNA”的标签, 被认为是在演化过程中积累的无功能“分子化石”。 几十年来,“人类基因组编码约19,500种蛋白质” 这个数字被写进了课本, 也刻入了研究者的认知底层。 ADSFAEQWER353423413434

然而, 随着技术的进步, 这一认知逐渐被颠覆。ENCODE计划(DNA元件百科全书)发现大量“非编码”区域实际上具有转录活性核糖体谱分析(Ribo-seq) 技术的出现使科学家能够直接观察哪些RNA序列正在被核糖体翻译, 从而发现了大量此前未知的短开放阅读框(smORFs)。 这些发现为暗蛋白质组的探索铺平了路。 近年来, 越来越多证据表明, 人类基因组中可能还编码了数千种“暗蛋白”, 它们像暗物质一样, 虽然作用未知, 但可能在细胞中发挥着重要作用。

ADSFAEQWER353423413434

3. 2026年《自然》突破性发现编辑本段

3.1 TransCODE国际联合体

2026年5月6日, 由GENCODE、 PeptideAtlas等多个国际权威组织联合组成的TransCODE国际联合体在顶级学术期刊《自然》(Nature)上发表了题为“Expanding the human proteome with microproteins and peptideins”的重磅论文。 该联合体汇集了全球60余位研究者, 来自30余家顶尖科研机构, 包括荷兰玛克西玛公主儿科肿瘤中心、 美国密歇根大学安娜堡分校、 EMBL欧洲生物信息学研究所、 西雅图系统生物学研究所、 麻省理工学院等。

ADFASDFAF23RQ23R

3.2 研究方法与数据规模

研究团队调取了来自全球的95,520项蛋白质组学实验数据集, 这相当于开展了迄今为止规模最大的一次蛋白质“人普查”。 总计算量约20,000小时。 他们对7,264个非经典开放阅读框(ncORF)的序列片段逐一进行了蛋白质层面的验证。 这些ncORF代表的是此前未被当作经典蛋白质编码基因处理、 但可能产生短蛋白产物的遗传信息片段。 ADFASDFAF23RQ23R

3.3 核心发现: 1785种微蛋白

研究结果令人震撼:

ADFASDFAF23RQ23R

  • 在被分析的7,264个ncORF中, 约25% (1,785个)产生了可检测的肽段。 ADSFAEQWER353423413434

  • 1,785种微蛋白在现有基因数据库中几乎找不到相似的亲属。 ADFASDFAF23RQ23R

  • 这些微蛋白中,65% 由少于50个氨基酸组成, 而传统19,500种蛋白质中这一比例不足1%。 ADFASDFAF23RQ23R

  • 仅有极少数——可能只有一打左右——与传统蛋白质有相似之处。 ADFASDFAF23RQ23R

4. 肽质(Peptidein): 一个全新的概念编辑本段

4.1 概念的提出  

面对这批身世神秘的分子, 科学家遇到了命名上的难题。 传统意义上的“蛋白质”需同时满足两个基本条件: 一是有实验检测证据, 二是具有已知的生物学功能。 然而新发现的微蛋白虽已被翻译, 功能却尚不明朗。 ADSFAEQWER353423413434

为此, 研究团队提出了一个新概念——“peptidein”(肽质) 。 这一名称由“肽”(peptide) 和“蛋白质”(protein) 组合而成, 指那些已通过实验证实被翻译、 但功能尚待厘清的微蛋白。 正如一位研究者所言: “我们引入‘肽质’这个术语, 是为了将这些分子从阴影中带到参考注释中来”。 ADSFAEQWER353423413434

4.2 与传统蛋白质的区别

特征传统蛋白质肽质(Peptidein)
编码区域经典开放阅读框(cORF)非经典开放阅读框(ncORF)
大小通常>100个氨基酸65%<50个氨基酸
序列保守性高度保守在数据库中缺乏相似亲属
功能状态明确的功能蛋白介于“无用”与“功能”之间
数据库收录已收录于GENCODE/UniProt2026年首次被纳入

4.3 概念的科学意义

肽质概念的提出, 使科学界对人类基因的解读从非黑即白的“二元论”走向了一个连续谱——一段DNA既可能产生蛋白质, 也可能产生肽质, 或者什么都不产生。 正如研究团队所言: “我们承认我们仍在认知的中途, 而非终点”。 TransCODE联合体已将肽质纳入GENCODE、 UniProt和PeptideAtlas等国际权威参考数据库。

ADFASDFAF23RQ23R

5. 微蛋白的结构与功能特征编辑本段

5.1 结构特点

  • 体型极小: 绝大多数由不到50个氨基酸组成, 远小于传统大型蛋白质

    ADFASDFAF23RQ23R

  • 结构精简: 缺乏传统蛋白质常见的复杂结构域

    ADFASDFAF23RQ23R

  • 序列新颖: 在基因数据库中几乎找不到相似的亲属

    ADFASDFAF23RQ23R

5.2 进化保守性

研究团队自主开发了一个名为ORBL(ORF相对枝长) 的进化分析工具, 通过跨物种比对分析基因框的“保存完整性”。 结果发现, 在7,264个ncORF中有超过30% 受到了自然选择保护, 表明这些微蛋白可能在进化中具有重要功能。

ADSFAEQWER353423413434

5.3 功能潜力

尽管肽质的许多功能尚待验证, 初步研究表明它们可能参与多种重要的生物学过程: ADSFAEQWER353423413434

6. 癌症治疗的突破性发现编辑本段

6.1 OLMALINC肽质

研究中最引人注目的发现来自一个名为OLMALINC的基因序列——它此前被归类为长链非编码RNA, 被认为不产生任何蛋白质。 然而TransCODE联合体发现, OLMALINC实际上编码了一个肽质。 ADSFAEQWER353423413434

6.2 85%癌细胞致死率

研究团队利用CRISPR-Cas9基因编辑筛选技术, 鉴定了51个具有全基因组必需敲除表型的ncORF。 其中, 由OLMALINC编码的肽质表现最为突出。 实验证明, 一旦关闭这一肽质的制造指令, 在超过485种细胞系中,高达85% 的癌细胞即丧失存活能力。 进一步研究发现, 该肽质参与细胞分裂DNA损伤应答过程。

ADSFAEQWER353423413434

6.3 髓母细胞瘤中的关键肽质

研究团队此前的工作已经发现, 一个肽质在髓母细胞瘤(一种极具侵袭性的儿童癌)中发挥着重要作用。 这一发现进一步证实了肽质在癌症发生发展中的关键地位。

ADFASDFAF23RQ23R

6.4 免疫治疗新靶标

研究最令人振奋的发现之一, 是这些微蛋白与人体免疫系统的关系。 在细胞表面,HLA-I类分子负责将内部产生的蛋白质片段“展示”给免疫细胞看。 研究发现, 这1,785种微蛋白所衍生出的肽段, 也会被HLA-I系统规律性地展示(呈递) 出来——研究团队共鉴定了3,116条映射到ncORF的肽段被优先呈递于HLA-I类分子上。 这意味着:

ADFASDFAF23RQ23R

  • 当科学家还在争论这些微蛋白是否存在时, 人体免疫系统早就已经读过它们、 也登记过了

    ADSFAEQWER353423413434

  • 这些微蛋白可以充当免疫系统的“雷达” , 被推送到细胞表面。 ADFASDFAF23RQ23R

  • 它们成为极其理想的癌症免疫治疗新靶标, 可用于开发癌症疫苗T细胞免疫疗法ADFASDFAF23RQ23R

7. 暗蛋白质组的研究方法编辑本段

7.1 核糖体谱分析(Ribo-seq)

核糖体谱分析是发现暗蛋白质组的核心技术之一。 通过捕获并测序被核糖体保护的RNA片段, 可以直接鉴定哪些RNA序列正在被翻译。

ADSFAEQWER353423413434

7.2 质谱蛋白质组学

分辨率质谱技术能够直接检测细胞中存在的微量蛋白质, 为验证ncORF的翻译产物提供了直接证据。 研究团队采用了非常严格的统计标准和动验证流程。

ADFASDFAF23RQ23R

7.3 生物信息学与AI预测

先进的生物信息学算法和人工智能模型在大规模数据挖掘中发挥了关键作用。 通过整合多组学数据, 研究者能够从海量的基因组序列中高效筛选出具有潜在翻译活性的区域。 ADFASDFAF23RQ23R

8. 科学意义与范式转变编辑本段

8.1 打破“二元论”认知  

过去几十年, 科学界对人类基因的解读一直遵循着非黑即白的“二元论”: 一段DNA序列, 要么能编码出有特定功能的蛋白质, 要么就被视为毫无用处的废料。 暗蛋白质组的发现彻底打破了这一认知框架。 ADSFAEQWER353423413434

8.2 重新定义“蛋白质”

正如研究团队所言: “从某种意义上说, 我们一直通过一个不完整的镜来看待生物学”。 肽质概念的引入要求科学界重新思考“什么是蛋白质”——传统上, 蛋白质被定义为由足够长的氨基酸链组成且有生物学功能证据的分子。 而新发现的微蛋白大多不足50个氨基酸, 但它们却能执行重要的生物学功能。

ADSFAEQWER353423413434

8.3 对中心法则的补充

暗蛋白质组的发现是对分子生物学“中心法则”的重要补充——DNA不仅通过经典基因编码传统蛋白质, 还通过非经典区域编码大量的微蛋白和肽质, 极大地扩展了基因组的编码潜力。 ADSFAEQWER353423413434

9. 应用前景编辑本段

9.1 癌症疫苗开发

肽质能够被HLA-I系统呈递到细胞表面, 成为免疫系统识别的靶标。 这为开发个性化癌症疫苗提供了全新的抗原来源。 “癌症细胞高表达这些分子, 使它们成为生物标志物和治疗靶点的潜在新来源”。 ADSFAEQWER353423413434

9.2 靶向药物研发

85%的癌细胞在OLMALINC肽质被关闭后丧失存活能力, 提示这些分子是理想的抗癌药物靶点。 目前,多个肽质已在药物开发计划中处于核心位置

ADSFAEQWER353423413434

9.3 精准医疗与生物标志物

暗蛋白质组中的特定肽质可能成为疾病诊断和预后评估的新型生物标志物。 ADFASDFAF23RQ23R

9.4 合成生物学

人工设计和合成具有特定功能的肽质, 可能成为合成生物学的新方向。

ADFASDFAF23RQ23R

10. 未来方向与未解问题编辑本段

10.1 功能验证的挑战

1,785种新发现的微蛋白中, 绝大多数功能尚不明确。 系统性地验证每一种肽质的生物学功能是未来研究的核心任务。 ADSFAEQWER353423413434

10.2 健康细胞中的角色

OLMALINC肽质在正常健康细胞中的作用尚不明确。 理解肽质在正常生理和疾病状态下的不同功能至关重要。

ADFASDFAF23RQ23R

10.3 疾病关联图谱

除了癌症, 肽质在哪些疾病中发挥作用? “我们希望激励新一轮肽质研究, 解锁人类生物学中的新见解和药物靶点”。 ADSFAEQWER353423413434

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 生物大分子凝聚体    下一篇 合胞素

参考文献

[1].   《自然》重磅:我们以为读懂了生命说明书,却发现还有整整一章没翻开. (2026-05-13). 科普中国.
[2].   Nature重磅:发现数以千计的人类“暗蛋白”——肽质. (2026-05-09). 澎湃新闻.
[3].   Scientists uncover thousands of new proteins in ‘dark proteome’. (2026-05-06). EMBL.
[4].   Thousands of new proteins revealed in dark proteome. (2026-05-06). EurekAlert.
[5].   Rethinking protein: Scientists explore the hidden “dark proteome”. (2026-05-08). Stowers Institute.