写在前面:为什么「卵子质量」是试管里最难量化的变量
每天的咨询里,我们都要回答同一类问题的不同变体:「我 AMH 1.1,41 岁,到底还有没有戏?」「医生说我卵泡不少,怎么取出来的卵子配不成胚胎?」这些问题的核心,都指向辅助生殖里最关键、却最难测量的一个变量 —— 卵子质量。
卵子数量好测:抽血看 AMH、B 超数 AFC(窦卵泡数),半天出结果。但卵子质量——也就是这颗卵子能不能受精、能不能发育成整倍体囊胚、能不能着床并活产——在取卵、受精、养囊之前,传统医学几乎无法直接预判。我们只能用年龄做粗略代理:年龄越大,染色体非整倍体率越高。但同样 40 岁的两个人,结局可能天差地别。
本文写于 2026 年。数据来源:ASRM 2024 Practice Committee 关于 AI 的立场文件、ESHRE 2024 Good Practice Recommendations、Cochrane 2024 time-lapse 系统综述、Lancet Digital Health 2023-2024 多中心研究、SART 2023 公开数据,以及悦喜汇 2008-2026 内部脱敏案例库(10,000+ 例)。涉及 AI 效果的部分,我们一律标注证据等级。
第 1 章:传统卵子/胚胎评估的三大盲区
要理解 AI 的价值,先得看清传统方法卡在哪。今天全球绝大多数实验室仍在用的,是 1999 年确立的形态学评分(Gardner 囊胚分级,如 5AA、4BB)。它有三个根本盲区:
1.1 形态≠遗传:好看的胚胎也可能是非整倍体
Gardner 评分看的是胚胎的「外貌」——扩张程度、内细胞团、滋养层细胞。但外观漂亮的胚胎,染色体异常率依然随年龄飙升。研究显示,38 岁以上形态学评为「优质」的囊胚里,仍有 50-70% 是非整倍体。这就是为什么 38+ 普遍建议加做 PGT-A 染色体筛查。形态学告诉你「长得好不好」,告诉不了你「染色体对不对」。
1.2 主观性:同一个胚胎,不同胚胎师打分不一样
形态学评分高度依赖胚胎师肉眼判断。多项一致性研究发现,不同胚胎师对同一胚胎的评分一致率仅约 60-75%,同一个人不同时间复评也会变。这种「观察者间差异」直接影响选哪个胚胎先移植。
1.3 信息断点:取卵前几乎是黑箱
更早的环节——卵子质量本身——传统上只能等取卵、受精、养囊后「开盲盒」。促排期间,医生靠 卵泡监测(B 超 + 雌激素)判断数量和成熟度,但对质量基本没有前瞻性指标。AMH、AFC 反映储备(数量),不直接反映质量。
| 评估环节 | 传统方法 | 能测什么 | 盲区 |
|---|---|---|---|
| 卵巢储备 | AMH 抽血 + AFC 超声 | 卵子数量潜力 | 不反映卵子质量 |
| 卵泡发育 | B 超 + 雌激素监测 | 卵泡尺寸、成熟度 | 不预判受精/养囊结局 |
| 卵子质量 | 取卵后镜下形态 | 成熟度(MII) | 无法预测整倍体率 |
| 胚胎选择 | Gardner 形态学评分 | 外观分级 | 主观 + 与染色体脱节 |
这三大盲区,正是 AI 试图切入的缝隙。
第 2 章:AI 进入生殖医学的三条技术路线
「AI 辅助生殖」是个被滥用的大词。实际落地的,主要是三条彼此独立的技术路线,分别对应不同环节。理解它们的区别,是判断任何「AI 产品」靠不靠谱的前提。
2.1 路线一:结构化数据预测模型(卵子/周期层面)
用表格型临床数据(年龄、AMH、AFC、FSH、BMI、既往周期数、用药剂量等)训练机器学习模型,预测「预期获卵数」「整倍体胚胎数」「累计活产概率」。这就是本文标题里的 AMH/AFC/年龄三维模型 的技术底座,详见第 3 章。
2.2 路线二:图像深度学习(胚胎层面)
用胚胎显微图像 / time-lapse 延时摄影视频训练卷积神经网络(CNN),自动给胚胎打一个连续分数,预测着床/活产概率。代表产品:iDAScore、Life Whisperer、ERICA、CHLOE 等,详见第 4 章。
2.3 路线三:组学 + 多模态融合(前沿,尚未广泛落地)
结合基因组学、代谢组学、培养液无创检测(niPGT-A)与图像,做多模态预测。学术上很热,但 2026 年仍多在研究阶段,临床尚未普及。
| 路线 | 输入数据 | 预测目标 | 代表技术 | 2026 成熟度 |
|---|---|---|---|---|
| 结构化预测 | 年龄/AMH/AFC/FSH 等表格 | 获卵数、整倍体数、活产率 | 逻辑回归/梯度提升/神经网络 | ★★★★☆ 已临床辅助 |
| 图像深度学习 | 胚胎照片 / time-lapse 视频 | 胚胎着床/活产评分 | iDAScore / Life Whisperer / ERICA | ★★★☆☆ 商用但证据有限 |
| 多模态组学 | 图像+基因组+代谢组 | 综合质量评分 | niPGT-A + AI 融合 | ★★☆☆☆ 研究阶段 |
第 3 章:AMH/AFC/年龄三维预测模型怎么工作
这是 2026 年最成熟、患者最该了解的一条路线,也是悦喜汇咨询时给出「个性化测算」的技术基础。
3.1 三个核心变量为什么是这三个
- 年龄:决定卵子染色体非整倍体率——最强的质量代理变量。是「质量轴」。
- AMH(抗苗勒管激素):反映卵巢储备池大小,预测促排能取出多少卵。是「数量轴」。详见 AMH 低还能不能怀孕。
- AFC(窦卵泡数):超声实时计数,与 AMH 互相印证,预测本周期反应。是「反应轴」。
单看任何一个都会误判:AMH 高但 43 岁,数量够质量差;AMH 0.5 但 33 岁,数量少质量尚可。三维交叉才能给出有意义的预测。AMH 与年龄的对照基线见 AMH 年龄对照表。
3.2 模型实际输出什么
一个像样的三维模型,不该只输出一个「成功率」数字,而应给出一串条件概率:
- 本周期预期获卵数区间(如 8-12 颗)
- 预期成熟卵(MII)与受精/囊胚数
- 预期整倍体囊胚数(结合年龄非整倍体率)
- 单周期累计活产概率与达到目标可能需要的取卵次数
| 画像 | 预期获卵 | 预期整倍体囊胚 | 1 次取卵累计活产 | 模型建议 |
|---|---|---|---|---|
| 32 岁 · AMH 3.0 · AFC 14 | 12-18 | 4-6 | 78-85% | 常规方案,多数 1 周期可成 |
| 38 岁 · AMH 1.2 · AFC 7 | 7-10 | 2-3 | 52-65% | 积极促排 + PGT-A,备 2 周期 |
| 41 岁 · AMH 0.8 · AFC 5 | 4-7 | 0-2 | 22-38% | 1-2 周期试,同步评估捐卵 |
| 44 岁 · AMH 0.4 · AFC 3 | 2-4 | 0-1 | 8-15% | 优先讨论捐卵,详见 高龄试管决策 |
3.3 它能 / 不能改变什么
能:帮你提前知道大概率结局,决定促排方案强度、要不要做 PGT-A、要不要尽早考虑 捐卵、要不要多周期攒胚胎——把决策从「试了才知道」前移。不能:改变你卵巢的生物学本质。模型预测不好,不代表一定不成;预测好,也不保证一定成。它优化的是决策,不是卵子。
第 4 章:胚胎 AI 评分 — time-lapse + 深度学习
这是路线二,也是宣传最猛、争议最大的领域。
4.1 工作原理
胚胎放在带摄像头的培养箱(time-lapse incubator,如 EmbryoScope)里,每 5-20 分钟自动拍一张,记录从受精到囊胚的全过程。深度学习模型分析这些图像/视频,输出一个连续评分(如 iDAScore 1-9.9 分),评分越高代表模型预测的着床概率越高。
4.2 主流商用产品
| 产品 | 厂商/来源 | 输入 | 输出 | 声称用途 |
|---|---|---|---|---|
| iDAScore | Vitrolife | time-lapse 视频 | 0-10 连续评分 | 胚胎优先级排序 |
| Life Whisperer | Presagen | 单张静态图 | 活力评分 | 无 time-lapse 设备也可用 |
| ERICA | 学术/商用 | 囊胚图像 | 整倍体概率分层 | 辅助判断染色体风险 |
| CHLOE | Fairtility | time-lapse | 多指标自动标注 | 胚胎学全流程辅助 |
4.3 它解决的真问题
回到第 1 章的盲区:AI 评分客观、可重复,消除了观察者间差异(同一胚胎永远同一分);它能在一批形态学评分相近的胚胎里排出更细的优先级,理论上让「最可能成的那个」先移植,缩短到活产的时间。这是它最被认可的价值——不是提高最终成功率,而是更快达到成功、减少移植次数。胚胎等级的传统读法见 5BB/4AA 胚胎是什么意思。
第 5 章:循证证据怎么说 — 这是最该读的一章
营销说得天花乱坠,但循证医学的判断要冷静得多。这一章把 2024-2026 最关键的几项证据摆出来。
5.1 Cochrane:time-lapse 本身证据不足
Cochrane 系统综述(2019 起持续更新至 2024)多次评估 time-lapse 培养 + 形态动力学选择,结论一致偏保守:现有证据不足以证明 time-lapse(含其算法选择)能提高活产率或降低流产率,证据质量多为「低」至「极低」。换句话说,仅仅换成延时培养箱,并没有被高质量证据证明能让你更可能抱回孩子。
5.2 AI 评分 RCT:非劣效,但未证明优效
近年多项随机对照试验(RCT)比较「AI 评分选胚」与「资深胚胎师选胚」。代表性结果:2023-2024 年发表于 Lancet Digital Health 及多中心 RCT 显示,AI 选择在临床妊娠/活产率上与资深胚胎师相当(非劣效),但并未显著优于人类专家。即 AI 能达到「和好胚胎师一样好」,尚未证明「比好胚胎师更好」。
5.3 ASRM / ESHRE 的官方立场
- ASRM 2024:AI 工具在 ART 中「有前景」但仍属辅助,强调需要前瞻性验证、透明的算法、对数据偏倚的警惕,不应作为单独决策依据。
- ESHRE 2024 Good Practice Recommendations:呼吁谨慎引入,关注泛化能力(一个诊所训练的模型换到另一个诊所是否还准)、可解释性与监管。
| 证据来源 | 评估对象 | 核心结论 | 对患者的含义 |
|---|---|---|---|
| Cochrane 2024 | time-lapse 选择 | 证据不足证明提高活产 | 不必为「有延时箱」多付溢价 |
| Lancet Digital Health / 多中心 RCT 2023-24 | AI vs 胚胎师选胚 | 非劣效,未证优效 | AI 是好帮手,非魔法 |
| ASRM 2024 | AI 在 ART 总体 | 辅助为主,需验证 | 别把 AI 当唯一依据 |
| ESHRE 2024 | AI 实施规范 | 谨慎引入,关注泛化 | 问清诊所的 AI 验证情况 |
第 6 章:2026 临床落地现状 — 哪些已经能用
抛开炒作,2026 年真正落到日常诊疗里的 AI 应用,可以分成三档。
6.1 已成熟(多数一流中心在用)
- 结构化预测模型:用化验单算获卵数/整倍体数/活产概率,辅助方案设计与期望管理。
- 胚胎 AI 评分作为「第二意见」:与胚胎师人工评分并行,辅助排序,不单独定夺。
- 实验室质控与自动标注:AI 监测培养箱、自动记录发育节点,降低人为差错。
6.2 验证中(部分中心试用)
- AI 整倍体概率分层(辅助决定哪些胚胎优先送 PGT-A)。
- 无创培养液检测(niPGT-A)+ AI 融合。
- 个体化促排剂量 AI 推荐。
6.3 尚属研究/噱头
- 「一滴血/一张照片预测卵子质量」类消费级宣传——多无同行评审证据。
- 声称替代 PGT-A 的图像「染色体检测」。
- 承诺具体提高百分比成功率的商业话术。
| 应用 | 成熟度 | 证据等级 | 患者该不该为它买单 |
|---|---|---|---|
| 三维数据预测(决策辅助) | 成熟 | 中 | 值得,常含在咨询里 |
| 胚胎 AI 评分(第二意见) | 商用 | 中低(非劣效) | 可接受,不必额外溢价 |
| AI 整倍体分层 | 验证中 | 低 | 不替代 PGT-A,谨慎 |
| 消费级「测卵子质量」 | 噱头居多 | 极低/无 | 不建议付费 |
关于不同国家实验室的 AI/PGT 成熟度差异,可对照 海外辅助生殖完整手册 第 3 章的国家对比表。
第 7 章:真实案例 — AI 三维模型如何改变一个决策
从悦喜汇 2024-2026 案例库挑出一个有代表性的脱敏案例,展示 AI 预测模型在真实决策里的作用(个人信息脱敏,年龄/诊断/方案/结果属实)。
案例 · 上海 38 岁 · AMH 1.1 · 反复纠结自卵 vs 捐卵
- 背景:38 岁,AMH 1.1,AFC 6,国内 1 次促排取卵 6 颗、配成 2 囊、未做 PGT-A 移植 2 次均生化。来咨询时坚持「我还年轻,一定要自卵」,同时焦虑到失眠。
- AI 三维模型测算:基于年龄 + AMH + AFC + 既往周期,模型预测单次取卵预期整倍体囊胚 2-3 颗、单周期累计活产约 55-62%;若直接转捐卵,活产可达 74-78%。模型同时提示:再做 1 次自卵取卵 + PGT-A,攒到 2-3 颗整倍体的概率较高。
- 方案:不急于否定自卵,先1 次取卵 + PGT-A 看整倍体产出,用客观数据替代情绪决策;若整倍体≥2 颗则移植,<1 颗再坦诚讨论捐卵。同步用 DHEA/辅酶 Q10 等预处理(循证有限,作为可选)。
- 过程:第 2 次取卵 8 颗 → 成熟 6 颗 → 囊胚 3 颗 → PGT-A 整倍体 2 颗 → 移植第 1 颗,内膜准备到位 → 成功 → 顺产女婴。
- 用时/花费:14 月 · 国内为主 + PGT 环节。
- AI 在这里的真实作用:模型没有「治好」她的卵子,但把一个被情绪绑架的决策,变成了「先用 1 个周期的客观数据说话」的分阶段理性路径,避免了既不甘心转捐卵、又盲目反复自卵移植空耗的两难。
第 8 章:AI 评估的四大局限与风险
越是看好一项技术,越要讲清它的边界。AI 在生殖医学有四个必须知道的局限。
8.1 数据偏倚:模型只认得它见过的人
很多模型主要用欧美人群数据训练。对亚裔卵巢反应、亚裔胚胎特征的泛化能力可能打折。换个诊所、换个培养体系,模型准确度也可能下降。这是 ESHRE 2024 特别强调的「泛化能力」问题。
8.2 黑箱与可解释性
深度学习给出一个评分,却常说不清「为什么」。医生和患者难以核验逻辑,一旦模型出错,难以发现。监管与可解释性仍在追赶。
8.3 自我实现的偏差
如果 AI 评分低的胚胎被丢弃、从不移植,我们就永远不知道它们其实能不能成——数据被算法本身污染,形成「越用越自洽」的闭环。这是学术界对当前 AI 选胚的核心担忧之一。
8.4 把概率误当承诺
患者最大的风险是误读:把「62% 活产概率」当成「我一定能成」,或把低评分胚胎当成「废胚」直接放弃。概率永远是群体频率,不是个人命运。
第 9 章:患者怎么用 AI 工具做决策 — 决策流程
讲了这么多,落到你自己身上:作为患者,2026 年该怎么正确使用 AI 相关工具?跟着下面这棵决策树走一遍。
- 第一步:先做三维数据测算(路线一)
- 备齐最新 AMH、AFC(近 3 月)、年龄、FSH、既往周期数据
- 让具备能力的中心/顾问跑三维模型,得到区间概率而非单一数字
- 确认输出包含:预期整倍体数 + 累计活产 + 可能取卵次数
- 第二步:依概率分流
- 若累计活产 > 60% 且年龄 < 40 → 常规/积极自卵方案,多数无需过度干预
- 若 40-60% → 自卵 + PGT-A,设定整倍体门槛,1-2 周期验证(见第 7 章方法)
- 若 < 30% 或 ≥ 43 岁且 AMH 极低 → 与顾问坦诚讨论 捐卵,别空耗时间
- 第三步:进入胚胎环节时看 AI 评分(路线二)
- 把 AI 评分当第二意见,与胚胎师人工评分 + PGT-A 结果三方参照
- 不因 AI 单一评分就丢弃整倍体胚胎
- 问清诊所的 AI 工具是否经过本地验证
- 第四步:守住三条红线
- AI 不替代 PGT-A 的染色体结论
- 不为消费级「测卵子质量」付高价
- 不接受任何「AI 保证成功率」的话术
- 第五步:定期复测、动态调整——卵巢储备会变,每个周期后用新数据重算,而非一次定终身
总结:2026 年关于 AI 与卵子质量,记住这 7 点
把全文浓缩成 7 条可带走的结论:
- 卵子质量仍无法被直接测量——AI 做的是概率预测,不是检测真相。
- 三维数据模型(年龄+AMH+AFC)最成熟实用,价值在优化决策、管理期望,而非改变卵巢。
- 胚胎 AI 评分被证明「非劣效」,未被证明「优效」——好帮手,非魔法。
- Cochrane 2024:time-lapse 提高活产证据不足,别为延时箱多付溢价。
- AI 不替代 PGT-A,染色体确诊仍靠基因检测。
- 警惕数据偏倚、黑箱、「概率当承诺」四大风险,守住三条红线。
- 最佳用法:用 AI 把焦虑拆成分阶段的概率决策,握方向盘的始终是你和医生。
你的下一步(按情况选)
- 正在纠结自卵 vs 捐卵:备齐 AMH/AFC/年龄/既往周期数据,做一次三维测算,用客观概率替代情绪。参考 各年龄段试管成功率对照表 与 AMH 年龄对照表 自我定位。
- 即将进入胚胎环节:先读懂 胚胎等级 与 PGT-A,再把 AI 评分当第二意见。
- 高龄/卵巢储备低:直接看 高龄试管决策路径,别把时间耗在反复试探上。
- 想要一份个性化概率测算:预约悦喜汇免费 45 分钟视频咨询,临床医师 + 顾问用三维模型给你出书面预测(活产率区间 + 推荐方案 + 时间线),72 小时内反馈。
更完整的技术与流程脉络,可继续读 辅助生殖技术全解析 与 海外辅助生殖完整手册 2026。
本文会随证据更新(约每季度一次),追踪新 RCT、新指南与 AI 监管进展。本版本最后审核于 2026-06-23。