“ 赛博培育器 ” ,当人工智能,机器和生物互相关照对方和成长。
在上一篇文章里 《构建全栈 deeptech 公司或 “奇特产品”,论 AI 时代价值捕获。》,我谈到现在越来越多人同意的一个观点:如果你不是资源丰厚的科技巨头,也不想做一些不疼不痒没有创造新的用户体验和价值的产品,那么在 AI 这个巨大推动力的浪潮里,可以尽所能尝试用非常少的人,灵活的组织架构,更快的开发速度,极限最短的商业路径,少量的资金资源创造一家全栈 deep tech 公司,并且它也应该是以产品和业务为中心的。这依然会非常难,但是会是让你兴奋的难。
反正,各行各业,我们下来都要去走过去鲜有人走过的路和踏过崭新的旷野。
回到这篇文章的话题,一个悖论是,如果你想有效构建一个生物技术领域出色的 “基础模型” ( 大模型,专业模型,小模型,无论你叫它什么),你应该先忘记 AI 模型本身,你既需要了解如何创建和部署一个 AI 系统,但也需要你已经看清楚没有被满足的客户/消费者需求,或者具有信心创造新的需求和业务,再去把模型能力,产品能力和商业能力对齐。尤其是对于技术出身的工作者,技术,产品,“商业化”,设计,品牌,营销,渠道,合作伙伴关系等等这些,都是有机组成的整体,甚至在当下,后面的部分都比单独技术开发的一个环节重要太多。
如果你找到了如何构建一家 “以产品为中心的 AI 基础模型公司”,或者说让AI 基础模型把你的产品和业务变得与众不同的方式,那你很有机会在未来 AI + Bio 和其他科技一起进步的浪潮里冲浪。
希望这篇文章对你有启发。
生物技术的基础模型 — 定义、细微差别和策略
Bio foundation models - definitions, nuance, and tactics
副标题:将科技应用于生物技术领域,然后再转移回科技领域。
作者:DR. SHELBY AND FABIO BONIOLO
编译:范阳
写作日期:2023年9月7日
现在几乎每天我们都会看到生物领域的新文章,或出来公司声称它是胶质母细胞瘤( glioblastoma )的基础模型、T 细胞的基础模型,或者化学领域的基础模型( foundation model )。
范阳注:在人工智能领域,Foundational Model( 基础模型 )和 Large Language Model( 大型语言模型 )经常被混用。基础模型是一个更广泛的概念,通常用于描述在特定领域或任务中具有深厚理解和能力的人工智能模型。基础模型就像盖建筑的地基和结构基础。大型语言模型 ( LLM ) 可以理解为是基础模型的一种特定类型,其重点是在自然语言理解和生成方面表现出色。
尽管看到这些新闻是让人兴奋的,但我们不得不对基础模型的模糊术语进行探讨,尤其是它开始出现在生物领域。在这篇博客文章中,我们将讨论基础模型在科技领域的定义( 训练数据规模、参数量、社会背景等 ),并将其翻译到生物领域的语境中。我们还将讨论为什么基础模型的商业化在生物技术领域将会不同于科技领域,重点是打造产品,而不是调用 API( centering around product instead of APIs )。我们相信 “产品为重点”( product focus )最终将决定公司在这一领域能达到的规模。最后,我们还会重点介绍我们最近发布的一个数据库,其中包含 45 个以上的生物技术基础模型( foundation models in bio)。
在科技领域的基础模型
Foundation models in tech
“基础模型” 这个词是由 Bommasani 等人在 2021 年的一篇重要论文《关于基础模型的机会与风险》(On the Opportunities and Risks of Foundation Models )中首次定义的。我强烈建议任何对这一领域感兴趣的朋友都阅读这篇文章,其中论述了迁移学习( transfer learning )、计算规模( computational scale )和社会变革( sociology shifts )是基础模型的关键。规模使基础模型变得强大,这一点是通过硬件改进( GPU 通量和内存优势 )、transformer 模型架构和更多的训练数据而实现的。然而,以前的术语,如预训练和自监督模型( pre-trained and self-supervised model ),并没有涵盖 “社会影响” ( sociological impact ) ,这导致了 AI 研究和部署的转变( 社会影响指的是自监督学习,从一个 “子领域” 转变为 “基础底层” — 一个模型可以对各种各样的任务有用)。
他们在文章里提到的基础模型,包括纯自然语言处理( NLP )模型,如 BERT,以及在医疗保健领域中标准的多模态数据集( 医学成像数据、临床文本和结构化数据 )。对于作者来说,BERT( Devlin等人,2019年 )是成为 NLP 领域基础底层( substrate )的分水岭模型。我认为强调 BERT的规模,作为其他被称为 “基础模型” 的模型的参考点是很重要的( BERT as a reference point for other models being called ‘foundation models’ )。
Devlin 等人在 2019 年的基础 BERT 模型具有以下技术规格:
1亿1000万参数
12 个层 / tranformer 块 ( 12 layers/transformer blocks )
768 隐藏层大小( hidden size )
12个自注意力头部 ( self-attention heads )
预训练数据:来自《 Book Corpus 》和英文维基百科的 30 亿个单词。
Devlin 等人在 2019 年的大型 BERT 模型具有:
3亿4000万参数
24个层 / tranformer块
1024 隐藏层大小 ( hidden size )
16 个自注意力头部( self-attention heads )
在我看来,以上的技术规格( technical specifications )为基础模型的规模提供了技术基础,但我认为社会元素( sociological element )在定义中更为关键且更和上下文更有关系。换句话说,如果模型即使具有上述参数大小,但不能用于各种下游任务,我不认为它算是一个基础模型。
生物技术领域的基础模型
Foundation models in bio
在生物技术和医疗保健领域,已经出现了几个可以称得上的 “基础” 模型,包括 AlphaFold( 蛋白质结构预测 )、RoboRx( 预测药物处方相互作用 )、DeepNovo( 从质谱中进行肽序列分析 )、EcoRNN( 生态系统种群动力学 )等等。与传统的基础模型( 如BERT、GPT-3、PaLM、LLaMA、LaMDA、Orca、Claude 等)一样,生物的基础模型提供了一个基础层,可以针对特定目的进行微调( a base layer which can be fine-tuned for specific purposes )。例如,AlphaFold 已经在特定的蛋白质家族上进行了微调,如 MHC Class I 和 Class II 以及 T细胞受体: MHC 复合物等,以提高结合特异性或模型准确性( increase binding specificity or model accuracy )。
上述模型在单一模态和多模态之间都有( mixed between single and multimodal ),但能看到趋势是多模态生物模型( multimodal bio models )成为常态,我们预见到这些模型会涌现出新属性( emergent properties being observed )。鉴于生物本质上是多面和复杂的,模型融合更多模态是有道理的,尤其是因为人工智能可能能够在多模态之间找到人类无法在大规模之上找到的相关性和因素( find correlations and factors across modalities that humans simply do not have the ability to at scale )。这种方法得到了最近一篇福布斯杂志文章的证实,前 Meta ESM 蛋白质人工智能团队声称他们将建立一个模型来整合来自 DNA序列、基因表达和表观遗传状态(DNA sequences, gene expression and epigenetic states)等其他生物数据。此外,医疗保健基础模型( healthcare foundation models),比如 Med-PaLM、CLaM、FEMR、ClinicalBERT、ehrBERT、bioGPT等,的有利因素也支持了生物领域多模态模型的趋势。值得注意的是,医疗保健基础模型的一个有趣之处在于它们是通过分叉基础模型( they’re made by forking base models),比如 BERT、PaLM 和 GPT 制作的。
临床和生物医学的基础模型。
尽管多模态数据在生物技术领域的应用十分诱人,但仍有必要强调一些单一模态的研究领域。有一点让人感到惊讶的是,对于蛋白质折叠问题,一些模型所需的数据量竟然非常小。
例如,OpenFold( AlphaFold2 的可训练开源部署 )在 10,000 个序列的训练集上与在 100,000 个蛋白质序列的训练集( 即整个蛋白质数据库 )上的性能基本相同。甚至一个包含 1,000 个序列的训练集也能达到与包含100,000 个序列的训练集相比, 76% 的结构预测准确率。这令人难以置信,因为这意味着蛋白质折叠的内在规律似乎比人类语言的规律更容易学习( the tacit laws of protein folding are seemingly more easy to learn than the laws of human language )。
从战略上看,这意味着在生物基础模型中,可能需要的数据比科技领域训练基础模型需要的数据少得多,这可以节省大量的计算和数据生成时间和费用,适用于某些生物模态( some biological modalities )。
在我的投资同事 Mike Dempsey 的最近一篇博客文章中,他详细说明了水平基础模型( horizontal foundation model )( 总计数十亿至数百亿美元,需要6年以上 )与垂直基础模型( vertical foundation models )(总计数百万美元)之间的成本差异,这涉及到更多垂直领域基础模型的盈利和研发动态( 请参考他的下面的图形 )。
在更垂直的基础模型( 例如单一模态的生物模型 )的情况下,Mike展示了实现盈利和市场主导地位所需的资本要求要低得多( 约1亿美元 )。尽管使用较小的数据集可以实现成本节约,但提高性能和数据壁垒仍然是许多公司的核心问题。像 Gandeeva Therapeutics 和 Generate Biomedicines 这样的公司正在大力投资于冷冻电子显微镜( CryoEM )硬件,这些硬件用于通过实验确定蛋白质结构,从而为其模型添加专有数据。对这些公司来说,CryoEM 也是一个非常战略性的决策,因为它最适用于大型蛋白质复合物( large protein complexes ),这对模型来说尤其困难 ,允许捕获蛋白质的运动( 构象状态 conformational states ),而且全部是在自然环境中进行的,因为它是基于蛋白质的快速冷冻( 与制备蛋白质晶体所需的干扰环境相反 )。对于许多其他公司来说,要复制这一战略是困难的,因为 CryoEM 设备的价格高( 700万美元 )并且维护成本很高( 每天1万美元 )。这回到了我们在全栈深科技公司( full-stack deep tech businesses )方面的另一个内部论点,我们认为这些企业能够比最大的现有行业对手达到更大规模。
除了蛋白质结构之外,引人极大兴趣的领域是单细胞 RNA 测序( scRNA-seq )。可用数据集的规模不断增加( 例如 CELLxGENE 或人类细胞图谱),跨越了多种组织和疾病状态的数百万个细胞,并具有在整个药物开发流程中创造价值的潜力。
在这个领域已经引入了多个基础模型,通常是在调整成功应用于自然语言处理( NLP )的训练策略和架构之后,以适应生物数据的特殊性( after adapting training strategies and architectures that have been successful in NLP to the peculiarities of biological data),例如稀疏性和分子测量的连续性。这些应用展示了基于 scRNA-seq 的基础模型在处理各种例行任务方面的潜力,如细胞类型注释( cell-type annotation )、批次集成( batch integration )、扰动预测( perturbation prediction )和药物反应预测(drug response prediction)。在下面的基础模型列表中,我们列出了不同的架构( 仅有编码器或仅有解码器,到全栈编码器-解码器 transformers )和训练策略的广泛应用,类似于最常见的大型语言模型的多样性。一般来说,这些模型以至少 500 万个细胞进行自监督方式( a self-supervised fashion )的预训练,然后进一步进行下游应用的微调,并共享一些类似于大型语言模型的属性,例如缩放定律( scaling law )。
基因表达谱被视为 “句子”( gene expression profiles are treated as “sentences” ),其中每个基因都被建模为一个标记( each gene is modeled as a token )。我们强调了将表达值( expression values )转换为可以进一步嵌入和用于训练的离散标记所采取的不同选择。我们认为,这一步骤以及确定对生物应用最有意义的架构和屏蔽策略( the identification of the most meaningful architecture and masking strategies for biological applications ),是未来迭代科技生物( tech bio ) 基础模型的关键,因为全面评估这些方法对于从训练数据集和模型本身最大限度地提取价值非常重要。
该领域目前的另一个瓶颈是难以直接比较生物基础模型的大小和规模,因为参数、层和注意力头并不总是被报告。然而,在我们初步整理文献时,似乎对于 scRNA-seq 数据,基础模型的参数规模至少为 1 亿,培训规模至少需要 500 万个细胞。尽管在蛋白质方面,鉴于 OpenFold 仅在 1,000 个蛋白质结构上的出色表现,最小训练集很难量化。每天模型似乎都在取得巨大进展,例如 xTrimoPGLM 等模型展示了拥有 1 千亿参数和 1 千万亿训练标记的模型。我们感到这个术语仍然有时被宽泛使用,希望这些数字和基础模型社会学元素的背景能帮助人们透过噪音看清事实。
商业变现和商业模式
Monetization and business models
我们已经看到了生物基础模型商业变现的初期迹象,一些公司提供基础模型作为特定需求公司的服务,还有一些公司在其专有基础模型周围建立了公司。我们之前曾说过,生物技术与科技领域在构建壁垒方面有所不同,生物技术领域的防御壁垒更高,因为有专利保护和监管性里程碑。
我们仍然坚信这一观点,并在生物技术领域看到两种分叉的商业模式( two bifurcating business models in biology)— API 和产品。科技领域的基础模型主要通过 API 插件进行商业化。虽然在这个基础上可以建立一家公司,但我们认为,首先,潜在客户群体的规模对于支持生物技术领域的 API 业务来说太小了。我们认为最大的价值积累集中在那些正在围绕其模型构建具体产品的公司,肽类药物、小分子药物、酶和新材料 。
或许有理由让特定领域的人才( domain specific talent )针对自己的用例( 比如 TCR:MHC 特异性 )对现有模型进行微调,这本身就可能取得巨大成功。不过,这种模式的核心是产品化,而产品化要难得多,因为你需要跨界人才来制作基础模型( 比特世界 ),并在现实世界中部署模型的研究成果( 原子世界 )。
在现实世界的部署这一技术意味着生物技术公司将最终有个封顶( 比如礼来公司 - 4980 亿美元市值;默克公司 - 2690 亿美元市值;辉瑞公司 - 2000 亿美元市值;Amgen 公司 - 1400 亿美元市值),而科技公司( 苹果 - 2.79万亿美元;谷歌母公司 - 1.69万亿美元 )则市值天花板更高。尽管公司规模受到制造、监管性里程碑和销售团队的限制,但我们认为生物技术领域是一个建立具有可防御商业壁垒的跨时代公司的市场。在已经建立了一个以产品为中心的大型生物技术公司( a large product-focused bio company )之后,这类公司可能会增加 API 类型的功能,以实现更广泛的技术分发。
为了得出以产品为中心的基础模型公司( product-centered companies for foundation models )的最终结论,我们首先将基础模型的 “科技” 版本技术转化到生物领域。基础模型的社会背景要求( sociological context requirement )在生物技术领域不容忽视,但仍然采用了较窄的形式( 例如,AlphaFold 始终用于理解蛋白质结构,但可以微调以更好地预测某些蛋白质类别的结构 )。为了使这种影响力最大化,这个领域的公司需要以多模态基础模型为前提,因此适用于许多下游应用( a multi-modal foundation model, thus applicable to many downstream use-cases)。如果您正在在这一领域构建新模型、基础设施或创业公司,我们很愿意听取您的意见!
范阳注:同样的,如果你从事蛋白质设计,合成生物技术以及 AI + Bio 交叉地带的科研,或者你来自于互联网或者消费领域,但是对 AI + Bio 如何应用在消费产品感兴趣,欢迎找到我一起交流。
如果你想系统的咨询 AI+Bio 领域前沿科技公司以及风险投资的情况,以及跟 AI + Bio 领域的从业者和驻扎在欧美等海外市场的投资者交流,也可以询问我。我的微信:2871981198,请附上一句话介绍你是谁。
目前生物技术领域 “基础模型” 整理:
原文链接:
https://shelbyann.substack.com/p/bio-foundation-models-definitions