混合建模是一種半?yún)?shù)方法,它結(jié)合了知識(shí)驅(qū)動(dòng)方法(參數(shù)組件)和數(shù)據(jù)驅(qū)動(dòng)方法(非參數(shù)組件)的優(yōu)點(diǎn)。這種方法可以克服純參數(shù)方法的一些局限性。一個(gè)例子是 Monod 型方程的應(yīng)用,它廣泛用于開發(fā)描述生物系統(tǒng)的動(dòng)力學(xué)模型。盡管此類模型在特定條件下獲得了良好的預(yù)測(cè),但這些模型在其它不同條件下的預(yù)測(cè)能力有限,因?yàn)樗鼈儧]有考慮與細(xì)胞代謝相關(guān)的潛在機(jī)制復(fù)雜性。因此,必須開發(fā)考慮細(xì)胞代謝途徑的高級(jí)動(dòng)力學(xué)模型,以預(yù)測(cè)各種條件下的狀態(tài)變量。然而,這些模型的構(gòu)建需要對(duì)相關(guān)細(xì)胞代謝網(wǎng)絡(luò)有詳細(xì)的了解。此外,這些模型在本質(zhì)上是高度參數(shù)化和非線性的,需要對(duì)細(xì)胞內(nèi)和細(xì)胞外代謝物進(jìn)行大量測(cè)量才能估計(jì)許多未知參數(shù)。細(xì)胞內(nèi)代謝物的詳細(xì)機(jī)制描述也很難構(gòu)建,因?yàn)槿苜|(zhì)轉(zhuǎn)運(yùn)速率受細(xì)胞膜轉(zhuǎn)運(yùn)蛋白的控制,并且需要考慮細(xì)胞間分布和相關(guān)的分子轉(zhuǎn)運(yùn)。
混合建模的一個(gè)關(guān)鍵優(yōu)勢(shì)是消除了對(duì)細(xì)胞生長(zhǎng)、底物攝取和產(chǎn)物形成的顯式特定速率方程的需求,因?yàn)檫@些參數(shù)可以通過模型的數(shù)據(jù)驅(qū)動(dòng)部分進(jìn)行估計(jì)。與數(shù)據(jù)驅(qū)動(dòng)方法相比,這種混合方法也有好處,數(shù)據(jù)驅(qū)動(dòng)方法缺乏細(xì)胞培養(yǎng)性能的明確物理知識(shí),這導(dǎo)致在訓(xùn)練數(shù)據(jù)集域之外的看不見的數(shù)據(jù)預(yù)測(cè)方面表現(xiàn)不佳。由于來自模型參數(shù)組件的守恒方程引入的約束,混合模型還具有作為預(yù)測(cè)工具更穩(wěn)健的優(yōu)勢(shì)。
圖6. 混合建模的串行和并行方法的示意圖。
混合模型的配置和數(shù)學(xué)框架已在多個(gè)文獻(xiàn)來源中進(jìn)行了全面討論。圖 6 顯示了可以為生化系統(tǒng)開發(fā)的串行和并行混合模型的典型圖?;旌夏P偷妮敵觯ɡ?,目標(biāo)物質(zhì)或代謝物濃度的向量)在此圖中用 C 表示。該模型還包括數(shù)據(jù)驅(qū)動(dòng)和機(jī)械組件(已指示),以及各種輸入。這些可以在各種配置(串行或并行)中考慮,具體取決于數(shù)據(jù)驅(qū)動(dòng)和機(jī)械組件放在一起的方式。在串行混合方法中,數(shù)據(jù)驅(qū)動(dòng)模型通常用于確定完成機(jī)械動(dòng)力學(xué)模型(稱為部分第一原理模型)所需的未知參數(shù)(例如,圖 6 中菱形右側(cè)的矢量??)。相反,當(dāng)機(jī)械動(dòng)力學(xué)模型不準(zhǔn)確時(shí),通常應(yīng)用并行混合方法。因此,一個(gè)數(shù)據(jù)驅(qū)動(dòng)的框架被訓(xùn)練來預(yù)測(cè)實(shí)驗(yàn)數(shù)據(jù)和機(jī)械動(dòng)力學(xué)模型估計(jì)的相應(yīng)值之間的殘差(見圖 6 中的平行殘差)。因此,懲罰項(xiàng)適用并抵消任何不準(zhǔn)確的估計(jì)。由于從生物反應(yīng)器獲得的數(shù)據(jù)通常包括細(xì)胞和代謝物濃度的時(shí)程變化,因此初始條件被用作機(jī)械模型的輸入來求解時(shí)間相關(guān)的動(dòng)力學(xué)方程(見圖 6)。
動(dòng)物和微生物細(xì)胞培養(yǎng)混合建模的一種常用方法是將源自守恒方程和動(dòng)力學(xué)表達(dá)式的第一原理模型與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,以串行配置的方式對(duì)特定速率進(jìn)行數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)。通常,該模型的數(shù)據(jù)驅(qū)動(dòng)組件缺乏特定速率的直接測(cè)量,即訓(xùn)練和獲取網(wǎng)絡(luò)可訓(xùn)練變量所需的數(shù)據(jù),即權(quán)重和偏差。為了解決這個(gè)問題,提出了兩種策略
生物反應(yīng)速率的近似值,其中使用實(shí)驗(yàn)濃度與時(shí)間的關(guān)系曲線,然后最小化預(yù)測(cè)的特定速率和近似值之間的誤差;以及
一種靈敏度方法,其中預(yù)測(cè)濃度和真實(shí)濃度之間的誤差被最小化。由于數(shù)據(jù)驅(qū)動(dòng)組件的輸出是特定速率(而不是濃度),因此網(wǎng)絡(luò)可訓(xùn)練變量與濃度之間的明確關(guān)系是未知的。因此,濃度相對(duì)于特定速率的梯度用于搜索可最小化預(yù)測(cè)濃度和真實(shí)濃度之間的誤差的網(wǎng)絡(luò)可訓(xùn)練變量。
文獻(xiàn)中使用了不同的近似方法來估計(jì)基于實(shí)驗(yàn)數(shù)據(jù)的生物反應(yīng)速率值。參數(shù)估計(jì)技術(shù)、多項(xiàng)式回歸模型、三次樣條函數(shù)和 Tikhonov 正則化是此類方法的示例。然而,數(shù)據(jù)中的噪聲可能導(dǎo)致不準(zhǔn)確的速率估計(jì),因此需要進(jìn)行平滑處理。靈敏度方法更能抑制噪聲;盡管如此,由于大量的計(jì)算成本,將這種方法用于需要大量超參數(shù)優(yōu)化的大型訓(xùn)練數(shù)據(jù)集和訓(xùn)練算法可能具有挑戰(zhàn)性。
許多研究人員研究了具有不同微生物培養(yǎng)物的生物反應(yīng)器的混合建模,例如大腸桿菌的蛋白質(zhì)生產(chǎn)、聚羥基脂肪酸酯(惡臭假單胞菌Pseudomonas putida生產(chǎn) PHA,腸桿菌 A47 生產(chǎn)胞外多糖 (EPS),黑曲霉Aspergillus niger發(fā)酵葡萄糖酸鈉以及Kluyveromyces marxianus酵母生產(chǎn)菊糖酶等),表明了混合建模方法的廣泛潛力。
此外,混合模型中可以包含多個(gè)神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)網(wǎng)絡(luò)都特定于特定的反應(yīng)速率。多個(gè)神經(jīng)網(wǎng)絡(luò)的使用在設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)和超參數(shù)優(yōu)化方面提供了增強(qiáng)的靈活性,以及更適當(dāng)?shù)剡x擇對(duì)特定速率有顯著影響的重要輸入。
作為一個(gè)典型的例子,Laursen 等人(2007)基于工業(yè)數(shù)據(jù)成功開發(fā)了一種混合模型,用于使用大腸桿菌細(xì)胞在補(bǔ)料分批發(fā)酵中生產(chǎn)外來蛋白質(zhì)。作者使用不同的神經(jīng)網(wǎng)絡(luò)來估計(jì)特定速率,包括生長(zhǎng)速率、葡萄糖和氧氣消耗速率,以及乙酸鹽和蛋白質(zhì)生成速率。測(cè)量值(例如生物量濃度)用于生成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。此外,網(wǎng)絡(luò)預(yù)測(cè)的性能使用不同的輸入進(jìn)行了測(cè)試,例如葡萄糖濃度、生物量濃度、氧飽和度百分比和蛋白質(zhì)濃度。該研究表明,與將葡萄糖濃度用作唯一輸入的網(wǎng)絡(luò)相比,當(dāng)細(xì)胞、葡萄糖和蛋白質(zhì)的濃度包含在輸入層中時(shí),可以更準(zhǔn)確地預(yù)測(cè)特異性生長(zhǎng)速率。該結(jié)果還表明,人工神經(jīng)網(wǎng)絡(luò)可用于更準(zhǔn)確地捕獲特定速率的準(zhǔn)確函數(shù),與僅描述細(xì)胞生長(zhǎng)對(duì)底物濃度的依賴性的簡(jiǎn)單經(jīng)典 Monod 方程相比,這是一個(gè)明顯的優(yōu)勢(shì)。
此外,還開發(fā)了各種混合模型來監(jiān)測(cè)、控制、預(yù)測(cè)和優(yōu)化哺乳動(dòng)物細(xì)胞培養(yǎng)。在 Dors 等人(1996)開發(fā)的混合模型中,將哺乳動(dòng)物細(xì)胞培養(yǎng)的改良 Monod 型相關(guān)性與神經(jīng)網(wǎng)絡(luò)方法相結(jié)合,其中包括基于模糊變量的加權(quán)方法來估計(jì)每種方法的相對(duì)重要性。這允許分配給經(jīng)典 Monod 方法的權(quán)重發(fā)生變化,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的可預(yù)測(cè)性受到訓(xùn)練數(shù)據(jù)的限制,允許在一些測(cè)量數(shù)據(jù)可用時(shí)增加權(quán)重。在另一項(xiàng)研究中,新陳代謝、運(yùn)輸現(xiàn)象和經(jīng)驗(yàn)過程數(shù)據(jù)的先驗(yàn)知識(shí)被整合到一個(gè)混合模型中,用于哺乳動(dòng)物細(xì)胞生物反應(yīng)器的在線優(yōu)化和控制。描述細(xì)胞外成分的宏觀反應(yīng)是使用由機(jī)械和經(jīng)驗(yàn)函數(shù)定義的基本通量分析得出的。具有單個(gè)隱藏層的反向傳播神經(jīng)網(wǎng)絡(luò)用于估計(jì)未知反應(yīng)速率的向量。然后成功地使用混合模型來優(yōu)化抗體生產(chǎn)。
混合方法優(yōu)勢(shì)的另一個(gè)例子是,人工神經(jīng)網(wǎng)絡(luò)可用于確定特定速率對(duì)不同生物反應(yīng)器過程變量的復(fù)雜依賴性,對(duì)其而言,很難得出直接的動(dòng)力學(xué)相關(guān)性。例如,Narayanan 等人 (2019) 在細(xì)胞培養(yǎng)的不同成分上使用簡(jiǎn)單的質(zhì)量平衡來預(yù)測(cè)單克隆抗體滴度的時(shí)程變化。在這項(xiàng)研究中,建立了一個(gè)神經(jīng)網(wǎng)絡(luò)來估計(jì)特定速率作為實(shí)驗(yàn)數(shù)據(jù)的函數(shù)。它還包括設(shè)計(jì)條件,如溶氧設(shè)定點(diǎn)、動(dòng)態(tài)變化、非受控過程變量,如活細(xì)胞密度和受控過程變量,如 pH 值。作者表明,與統(tǒng)計(jì)預(yù)測(cè)模型相比,這種混合模型可以更穩(wěn)健地預(yù)測(cè)滴度。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040