Unimol Fine-Tuning : Débloquez une IA puissante avec ce changement de jeu

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 18 min read•3,503 words•Updated Mar 26, 2026

Unimol Fine-Tuning : Guide Pratique pour Une Meilleure Compréhension Moléculaire

En tant qu’ingénieur ML, j’ai constaté de première main la puissance des modèles pré-entraînés. Dans la découverte de médicaments et la science des matériaux, la modélisation moléculaire est essentielle. Unimol, un modèle puissant de représentation moléculaire pré-entraîné, offre un saut significatif en avant. Cependant, son véritable potentiel est débloqué grâce à un ajustement fin. Cet article fournit un guide pratique et concret pour l’ajustement fin d’unimol, vous aidant à utiliser cette technologie pour vos tâches moléculaires spécifiques.

Qu’est-ce qu’Unimol et Pourquoi l’Ajuster ?

Unimol signifie UNIversal MOLecular representation. C’est un modèle d’apprentissage profond formé sur un ensemble de données massif de structures et propriétés moléculaires. Ce pré-entraînement permet à Unimol d’apprendre des caractéristiques et des relations généralisables au sein des molécules, ce qui le rend excellent pour capturer l’intuition chimique.

Bien que les poids pré-entraînés d’Unimol soient bons, ils sont génériques. Votre tâche spécifique – prédire l’affinité de liaison, la solubilité ou les résultats de réaction – a des nuances uniques. L’ajustement fin adapte ces représentations générales d’Unimol à votre domaine et ensemble de données spécifiques. Ce processus affine la compréhension du modèle, menant à une performance prédictive considérablement améliorée par rapport à l’utilisation d’Unimol en tant qu’extracteur de caractéristiques fixe ou à l’entraînement d’un modèle depuis zéro. L’ajustement fin d’unimol concerne la spécialisation.

Prérequis pour l’Ajustement Fin d’Unimol

Avant d’explorer le code, assurez-vous d’avoir ce qui suit :

* **Une tâche bien définie :** Que cherchez-vous exactement à prédire ou à classer ? Des objectifs clairs sont cruciaux.
* **Un ensemble de données de haute qualité :** C’est primordial. Votre ensemble de données doit être pertinent pour votre tâche, propre et suffisamment large. Pour des tâches moléculaires, cela signifie des chaînes SMILES, des graphes moléculaires ou des coordonnées 3D, accompagnés des valeurs cibles correspondantes (par exemple, des mesures expérimentales, des étiquettes).
* **Ressources informatiques :** L’ajustement fin de grands modèles comme Unimol nécessite des GPU. Les exigences spécifiques dépendent de la taille de votre ensemble de données et de l’architecture du modèle, mais attendez-vous à avoir besoin d’au moins un GPU moderne (par exemple, NVIDIA V100, A100).
* **Familiarité avec les frameworks d’apprentissage profond :** PyTorch est couramment utilisé pour Unimol. Une compréhension de base du chargement de données, de la définition de modèles et des boucles d’entraînement est utile.
* **Bibliothèque Unimol :** Vous devrez installer la bibliothèque Unimol et ses dépendances. Cela nécessite généralement `pip install unimol`.

Préparation de Vos Données Moléculaires pour l’Ajustement Fin

La préparation des données est souvent la partie la plus chronophage de tout projet d’apprentissage machine. Pour l’ajustement fin d’unimol, cela implique plusieurs étapes :

1. Collecte et Nettoyage des Données

Rassemblez vos données expérimentales ou simulées. Assurez-vous de la cohérence des unités, éliminez les valeurs aberrantes et gérez les valeurs manquantes de manière appropriée. Pour les structures moléculaires, validez les chaînes SMILES ou assurez-vous que les coordonnées 3D sont chimiquement sensées.

2. Représentation Moléculaire

Unimol utilise principalement des représentations graphiques moléculaires 3D. Bien que vous puissiez souvent générer des coordonnées 3D à partir de SMILES, il est généralement préférable d’utiliser des structures expérimentales ou 3D optimisées de haute qualité (par exemple, à partir de PDB, PubChem 3D). La bibliothèque Unimol fournit des utilitaires pour convertir divers formats moléculaires en sa représentation interne.

* **SMILES à 3D :** Utilisez RDKit ou des bibliothèques similaires pour générer des conformères. Ensuite, optimisez ces conformères à l’aide d’un champ de forces (ex : MMFF94, UFF) pour des structures plus stables.
* **Gestion de plusieurs conformères :** Pour des molécules flexibles, vous pourriez avoir plusieurs conformères à basse énergie. Décidez d’utiliser un seul conformère représentatif (par exemple, la plus basse énergie) ou d’incorporer des informations provenant de plusieurs conformères (par exemple, en faisant la moyenne des prédictions ou en utilisant un ensemble de conformères).

3. Division de l’Ensemble de Données

Divisez vos données en ensembles d’entraînement, de validation et de test. Une division courante est 80/10/10 ou 70/15/15. Assurez-vous que vos divisions sont représentatives de la distribution générale des données. Pour des données moléculaires, envisagez une division stratifiée si vous avez des classes ou des propriétés déséquilibrées. La division par échafaudage peut également être importante pour garantir que le modèle se généralise à un nouvel espace chimique, et pas seulement à de nouveaux exemples d’échafaudages existants.

4. Création d’un Dataset et DataLoader PyTorch

La bibliothèque Unimol attend des données dans un format spécifique. Vous allez généralement créer un `Dataset` PyTorch personnalisé qui charge vos structures moléculaires et valeurs cibles. La méthode `__getitem__` de votre dataset doit renvoyer les données du graphe moléculaire (souvent sous forme de dictionnaire contenant des caractéristiques de nœuds, des caractéristiques de bords et des informations d’adjacence) et l’étiquette/de valeur correspondante.

“`python
import torch
from torch.utils.data import Dataset, DataLoader
from unimol.data import MoleculeDataset # Exemple, la classe réelle peut varier
from rdkit import Chem
from rdkit.Chem import AllChem

class CustomMolDataset(Dataset):
def __init__(self, smiles_list, targets_list):
self.smiles_list = smiles_list
self.targets_list = targets_list

def __len__(self):
return len(self.smiles_list)

def __getitem__(self, idx):
smiles = self.smiles_list[idx]
target = self.targets_list[idx]

# Générer des coordonnées 3D (simplifié pour illustration)
mol = Chem.MolFromSmiles(smiles)
if mol:
mol = Chem.AddHs(mol)
AllChem.EmbedMolecule(mol, AllChem.ETKDG())
AllChem.MMFFOptimizeMolecule(mol)

# Convertir la molécule RDKit au format de graphe attendu par Unimol
# Cette partie dépend fortement des utilitaires spécifiques de la bibliothèque Unimol.
# Elle implique généralement l’extraction des caractéristiques des atomes, des caractéristiques des liaisons et des coordonnées 3D.
unimol_graph_data = self._mol_to_unimol_format(mol) # Fonction de remplacement

return unimol_graph_data, torch.tensor(target, dtype=torch.float)

def _mol_to_unimol_format(self, mol):
# Remplacement : Implémentez la conversion réelle en utilisant les utilitaires unimol.data
# Cela impliquera l’extraction des caractéristiques des nœuds (types d’atomes, charges),
# des caractéristiques des bords (types de liaison), et des coordonnées 3D.
# unimol.data.data_utils.get_graph_from_mol est un candidat probable.
return {“coords”: torch.rand(mol.GetNumAtoms(), 3), # Exemple
“atom_features”: torch.rand(mol.GetNumAtoms(), 10), # Exemple
“bond_features”: torch.rand(mol.GetNumBonds(), 5), # Exemple
“edges”: torch.randint(0, mol.GetNumAtoms(), (mol.GetNumBonds(), 2))} # Exemple

# Exemple d’utilisation (remplacez par vos données réelles)
smiles_data = [“CCO”, “CC(=O)O”, “c1ccccc1”]
target_data = [1.2, 3.4, 5.6]

train_dataset = CustomMolDataset(smiles_data, target_data)
train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True)

# Vous aurez également besoin d’un collate_fn pour le batching de tailles de graphes variées.
# La bibliothèque Unimol fournit généralement un collate_fn par défaut ou attend un format d’entrée spécifique.
“`

Configuration du Modèle Unimol pour l’Ajustement Fin

Le cœur de l’ajustement fin d’unimol implique le chargement du modèle Unimol pré-entraîné et l’ajout d’une nouvelle “tête” appropriée à votre tâche.

1. Chargement de l’Encodeur Unimol Pré-entraîné

La bibliothèque Unimol fournit des fonctions pour charger les poids pré-entraînés. Ces poids représentent l’encodeur moléculaire.

“`python
from unimol.models import UnimolModel
from unimol.config import UnimolConfig # Ou un objet de configuration similaire

# Charger la configuration pré-entraînée (ajuster le chemin si nécessaire)
config = UnimolConfig.from_pretrained(“path/to/unimol_base_config.json”)

# Charger le modèle Unimol pré-entraîné
# Vous pourriez avoir besoin de spécifier le chemin vers les poids pré-entraînés réels (.pt ou .bin)
unimol_encoder = UnimolModel.from_pretrained(
“path/to/unimol_base_weights.pt”, # Exemple de chemin
config=config
)

unimol_encoder.eval() # Définir en mode évaluation si vous ne formez pas les couches de l’encodeur initialement
“`

2. Attacher une Tête Spécifique à la Tâche

La sortie de l’encodeur Unimol est une représentation moléculaire (par exemple, un vecteur de taille fixe ou des embeddings au niveau des nœuds). Vous devez ajouter un petit réseau de neurones au-dessus de cette représentation pour effectuer votre prédiction spécifique.

* **Régression :** Pour prédire des valeurs continues (par exemple, l’affinité de liaison), une simple couche linéaire ou un petit MLP (Perceptron Multicouche) est courant.
* **Classification :** Pour prédire des classes discrètes (par exemple, actif/inactif), utilisez une couche linéaire suivie d’une activation sigmoïde (pour binaire) ou softmax (pour multi-classes).

“`python
import torch.nn as nn

class UnimolFineTuneModel(nn.Module):
def __init__(self, unimol_encoder, num_output_features, task_type=”regression”):
super().__init__()
self.unimol_encoder = unimol_encoder
self.task_type = task_type

# La dimension de sortie de l’encodeur Unimol dépend de sa configuration.
# Elle est souvent appelée `hidden_size` ou `embedding_dim`.
encoder_output_dim = self.unimol_encoder.args.encoder_embed_dim # Accès d’exemple

if task_type == “regression”:
self.prediction_head = nn.Sequential(
nn.Linear(encoder_output_dim, 256),
nn.ReLU(),
nn.Dropout(0.3),
nn.Linear(256, num_output_features) # num_output_features est 1 pour la régression à valeur unique
)
elif task_type == “classification”:
self.prediction_head = nn.Sequential(
nn.Linear(encoder_output_dim, 256),
nn.ReLU(),
nn.Dropout(0.3),
nn.Linear(256, num_output_features) # num_output_features est le nombre de classes
)
else:
raise ValueError(“Type de tâche non pris en charge”)

def forward(self, unimol_graph_data):
# L’encodeur Unimol renvoie généralement un dictionnaire. Nous avons besoin de la représentation agrégée.
# La clé exacte pour la représentation agrégée peut varier (par exemple, ‘mol_embedding’, ‘graph_embedding’).
encoder_output = self.unimol_encoder(
coords=unimol_graph_data[“coords”],
atom_features=unimol_graph_data[“atom_features”],
bond_features=unimol_graph_data[“bond_features”],
edges=unimol_graph_data[“edges”]
# Ajouter d’autres entrées requises selon la méthode forward de UnimolModel
)

# En supposant que ‘mol_embedding’ est la représentation agrégée pour toute la molécule
pooled_representation = encoder_output[‘mol_embedding’]

prediction = self.prediction_head(pooled_representation)
return prediction

# Instancier le modèle affiné
fine_tuned_model = UnimolFineTuneModel(unimol_encoder, num_output_features=1, task_type=”regression”)
“`

Le processus de fine-tuning Unimol

Maintenant, combinez vos données et votre modèle pour l’entraînement.

1. Définir la fonction de perte et l’optimiseur

* **Régression :** L’erreur quadratique moyenne (MSE) ou l’erreur absolue moyenne (MAE) sont courantes.
* **Classification :** Entropie croisée binaire (BCE) pour la classification binaire, entropie croisée pour la classification multi-classe.
* **Optimiseur :** AdamW est un bon choix par défaut, souvent avec un planificateur de taux d’apprentissage.

“`python
optimizer = torch.optim.AdamW(fine_tuned_model.parameters(), lr=1e-5) # Commencer avec un petit taux d’apprentissage
criterion = nn.MSELoss() # Pour la régression
“`

2. Gel des couches (optionnel mais recommandé)

Au départ, il est souvent bénéfique de geler les couches de l’encodeur Unimol pré-entraîné et de n’entraîner que la tête de prédiction nouvellement ajoutée. Cela empêche de grandes mises à jour de gradients de corrompre les poids pré-entraînés précieux. Après quelques époques, vous pouvez dégeler certaines ou toutes les couches de l’encodeur et entraîner avec un taux d’apprentissage très faible.

“`python
# Pour geler les paramètres de unimol_encoder
for param in fine_tuned_model.unimol_encoder.parameters():
param.requires_grad = False

# Seuls les paramètres dans prediction_head seront mis à jour
# Vous dégeleriez plus tard :
# for param in fine_tuned_model.unimol_encoder.parameters():
# param.requires_grad = True
“`

3. Boucle d’entraînement

La boucle d’entraînement suit les pratiques standard de PyTorch. Itérez à travers les époques, traitez les lots, calculez la perte, faites une rétropropagation et mettez à jour les poids.

“`python
device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”)
fine_tuned_model.to(device)

num_epochs = 10
for epoch in range(num_epochs):
fine_tuned_model.train()
total_loss = 0
for batch_idx, (unimol_graph_data_batch, targets_batch) in enumerate(train_loader):
# Déplacer les données vers le dispositif
# unimol_graph_data_batch doit être traité pour déplacer ses tenseurs vers le dispositif
# Exemple : batch_coords = unimol_graph_data_batch[“coords”].to(device)
# batch_atom_features = unimol_graph_data_batch[“atom_features”].to(device)
# …
# Cela nécessite une collate_fn appropriée dans votre DataLoader.

# Simplifié pour l’illustration, en supposant que unimol_graph_data_batch est déjà déplacé
# ou gérer le déplacement dans la boucle pour chaque tenseur dans le dictionnaire.

# Déplacer les tenseurs individuels dans le dictionnaire vers le dispositif
processed_graph_data = {k: v.to(device) for k, v in unimol_graph_data_batch.items()}
targets_batch = targets_batch.to(device)

optimizer.zero_grad()
predictions = fine_tuned_model(processed_graph_data)
loss = criterion(predictions.squeeze(), targets_batch) # .squeeze() pour la régression à valeur unique

loss.backward()
optimizer.step()
total_loss += loss.item()

avg_train_loss = total_loss / len(train_loader)
print(f”Époque {epoch+1}, Perte d’entraînement : {avg_train_loss:.4f}”)

# Étape de validation (implémentez de manière similaire)
fine_tuned_model.eval()
val_loss = 0
with torch.no_grad():
for batch_idx, (unimol_graph_data_batch, targets_batch) in enumerate(val_loader):
# Déplacer les données vers le dispositif
processed_graph_data = {k: v.to(device) for k, v in unimol_graph_data_batch.items()}
targets_batch = targets_batch.to(device)

predictions = fine_tuned_model(processed_graph_data)
loss = criterion(predictions.squeeze(), targets_batch)
val_loss += loss.item()

avg_val_loss = val_loss / len(val_loader)
print(f”Époque {epoch+1}, Perte de validation : {avg_val_loss:.4f}”)

# Enregistrer le meilleur modèle basé sur la perte de validation
# …
“`

4. Réglage des hyperparamètres

* **Taux d’apprentissage :** Crucial. Expérimentez avec des valeurs comme 1e-4, 5e-5, 1e-5, 5e-6. Un planificateur de taux d’apprentissage (par exemple, le refroidissement cosinusoïdal, ReduceLROnPlateau) est souvent utile.
* **Taille de lot :** Limitée par la mémoire GPU. De plus grandes tailles de lots peuvent fournir des gradients plus stables mais nécessitent plus de mémoire.
* **Nombre d’époques :** Surveillez la perte de validation pour éviter le surapprentissage. L’arrêt précoce est important.
* **Dropout :** Appliquez un dropout dans la tête de prédiction pour régulariser.
* **Poids de décroissance :** Ajoutez une régularisation L2 à l’optimiseur.

Évaluation et déploiement

Après le fine-tuning Unimol, évaluez votre modèle sur l’ensemble de tests non vu en utilisant des métriques appropriées :

* **Régression :** R-carré, MAE, RMSE.
* **Classification :** Précision, Précision, Rappel, Score F1, ROC-AUC.

Une fois satisfait de la performance, enregistrez votre modèle affiné. Pour le déploiement, vous pouvez charger le modèle enregistré et l’utiliser pour des inférences sur de nouvelles données moléculaires.

“`python
# Enregistrer le modèle
torch.save(fine_tuned_model.state_dict(), “fine_tuned_unimol_model.pt”)

# Charger pour inférence
loaded_model = UnimolFineTuneModel(unimol_encoder, num_output_features=1, task_type=”regression”)
loaded_model.load_state_dict(torch.load(“fine_tuned_unimol_model.pt”))
loaded_model.to(device)
loaded_model.eval()

# Exemple d’inférence
with torch.no_grad():
sample_mol_data = … # Préparer de nouvelles données moléculaires
processed_sample_mol_data = {k: v.to(device) for k, v in sample_mol_data.items()}
prediction = loaded_model(processed_sample_mol_data)
print(“Prédiction :”, prediction.item())
“`

Conseils pour un fine-tuning Unimol réussi

* **Commencez simple :** Commencez avec un petit taux d’apprentissage et un encodeur gelé. Dégeler progressivement les couches et augmenter le taux d’apprentissage à mesure que le modèle se stabilise.
* **Surveillez les métriques :** Gardez un œil attentif sur la perte/les métriques d’entraînement et de validation. Recherchez des signes de surapprentissage (perte d’entraînement diminue, perte de validation augmente).
* **Augmentation des données :** Pour les données moléculaires, cela peut impliquer de générer différents conformères, de faire pivoter des molécules ou d’appliquer de petites perturbations. Cela aide le modèle à apprendre des représentations plus solides.
* **Stratégies d’apprentissage par transfert :**
* **Extraction de caractéristiques :** Utilisez Unimol pour générer des embeddings, puis entraînez un modèle séparé plus simple (par exemple, SVM, XGBoost) sur ces embeddings. C’est souvent une bonne base.
* **Fine-tuning complet :** Entraînez l’ensemble du modèle Unimol (encodeur + tête) avec un très faible taux d’apprentissage. Cela offre le plus grand potentiel pour la performance mais nécessite plus de ressources informatiques et un réglage soigneux.
* **Fine-tuning couche par couche :** Dégeler et entraîner d’abord les couches extérieures, puis dégeler progressivement les couches intérieures.
* **Expérimentez avec les architectures :** Bien qu’une tête linéaire simple soit un bon point de départ, expérimentez avec des MLP légèrement plus complexes pour la tête de prédiction.
* **utilisez les utilitaires de Unimol :** La bibliothèque Unimol fournit divers outils pour le traitement des données, la construction de graphes et le chargement de modèles. Familiarisez-vous avec son API pour rationaliser votre flux de travail.
* **Pré-computation :** Si la génération de conformères 3D est lente, envisagez de les pré-générer et de les enregistrer sur le disque avant l’entraînement.

Le fine-tuning Unimol est une approche puissante pour adapter des représentations moléculaires de pointe à vos tâches spécifiques. En suivant ces étapes pratiques, vous pouvez obtenir de meilleurs modèles prédictifs dans la découverte de médicaments, la science des matériaux et d’autres domaines moléculaires.

FAQ sur le fine-tuning Unimol

**Q1 : De combien de données ai-je besoin pour le fine-tuning Unimol ?**
A1 : Plus il y en a, mieux c’est. Bien que le pré-entraînement de Unimol aide avec la rareté des données, le fine-tuning bénéficie toujours considérablement de jeux de données plus grands et diversifiés. Pour des tâches de régression, des centaines à des milliers de points de données sont souvent un bon point de départ. Pour la classification, en particulier avec plusieurs classes, plus de données sont généralement nécessaires pour apprendre des limites de décision distinctes. Si votre jeu de données est très petit (dizaines d’échantillons), envisagez d’utiliser Unimol comme extracteur de caractéristiques fixe plutôt que de faire un fine-tuning de l’ensemble du modèle.

**Q2 : Quelle est la différence entre utiliser Unimol comme extracteur de caractéristiques et un fine-tuning complet ?**
A2 : En tant qu’extracteur de caractéristiques, vous utilisez le modèle Unimol pré-entraîné pour générer des embeddings moléculaires (vecteurs de taille fixe) pour vos molécules. Vous entraînez ensuite un modèle séparé et plus simple (comme une régression linéaire, SVM ou un petit MLP) sur ces embeddings. Les poids de Unimol restent fixes. Dans le fine-tuning complet, vous chargez le modèle Unimol pré-entraîné puis continuez à entraîner ses couches (avec une nouvelle tête spécifique à la tâche) sur votre ensemble de données. Le fine-tuning complet donne généralement de meilleures performances si vous avez suffisamment de données et de ressources informatiques, car il adapte les représentations internes de Unimol à votre tâche spécifique.

**Q3 : Comment gérer les structures moléculaires 3D pour Unimol ?**
A3 : Unimol est conçu pour utiliser des informations graphiques moléculaires 3D. Si vous n’avez que des chaînes SMILES, vous devrez générer des conformères 3D. Des outils comme RDKit peuvent le faire (par exemple, `Chem.AllChem.EmbedMolecule`). Il est recommandé d’optimiser ensuite ces conformères en utilisant un champ de force (par exemple, `AllChem.MMFFOptimizeMolecule`) pour obtenir des structures plus chimiquement plausibles. Pour des tâches critiques, il est préférable d’utiliser des structures 3D déterminées expérimentalement (provenant de bases de données comme PDB) ou des structures optimisées par chimie quantique de haut niveau. La bibliothèque Unimol prendra ensuite ces coordonnées 3D, ainsi que les caractéristiques des atomes et des liaisons, pour construire sa représentation graphique interne.

🕒 Published: March 26, 2026

🧬

Written by Jake Chen

Deep tech researcher specializing in LLM architectures, agent reasoning, and autonomous systems. MS in Computer Science.

Learn more →