Advancing generative large language models toward discriminative performance in protein function prediction.
Outil / méthode
LLM génératif multitâche sequence-to-function via génération en langage naturel
Résumé
OPUS-PLLM est un LLM génératif multitâche capable de prédire la fonction protéique à partir de la séquence d'acides aminés via un paradigme sequence-to-function par génération en langage naturel. Contrairement aux approches précédentes qui benchmarkent les LLMs généralistes (ChatGPT-4o, DeepSeek-v3) sans dépasser les modèles spécialisés, OPUS-PLLM atteint des performances comparables aux meilleurs modèles discriminatifs spécialisés (ESM2, ProtT5) pour la prédiction de fonction. Le modèle intègre trois composantes : encodage de modalité, raffinement de modalité et instruction tuning sur des jeux de données dédiés construits pour cette étude.
Synthèse rédigée par Geno'X. Pour l'abstract original complet, consulter la publication source.
Analyse
La prédiction de la fonction protéique à partir de la séquence reste un problème fondamental pour l'interprétation des variants de sens incertain en génomique clinique. OPUS-PLLM démontre que les LLMs génératifs peuvent rivaliser avec les modèles discriminatifs spécialisés, ouvrant la voie à des outils unifiés sequence-to-function intégrables dans les pipelines d'annotation de variants. Publié dans Genome Biology, ce travail illustre la maturation rapide des LLMs pour la biologie moléculaire appliquée à la génomique.
Pourquoi ce score ?
Impact clinique : 1/3 · Solidité de l'évidence : 2/3 · Nouveauté : 2/2 · Effectif : 1/1 · Qualité du journal : 1/1 → Total : 7/10
Mots-clés
Chaque mercredi · Sélection commentée · Gratuit · Désabonnement en 1 clic