bioRxivNouvel outilPrédiction pathogénicitéLLM appliqué

A fine-tuned genomic language model captures nucleotide-level information overlooked by missense variant impact predictors.

Su Y, Lin YJ — bioRxiv 2026 · juin 2026

Score de pertinence

9/10

Pathologie / domaine

Interprétation des variants missense / prédiction de pathogénicité

Source

bioRxiv

DOI 10.64898/2026.05.06.723362

Partager sur LinkedIn

Outil / méthode

LLM génomique fine-tuné capturant l'information nucléotidique ignorée par les prédicteurs de variants missense classiques

Résumé

Ce preprint bioRxiv présente un modèle de langage génomique (LLM) fine-tuné capable de capturer l'information au niveau nucléotidique que les prédicteurs d'impact de variants missense classiques ignorent. Ces prédicteurs existants focalisent sur les conséquences protéiques et partagent des priors d'annotation qui créent des angles morts — notamment les variants dont l'effet passe par le contexte de séquence nucléotidique (épissage, régulation). Le nouveau modèle améliore significativement la prédiction de pathogénicité sur des benchmarks indépendants.

Synthèse rédigée par Geno'X. Pour l'abstract original complet, consulter la publication source.

Analyse

Les prédicteurs de pathogénicité missense (CADD, REVEL, AlphaMissense) sont devenus des incontournables du diagnostic génomique mais partagent des biais communs. Un LLM génomique capable de capturer des informations complémentaires au niveau nucléotidique représente une avancée réelle — sous réserve de validation sur des cohortes diagnostiques indépendantes après peer review.

Analyse par Dr Thibaut Benquey

Pourquoi ce score ?

Impact clinique : 3/3 · Solidité de l'évidence : 3/3 · Nouveauté : 2/2 · Effectif : 1/1 · Statut de publication : 0/1 → Total : 9/10

Mots-clés

LLM génomiquevariants missenseprédiction pathogénicitédiagnostic génomiquedeep learning

Rapport hebdo dans votre boîte mail

Chaque mercredi · Sélection commentée · Gratuit · Désabonnement en 1 clic