Retour
OmniGene-4HGNC bioRxivLLM appliquéNouvel outil

OmniGene-4: A Unified Bio-Language MoE Model with Router-Level Interpretability.

Wang LbioRxiv 2026 · juin 2026
Score de pertinence
7/10
Pathologie / domaine
Modèle de langage biologique multimodal
Source
bioRxiv
DOI 10.64898/2026.05.12.724542
Partager sur LinkedIn

Outil / méthode

Modèle MoE (Mixture-of-Experts) traitant conjointement langage naturel, séquences ADN et séquences protéiques avec interprétabilité des routeurs

Résumé

OmniGene-4 est un modèle de langage biologique multimodal de type Mixture-of-Experts (MoE) traitant conjointement le langage naturel, les séquences d'ADN et les séquences protéiques pour répondre à des questions séquence-dépendantes.Une analyse de l'interprétabilité au niveau des routeurs révèle que chaque expert se spécialise sur des types de questions distincts (structure, fonction, annotation), offrant une fenêtre sur les mécanismes internes du modèle.Les performances sur des benchmarks génomiques mixtes surpassent celles de modèles spécialisés unimodaux.Le modèle est disponible en open source via Hugging Face.

Synthèse rédigée par Geno'X. Pour l'abstract original complet, consulter la publication source.

Analyse

Les modèles MoE multimodaux sont une voie prometteuse pour l'IA génomique : ils permettent d'unifier des représentations hétérogènes (séquence, annotation, phénotype) dans un espace commun.L'interprétabilité des routeurs est une contribution méthodologique originale, mais les performances sur des benchmarks cliniques réels (variants pathogènes, diagnostic) restent à démontrer.

Pourquoi ce score ?

Impact clinique : 2/3 · Solidité de l'évidence : 2/3 · Nouveauté : 2/2 · Effectif : 1/1 · Statut de publication : 0/1 → Total : 7/10

Mots-clés

LLM génomiquemodèle de fondationMixture-of-ExpertsADNprotéineinterprétabilitéIA
Rapport hebdo dans votre boîte mail

Chaque mercredi · Sélection commentée · Gratuit · Désabonnement en 1 clic