Publiée le 10 avril 2026 · Source : France Travail
RESPONSABILITÉS : Sujet : Apprentissage par renforcement profond pour résoudre des problèmes d'optimisation boîte noire
En optimisation stochastique, les algorithmes à estimation de distribution (EDA) constituent une approche alternative aux méthodes évolutionnaires traditionnelles. Leur principe fondamental consiste non pas à travailler directement sur une population de solutions candidates au moyen d'opérateurs, mais à apprendre explicitement une distribution de probabilité susceptible de modéliser les régions de l'espace de recherche où se concentrent les solutions les plus performantes.
Dans le cadre du projet COMBO, nous avons récemment proposé un cadre d'apprentissage par renforcement invariant à l'ordre de génération des variables pour résoudre des problèmes d'optimisation combinatoire discrets de type boîte noire ( https://arxiv.org/abs/2510.01824 ). Dans ce travail, nous paramétrons un modèle génératif autorégressif multivarié de génération de solutions. En échantillonnant des ordres de génération aléatoires pendant l'entraînement (une forme de dropout structurel préservant l'information), le modèle est encouragé à être invariant par rapport à l'ordre des variables, ce qui favorise la diversité de l'espace de recherche et façonne le modèle pour qu'il se concentre sur les dépendances entre les variables les plus pertinentes, améliorant ainsi l'efficacité de l'échantillonnage. Pour l'entraînement du modèle, nous avons adapté l'algorithme d'apprentissage par renforcement Group Relative Policy Optimization (GRPO) [Zhihong et al., 2024], qui permet des mises à jour stables du gradient des politiques à partir d'avantages invariants à l'échelle des valeurs de la fonction objectif du problème. Sur un large éventail d'instances de problèmes réels et artificiels, de tailles variées, et en comparaison avec de nombreux algorithmes de l'état de l'art, notre méthode, nommée RL-EDA, atteint fréquemment les meilleures performances.
Vous pouvez télécharger la fiche de poste complète ici
You can download the job description here PROFIL RECHERCHÉ : Le candidat ou la candidate devra être titulaire d'un doctorat de moins de 3 ans.
Savoir : • Le/la candidat·e doit avoir des bases dans les domaines de l'optimisation et du machine learning. • Des connaissances dans les domaines de l'apprentissage par renforcement et de l'optimisation boîte noire seraient un plus.
Savoir faire : • Le/la candidat·e doit être à l'aise en développement algorithmique avec le langage Python. • Une connaissance de la librairie Pytorch pour le développement de réseaux de neurones serait appréciable.
Savoir être : • Le/la candidat·e doit avoir une capacité à travailler en équipe avec les différents intervenants du projet. • ll/elle doit être motivé·e et appliqué·e dans son travail.
--
Poste ouvert uniquement aux contractuels
Catégorie/corps : Post doctorant·e
Diplôme minimum requis : Bac+8
Type de contrat et durée : CDD de 12 mois
Rémunération brute mensuelle : entre 2800€ et 2900€ brut
Date de prise de poste souhaitée : 01/09/2026
Quotité de travail : 100%
Date limite de candidature : 10/05/2026
Modalités de recrutement : CV et lettre de motivation obligatoires. Nous ne pourrons pas étudier votre candidature si nous n'avons pas ces deux documents.
Intéressé par cette offre ?
Préparez votre CV avec l'IA puis postulez directement
PRÉSENTATION DE L’ORGANISATION Accompagner les communes pour l'adaptation des réglements d’urbanisme actuels. DESCRIPTION DES MISSIONS Nous recherchons un Instructeur des autorisations d'urbanisme au
RESPONSABILITÉS : Présentation de l'unité de recherche : Le CREM est le laboratoire CNRS de recherche en économie et gestion du grand ouest localisé à Rennes et à Caen. Le CREM produit des recherches
Vous serez placé(e) sous l'autorité du chef du pôle « Urbanisme et Contractualisations » et en appui à la chargée de coordination de la police de l'urbanisme. La mission police de l'urbanisme accompag