Retour

Vers un moteur de recherche contextuel de nouvelle génération. Exploration des capacités vectorielles d'OpenSearch pour l'enrichissement sémantique de documents

Plus d'info sur IFP Energies nouvelles - Sciences et Technologies du Numérique

Stage Data / Mathématiques Appliquées Hauts-de-Seine entre mars et mai 2026 5 mois


IFP Energies nouvelles (IFPEN) est un acteur majeur de la recherche et de la formation dans les domaines de l’énergie, du transport et de l’environnement. Depuis les concepts scientifiques en recherche fondamentale jusqu’aux solutions technologiques en recherche appliquée, l’innovation est au cœur de son action, articulée autour de quatre orientations stratégiques : climat, environnement et économie circulaire ; énergies renouvelables ; mobilité durable ; hydrocarbures responsables.

Dans le cadre de la mission d’intérêt général confiée par les pouvoirs publics, IFPEN concentre ses efforts sur l’apport de solutions aux défis sociétaux et industriels de l’énergie et du climat, au service de la transition écologique. Partie intégrante d’IFPEN, IFP School, son école d’ingénieurs, prépare les générations futures à relever ces défis.

Vers un moteur de recherche contextuel de nouvelle génération. Exploration des capacités vectorielles d’OpenSearch pour l’enrichissement sémantique de documents.

IFP Energies Nouvelles dispose d’une base documentaire hétérogène composée entre autres de nombreux rapports PDF historiques et de fichiers de logs de puits au format LAS. Ces documents ont été produits pour des objectifs spécifiques (par exemple, l’évaluation de la présence d’hydrocarbures). Or, ces mêmes données pourraient être réexploitées dans des contextes différents, comme l’évaluation du potentiel de stockage géologique du CO₂.

Aujourd’hui, notre moteur de recherche basé sur le framework OpenSearch indexe ces documents avec des métadonnées et du texte extrait des documents. Cependant, cette indexation reste très dépendante du contexte initial avant d’être ingérée dans la base et ne permet pas d’exploiter pleinement la valeur implicite des contenus pour d’autres usages.

Objectifs

L’objectif du stage est d’étudier et de prototyper l’utilisation des fonctionnalités vectorielles d’OpenSearch pour enrichir/updater les index existants par des représentations sémantiques (embeddings).

L’idée est de construire un pipeline permettant :

  • D’extraire et enrichir automatiquement des résumés ou des passages clés avec une vision multi-thématique (hydrocarbures, CO₂, stockage géologique, géomécanique, etc.)
  • De générer des embeddings pertinents (modèles préentraînés ou fine-tuning)
  • De stocker ces embeddings dans OpenSearch pour permettre des recherches sémantiques et contextuelles plus puissantes
  • De comparer la pertinence des résultats avec la recherche textuelle classique (BM25)

Missions principales

  • Étude de l’état de l’art des fonctionnalités vectorielles dans OpenSearch (k-NN, ANN, vecteurs denses)
  • Benchmark et sélection de modèles d’embedding adaptés (BERT, Sentence Transformers, etc.)
  • Développement d’un prototype de pipeline d’indexation enrichie : extraction de texte, résumés multi-thématiques, génération d’embeddings, insertion dans OpenSearch
  • Mise en place de cas d’usage de requêtes sémantiques : recherche croisée d’informations entre contextes différents
  • Évaluation comparative de la performance et de la pertinence des résultats
  • Rédaction de recommandations pour une mise en production

Profil recherché

Étudiant·e en Master 2 Informatique, Data Science, IA ou équivalent

  • Compétences en NLP (Python, Hugging Face, spaCy, etc.)
  • Connaissance des moteurs de recherche (ElasticSearch/OpenSearch ou équivalent)
  • Notions de base sur les bases vectorielles et l’approximate nearest neighbors
  • Intérêt pour l’ingénierie documentaire, l’exploitation de données scientifiques et la recherche d’informations
  • Autonomie, curiosité et rigueur scientifique

Mots-clés

Opensearch, Base Vectorielle, embeddings, NLP, Modèles de langage, Similarité sémantique


(PDF - Max : 5 Mo)
(PDF - Max : 5 Mo)

IFP Energies nouvelles - Sciences et Technologies du Numérique Stage Alternance
contact

IFP Energies nouvelles - Sciences et Technologies du Numérique
Jean-François LECOMTE

Indemnité Oui

16 Annonces
Conseils
Pour que la vie d’étudiant ne rime pas avec parcours du combattant, retrouvez tous nos conseils stage / alternance / emploi