Stage Développeur - Crawler de fichiers de données non structurées (H/F) - Vannes

Réf. 280065

Stage - Informatique - Développement

Localisation : Morbihan

Début : dès que possible
Durée : de 4 à 6 mois
Indem. : à définir

Dawizz

Dawizz, jeune start-up dynamique en pleine croissance, est spécialisée dans la cartographie des données des entreprises et des organismes publiques. 

Dawizz est une jeune société prometteuse. Vous serez amené à travailler sur des projets enrichissants, innovants et variés afin de développer vos compétences. Vous bénéficierez de toute la souplesse et de la réactivité de notre structure tout en contribuant à des projets ambitieux et le tout dans une ambiance Startup !

Stage Développeur - Crawler de fichiers de données non structurées (H/F) 

Rattaché(e) au Responsable Technique et en collaboration avec notre équipe de développement (3 spécialistes au profil Techlead), votre mission consiste à analyser, développer et valider un crawler de fichiers de données non structurées.

Ecrit dans le langage le plus adapté à la problématique analysée (Python, nodejs, C#, …), le crawler devra pouvoir s’intégrer dans les plateformes Linux, Macos et Windows, et aura pour objectif de détecter dans de gros volumes de fichiers (textes, bureautiques, zip, pdf) des occurrences de concepts ou de mots issus de thésaurus ou de dictionnaires :

  • Noms propres, prénoms
  • Mots injurieux
  • N° CB, compte bancaire, sécurité sociale, …
  • PHI (Personal Health Information)
  • PII (Personally Identifiable Information)
  • PCI (Payment Card Industry)

Le crawler fournira le résultat sous la forme d’un ensemble d’entités JSON contractualisées et compatibles avec notre plateforme de cartographie du système d’information. Le crawler pourra avoir la forme d’un service ou d’un exécutable, il ne devra pas dégrader les temps de réponse de la plateforme auditée malgré le volume important d’informations à auditer.

Responsabilités et missions

Analyse :

  • Rechercher et valider les dictionnaires / thésaurus
  • Définir les types sémantiques à rechercher dans les données (email, # CB, # CI, …)
  • Valider le langage de développement le mieux adapté à la problématique
  • Architecturer la solution cible afin de respecter l’objectif de performance

Développement :

  • Découper la backlog en items de 1 à 2 jours de développement
  • Prioriser les tâches
  • Respect des pourcentages cibles de taux de couverture de code

Tests et recette :

  • Participer aux tests de la solution
  • Intégrer le nouveau crawler dans la plateforme existante
  • Recetter le développement dans un environnement de production

Qualifications et compétences recherchées :

  • Autonomie, bonne capacité d'organisation
  • Connaissance des enjeux liés à la sécurité au sein des SI
  • Passionné par la technique et le développement de solutions « efficaces »
  • Aisance relationnelle pour le travail en équipe, aptitude à analyser
  • Polyvalence, force de proposition, curiosité
  • Travailler dans une structure sur un modèle "start-up »

Poste basé à Vannes (56), proche du golfe du Morbihan et du centre-ville.
A partir d'avril 2018. Stage conventionné avec indemnités légales.

Les plus : La combinaison d’un environnement de travail dynamique et d’un cadre de vie exceptionnel tourné vers l’océan Atlantique.

Cette offre n'est plus disponible

Contact

Dawizz
Pauline Le Dreff
141 rue du commerce PIBS
56000 Vannes

Nouvelle recherche