France

Orange recrute 01 Stagiaire – Comparaison de méthodes d’apprentissage faiblement supervisées

Orange recrute 01 Stagiaire – Comparaison de méthodes d’apprentissage faiblement supervisées dans le cas de la fraude F/H

orange

LANNION,France
Informatiques, Télécommunications
Stage – Comparaison de méthodes d’apprentissage faiblement supervisées dans le cas de la fraude F/H
Ref : 0024819 | 24 oct. 2019
Date limite de candidature : 25 nov. 2019
2 avenue Pierre Marzin 22300 LANNION – France
Leaflet
Life At Orange : la campagne
Votre rôle
Traditionnellement les systèmes de détection de fraudes sont fondés sur l’exploitation de bases de règles écrites par des experts. Depuis quelques années, on voit apparaître des initiatives visant à remplacer ces règles d’experts par des modèles issus d’algorithmes de type Machine Learning.
L’approche la plus directe est la classification supervisée : on considère que les experts métiers sont en capacité de fournir une base d’exemples parfaitement labellisés (fraudeurs vs clients légitimes) et la difficulté est alors de construire des profils pertinents pour distinguer ces deux populations. Cette approche est au coeur des systèmes les plus avancés déployés opérationnellement.
Pourtant l’approche de la classification supervisée constitue une simplification abusive dans laquelle on ne prend pas en compte les spécificités des exemples dont on dispose réellement dans de nombreux cas de fraudes : les exemples sont rares, non exhaustifs et souvent bruités (des clients considérés légitimes peuvent être des fraudeurs non détectés ou bien d’autres peuvent avoir été étiquetés à tort par des règles métiers imparfaites).
D’autres approches de Machine Learning permettraient d’adresser ces problématiques. L’apprentissage faiblement supervisé consiste à entraîner un modèle pour effectuer des prédictions fines à partir d’annotations grossières, bruitées ou en faible nombre. Ce type d’approche est particulièrement pertinent lorsque l’annotation (ou sa granularité) est coûteuse. L’apprentissage actif est un modèle d’apprentissage semi-supervisé où un oracle intervient au cours du processus. Plus précisément, contrairement au cadre classique où les données sont connues et imposées, en apprentissage actif, c’est l’algorithme d’apprentissage qui demande des informations pour des données précises.
Dans le cadre du stage, les exemples connus sont les étiquettes des exemples que peut demander l’oracle ; ceci afin d’améliorer les performances du classifieur.
L’approche par apprentissage supervisé servira de point de référence pour évaluer les approches alternatives. Les classifieurs considérés pendant le stage seront uniquement le classifieur Selective Naive Bayes (SNB) MODL (contenu dans le logiciel d’Orange Labs, nommé Khiops) et le Random Forest (RF) de Weka (wrapper de scikit-learn).
Dans un premier temps, la-le stagiaire déroulera une comparaison visant à répondre à la question suivante : dans le cas de données de fraudes (classes très déséquilibrées, bruit d’étiquetage, nombre limité d’exemple étiquetés) est-il préférable de réaliser un apprentissage par co-training ? un self-training ? ou un apprentissage actif ?
Pour ce faire une étude « benchmark » sera menée sur des données de fraudes et/ou des données présentant des caractéristiques similaires à des données de fraudes.
Votre profil
Étudiant-e en BAC+5 (Master industriel ou recherche) informatique, statistiques ou école d’ingénieur, vous êtes à la recherche d’un stage d’une durée 6 mois à partir de février 2020.
Les connaissances en Python et Scikit-learn sont indispensables.
Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont indispensables.
Intérêt pour les aspects applicatifs et théoriques du sujet.
Entité
Vous serez intégré-e dans l’équipe de traitement des données d’Orange Labs directement en lien avec des problématiques opérationnelles d’Orange.
La-le stagiaire évoluera dans un contexte « recherche » sur un sujet très porteur.
Le but de ce stage est de comparer différentes approches relevant de l’apprentissage faiblement supervisé dans le cas de détection de fraudes.
De nombreux services distribués par Orange peuvent faire l’objet de tentatives de fraudes : Orange Money, les services de données mobile, les marchés de transfert à l’international … Il est donc primordial pour l’opérateur d’être en mesure de détecter ces tentatives pour protéger l’expérience client ou les revenus dégagés par ces services.
Contrat
Stage
Durée du stage : 6 mois
Niveau d’études préparées pendant ce stage : Bac+4, Bac+5

POSTULER
[subscribe]

Laisser un Commentaire

En savoir plus sur Concoursn.com

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading