CV Consultant Hadoop

Freelances

Ajoutez votre CV de consultant hadoop à notre base d'intervenants ! Rejoignez les 104.323 autres freelances de notre réseau pour trouver une mission ou une préembauche.

Déposez votre CV

Déjà inscrit ? Consultez nos offres de mission.

Entreprises 01 80 88 59 00

Déposez une offre et recevez des CV de consultant hadoop (gratuit)

Portage salarial

Pas immatriculé ? Effectuez vos missions freelance avec SPG, la société de portage salarial des informaticiens.

Recevoir un dossier Simulation en ligne
Nos derniers

profils de consultant hadoop

connectés
Exemple de missions de Saber, Consultant Hadoop habitant Paris (75)

Jan. 2017 Juil. 2018 INGILAB
Consultant BIG DATA / DATA MINING / MACHINE LEARNING
Projet 1 (Jan. 2017 à Mai. 2017) : évaluation automatique des codes (GitHub Data Mining Project).

Dans ce projet, nous visons à évaluer un code écrit dans un langage de programmation automatiquement. Nous avons utilisé JAVA comme langage de programmation ainsi que la librairie WEKA pour l'apprentissage. Nous avons utilisé la base de données de GitHub pour l’apprentissage de notre système d'évaluation des codes. Nos résultats primaires sont à 68 % de précision.
En autonomie.

- État de l’art, recherche bibliographique (SONAR, PMD, etc.)
- Implémentation d’algorithmes ou méthodologies existantes : Naive Bayes, Arbre de décision (Random forest), etc.
- Proposition d’une solution d’analyse de code issus de Github
- Conception de la solution :
 Input : codes Github
 Objectif : sortir des modèles (classifiers)
 Architecture schématique de la solution
 Création de uses cases
- Rédaction de spécifications techniques
- Modélisation de diagramme de séquences
- Développement d’algorithme et de fonctionnalités de la solution en JAVA (7/8)
- Utilisation de la librairie WEKA
- Tests unitaires, tests fonctionnels
- Rédaction de rapport technique en français

Projet 2 (Août 2017 à Avril 2018) : Dyson – AFP (Agence France Presse).
L’objectif de ce projet est d'afficher d'une façon intelligente les données (Text Mining). En outre, nous voulons extraire des corrélations ainsi que des relations cachées dans la base des données de L 'AFP.

En autonomie.
- État de l'art et recherche bibliographique
- Implémentation des méthodologies existantes
- Proposition d'une solution basée sur les règles d'associations
- Conception de la solution :
 Input : données AFP (news)
 Objectif : extraire des connaissances cachées
 Traitement des données (data cleaning)
 Schématisation de la solution
 Création des uses cases pour la phase de test
- Rédaction de spécification techniques
- Accès aux données de l’AFP et traitement des données afin de les mettre dans un format particulier (Java) qui les rend utilisables par des algorithmes de Machine Learning
- Etude statistique exploratoire de la base de données dans le but de calculer un pourcentage de champs manquants pour automatiser les processus de remplissage des champs
- Apprentissage sur l’échantillon de news (anglais et français)
- Test des différents modèles
- Modélisation de diagramme de séquences
- Développement de la solution en Java (8) :
- Utilisation de la librairie WEKA (Algorithme Apriori)
- Préparation d’une interface graphique pour simuler les résultats en vue de la démo
- Préparation et présentation de la démo face à l’AFP
- Rédaction de rapport technique en français

Projet 3 (Août. 2017 à ce jour) : Analyse des réseaux sociaux – En cours.
Analyse des sentiments (Text Mining) et détection des influenceurs sur les réseaux sociaux, en particulier Twitter notamment pour le client Airbus. Dans ce projet, nous analysons des données captées de différents réseaux sociaux notamment Facebook et Twitter. Nous avons réussi à télécharger des données de Twitter ainsi que de Facebook et de construire un modèle capable de classifier les données avec une précision de 83 %.

Au sein d’une équipe de 4 personnes.
- État de l'art et recherches bibliographiques (Analyse des réseaux sociaux en utilisant l'apprentissage automatique)
- Implémentations des techniques existantes (techniques de classifications)
- Proposition d'une solution basée sur l'apprentissage automatique
- Conception de la solution :
 Input : données Twitter+Facebook
 Objectif : classifier les opinions des utilisateurs
 Traitement des données (data cleaning)
 Extraction des conversations
- Modélisation de diagramme de séquences
- Développement de la solution en Java (8) pour l’extraction de features qui définissent un influenceur
- Application des algorithmes de Machine Learning (RandomForest, SVM, Réseau de neurones)
- Utilisation de la librairie WEKA. Twitter4j, Facebook4j
- État de l'art et recherches bibliographiques (PageRank, différentes mesures utilisées pour évaluer un leader d’opinion)
 Mesure de l’importance de nœud dans des graphes (la représentation du réseau d’interaction des utilisateurs)
 Mesure de « closeness centrality »
 Mesure de « betweenness centrality »
 Mesure de « embeddedness »
- Exploration des pistes de Deep Learning pour la détection automatique des influenceurs
- Implémentations des techniques telles que :
 Implémentation et test de l’algorithme de « betweenness centrality » en JAVA
 Implémentation et test de l’algorithme de « closeness centrality » en JAVA
 Utilisation de la librairie « Universal Graph », « GraphStreaming »
ENVIRONNEMENT TECHNIQUES : LINUX UBUNTU, BASH, ECLIPSE, GCC, GDB, JAVA 7/8, TWITTER4J, FACEBOOK4J, WEKA, TENSORFLOW, PYTHON, GRAPHSTREAM

Déc. 2012 Avr. 2016 INRIA
Doctorant INRIA / BIG DATA / DATA MINING
Sujet de la thèse : Parallel Itemset Mining in Massively Distributed Environments.
Au sein d’une équipe de 12 personnes et en autonomie sur le projet

Dans ce projet, j'ai proposé trois solutions algorithmiques innovantes servant à extraire des motifs fréquents et informatifs dans des grandes bases des données (des Tera- Octets des données). Ces solutions permettent l'exploration parallèle des grandes bases des données dans un temps très réduit et avec un taux minimum de données échangées.

Solution 1 : Cette solution sert à extraire les motifs fréquents dans des larges bases de données en deux étapes (deux jobs de MapReduce) à la place de k jobs (où k est la taille du motif à déterminer). L'idée principale étant de placer les données intelligemment sur les machines (les mappeurs).

- État de l’art, recherche bibliographique (Apriori, PFP-Growth, SON, etc.)
- Implémentation des algorithmes parallèles existants : Parallel Apriori, PFP- Growth, CDAR, SON, etc.
- Proposition d'un nouvel algorithme P2S (Parallel Two Steps)
- Conception de la solution :
 Input : grande base des données (Wikipedia entier en Anglais)
 Objectif : extraire des corrélations dans la base de données
 Traitement des données en parallèle
- Modélisation de diagrammes de séquences
- Développement d’algorithmes (P2S) et de fonctionnalités de la solution en JAVA (7)
- Utilisation de la librairie MAHOUT
- Création des scripts d'automatisation de l'exécution de la solution en BASH
- Conférence à Hambourg - Allemagne sur le Machine Learning et le Data Mining (MLDM)
- Tests unitaires, tests fonctionnels
- Rédaction de rapports techniques en français et en anglais avec Latex

Solution 2 : la minimisation du nombre de jobs de MapReduce résulte dans une minimisation de temps d'exécution ainsi qu'une petite quantité de données échangées dans un environnement massivement distribué. En effet, j'ai proposé l'algorithme PATD (Parallel Absolute Top Down) pour l'extraction des motifs fréquents dans un seul job de MapReduce ainsi qu'un autre algorithme IBDP (Item Based Data Partitioning) qui permet la création des partitions jointes des données.

- Proposition d'un nouvel algorithme PATD (Parallel Absolute Top Down) et IBDP (Item Based Data Partitioning)
- Conception de la solution :
 Création des partition jointes de data en utilisant l'algorithme IBDP
 Application de PATD pour l'extraction des motifs fréquents
- Rédaction de spécifications techniques
- Développement de l'algorithme PATD et IBDP en JAVA (7)
- Conférence à Valancia - Espagne sur le Machine Learning et le Data Mining (DEXA)

Solution 3 : les motifs fréquents (itemsets fréquents) ne permettent pas de capturer toutes les relations cachées dans la base de données. En effet, j'ai proposé une solution pour extraire des motifs informatifs dans le Big Data. Cette solution est innovatrice et n'existe pas dans la littérature. Mon algorithme parallèle PHIKS (Parallel Highly Informative K-Itemset) est capable d'extraire les motifs informatifs dans deux jobs de MapReduce.

- Proposition d'un nouvel algorithme PHIKS
- Conception de la solution :
 Input : grande base des données (Wikipédia entier en Anglais, ClueWeb)
 Objectif : extraire les motifs informatifs de taille k qui ont la plus forte entropie conjointe
 Traitement des données en parallèle
 Application de PHIKS pour l'extraction des motifs informatifs
- Développement de l’algorithme PHIKS en JAVA (7)
- Conférence à Atlantic City - USA sur le Data Mining (IEEE ICDM)
ENVIRONNEMENT TECHNIQUES : LINUX, JAVA 7, HADOOP, MAPREDUCE, MAHOUT, ECLIPSE, LATEX, GRID5000

Voir le profil complet de ce freelance
CV similaires parfois recherchés

Consultant hadoop hive, Consultant hadoop hbase, Consultant hadoop zookeeper, Consultant hadoop big data, Consultant technique hadoop, Consultant hadoop hdfs, Consultant apache hadoop