Profile Image

Souhail Lahlali

Data Scientist & AI Engineer

Spécialisé dans le développement de solutions d'intelligence artificielle et l'analyse de données massives. Expert en implémentation de systèmes RAG, pipelines ETL, et architectures cloud pour des solutions data-driven innovantes.

souhail.lahlali2020@gmail.com +212 767 237 049 Safi, Maroc LinkedIn

Expérience Professionnelle

Freelance : Développement de solutions Data et IA

BAYWOOD, Australie (Remote)
Février 2025 - Août 2025
  • Développement de pipelines ETL automatisés pour l'intégration de données dans le cloud AWS
  • Exploitation des données pour alimenter HubSpot automatiquement
  • Mise en place d'un système RAG avec LLM pour analyser des PDF complexes
→ Voir les détails complets

Stage : Système de traduction vocale basé sur Transformers et CNN

ISSAC MCKENZIE & PARTNERS, Maroc
Avril 2024 - Juin 2024
  • Reconnaissance vocale automatique via CNN et coefficients MFCC
  • Implémentation d'un module de traduction automatique EN→FR basé sur BERT
→ Voir les détails complets

Stage : Développement backend et IA – Projet LMS

DevSoft, Maroc
Avril 2023 - Juin 2023
  • Participation au développement d'une plateforme LMS avec intégration d'un système de recommandation basé sur l'IA
→ Voir les détails complets

Formation

Master en Sciences des Données et Intelligence Artificielle

École Nationale des Sciences Appliquées (ENSA), El Jadida
2024 - Présent

Licence Pro. en Infrastructures, Traitement et Analyse de Données Massives

École Supérieure de Technologie, Fkih Ben Salah
2023 - 2024

DUT en Informatique Décisionnelle et Sciences des Données

École Supérieure de Technologie, Essaouira
2021 - 2023

Compétences Techniques

Langages

Python
Java
JavaScript
SQL

IA & NLP

Large Language Models
RAG Architecture
LangChain
Transformers
OpenAI API

Frameworks

FastAPI
Flask
React
PyTorch
TensorFlow
Apache Spark

Infrastructure

Docker
Git
Apache Kafka
Linux
Amazon Web Services

Projets Réalisés

Plateforme de modération de contenu en temps réel

Architecture complète de modération automatisée utilisant des modèles de deep learning pour la surveillance de contenu multimédia en temps réel.

  • Intégration BERT pour modération de texte et CLIP/OpenAI pour classification d'images
  • Architecture distribuée basée sur Apache Kafka et Spark
  • Système de monitoring avec TimescaleDB

Prévision de l'énergie solaire avec LSTM-V

Modèle de prédiction énergétique utilisant des réseaux de neurones récurrents pour l'optimisation de la production solaire photovoltaïque.

  • Pipeline de prétraitement de données météorologiques et énergétiques
  • Architecture LSTM-V optimisée en PyTorch
  • Système de prédiction de séries temporelles

Prédiction des prix automobiles – Marché marocain

Solution d'intelligence économique avec pipeline ETL complet et modèles de machine learning pour l'analyse du marché automobile marocain.

  • Pipeline ETL automatisé avec collecte, transformation et stockage cloud
  • Modèles de régression avancés adaptés au contexte marocain
  • Interface de prédiction en temps réel avec API REST

Certifications

AWS Academy Graduate

Fondations du Cloud Computing

AWS Academy Graduate

Sécurité Cloud Architecture

AWS Academy Graduate

Opérations d'ingénierie Cloud

Freelance : Développement de solutions Data et IA

BAYWOOD, Australie (Remote)

Février 2025 - Août 2025

Contexte du projet

Mission freelance pour BAYWOOD, une entreprise australienne spécialisée dans l'analyse de données immobilières. Le projet visait à moderniser leur infrastructure data et à implémenter des solutions d'IA pour automatiser l'analyse de documents complexes.

Réalisations principales

  • Développement de pipelines ETL robustes pour l'intégration automatisée de données multisources dans AWS S3 et RDS
  • Mise en place d'un système d'alimentation automatique de HubSpot via API pour synchroniser les données clients et prospects
  • Implémentation d'un système RAG (Retrieval-Augmented Generation) avec LLM pour l'analyse intelligente de PDF complexes (rapports immobiliers, contrats, études de marché)
  • Optimisation des performances avec mise en cache Redis et traitement asynchrone
  • Déploiement sur infrastructure AWS avec monitoring CloudWatch

Technologies utilisées

Python FastAPI AWS S3 AWS RDS LangChain OpenAI GPT HubSpot API Redis Docker PostgreSQL

Impacts et résultats

  • Réduction de 70% du temps de traitement des documents PDF grâce au système RAG
  • Automatisation complète de la synchronisation des données vers HubSpot (économie de 15h/semaine)
  • Amélioration de la qualité des données avec validation automatisée et nettoyage intelligent
  • Architecture scalable supportant 10x plus de volume de données

Système de traduction vocale basé sur Transformers et CNN

ISSAC MCKENZIE & PARTNERS, Maroc

Avril 2024 - Juin 2024

Contexte du projet

Stage de fin d'études portant sur le développement d'un système de traduction vocale en temps réel pour faciliter les communications internationales de l'entreprise. Le projet combinait reconnaissance vocale automatique et traduction neuronale.

Réalisations principales

  • Développement d'un modèle de reconnaissance vocale automatique utilisant des CNN avec extraction de caractéristiques MFCC
  • Implémentation d'un pipeline de prétraitement audio avec normalisation et augmentation de données
  • Création d'un module de traduction automatique anglais-français basé sur l'architecture BERT
  • Développement d'une interface utilisateur en temps réel pour la démonstration
  • Optimisation des modèles pour réduire la latence à moins de 2 secondes

Technologies utilisées

Python PyTorch Transformers BERT Librosa SpeechRecognition Flask JavaScript WebRTC

Résultats obtenus

  • Précision de reconnaissance vocale de 92% sur corpus de test
  • Score BLEU de 85% pour la traduction automatique
  • Système fonctionnel en temps réel avec interface web interactive
  • Documentation technique complète et présentation aux équipes

Développement backend et IA – Projet LMS

DevSoft, Maroc

Avril 2023 - Juin 2023

Contexte du projet

Participation au développement d'une plateforme LMS (Learning Management System) innovante intégrant des fonctionnalités d'intelligence artificielle pour personnaliser l'expérience d'apprentissage des utilisateurs.

Contributions principales

  • Développement d'APIs REST pour la gestion des cours, utilisateurs et contenus pédagogiques
  • Implémentation d'un système de recommandation basé sur le filtrage collaboratif et l'analyse des comportements d'apprentissage
  • Création d'algorithmes de machine learning pour adapter le parcours pédagogique selon les performances
  • Intégration de fonctionnalités de tracking et d'analytics pour mesurer l'engagement des apprenants
  • Participation aux phases de test et d'optimisation des performances

Technologies utilisées

Java Spring Boot MySQL Python Scikit-learn Pandas RESTful API Git

Apprentissages clés

  • Maîtrise du développement backend avec Spring Boot et gestion de bases de données
  • Première expérience en système de recommandation et algorithmes ML appliqués
  • Collaboration en équipe agile et utilisation d'outils de versioning
  • Compréhension des enjeux UX/UI dans les plateformes éducatives

Plateforme de modération de contenu en temps réel

Projet Personnel - Architecture Distribuée

2024

Vue d'ensemble

Développement d'une plateforme complète de modération automatisée capable de traiter en temps réel différents types de contenu (texte, images, vidéos) en utilisant des modèles de deep learning avancés et une architecture distribuée scalable.

Architecture technique

  • Architecture microservices avec Apache Kafka pour le streaming de données
  • Traitement distribué avec Apache Spark pour gérer des volumes importants
  • Intégration de modèles BERT fine-tunés pour la détection de contenu toxique dans le texte
  • Utilisation de CLIP et modèles OpenAI pour l'analyse et classification d'images
  • Base de données temporelle TimescaleDB pour le monitoring et l'historique
  • Interface de gestion en temps réel avec dashboard React

Fonctionnalités clés

  • Détection multi-langue de contenu inapproprié avec scores de confiance
  • Classification automatique d'images (contenu violent, explicite, spam)
  • Système de règles personnalisables selon le contexte d'application
  • API REST pour intégration facile dans des plateformes existantes
  • Tableaux de bord analytiques avec métriques en temps réel
  • Système d'alertes automatiques pour contenus critiques

Technologies utilisées

Python Apache Kafka Apache Spark BERT CLIP OpenAI API TimescaleDB React FastAPI Docker Redis

Performances et résultats

  • Capable de traiter 10,000+ contenus par minute avec latence < 100ms
  • Précision de 94% pour la détection de contenu toxique en français et anglais
  • Réduction de 85% du temps de modération manuelle
  • Architecture scalable supportant la montée en charge horizontale

Prévision de l'énergie solaire avec LSTM-V

Projet de Recherche - Énergies Renouvelables

2024

Objectif du projet

Développement d'un système de prédiction avancé pour optimiser la production d'énergie solaire photovoltaïque en utilisant des réseaux de neurones récurrents LSTM-V (LSTM avec couches de variation). Le projet vise à améliorer l'efficacité énergétique et la planification de la production.

Méthodologie et implémentation

  • Collecte et prétraitement de données météorologiques multi-sources (température, humidité, irradiance, couverture nuageuse)
  • Développement d'un pipeline de feature engineering avec variables dérivées et indicateurs temporels
  • Architecture LSTM-V personnalisée avec couches d'attention pour capturer les dépendances temporelles complexes
  • Optimisation bayésienne des hyperparamètres pour maximiser les performances
  • Validation croisée temporelle adaptée aux séries chronologiques
  • Système de prédiction multi-horizon (1h, 6h, 24h, 7 jours)

Innovations techniques

  • Intégration de données satellite pour améliorer les prédictions météorologiques
  • Modèle ensemble combinant LSTM-V, GRU et Transformer pour robustesse
  • Système d'adaptation en temps réel avec apprentissage incrémental
  • Interface de visualisation interactive pour l'analyse des prédictions
  • Module d'alertes pour maintenance prédictive des équipements

Stack technologique

Python PyTorch NumPy Pandas Scikit-learn Plotly Streamlit PostgreSQL Apache Airflow MLflow

Résultats obtenus

  • MAPE (Mean Absolute Percentage Error) de 8.5% pour prédictions à 24h
  • Amélioration de 23% par rapport aux modèles LSTM classiques
  • Réduction des coûts opérationnels estimée à 15% grâce à l'optimisation prédictive
  • Modèle déployé et testé sur installation pilote de 100kW
  • Publication des résultats dans un workshop sur l'IA pour l'énergie

Prédiction des prix automobiles – Marché marocain

Projet d'Intelligence Économique

2023-2024

Contexte et enjeux

Développement d'une solution complète d'analyse et de prédiction des prix automobiles sur le marché marocain. Le projet vise à fournir des estimations précises pour les particuliers, concessionnaires et assureurs en tenant compte des spécificités du marché local.

Pipeline ETL et Data Engineering

  • Web scraping automatisé de multiples plateformes (Avito, Moteur.ma, Automobile.ma) avec gestion des anti-bot
  • Pipeline ETL robuste avec validation de données, détection d'anomalies et nettoyage automatisé
  • Enrichissement des données avec APIs externes (historique des modèles, cotes officielles)
  • Data lake sur AWS S3 avec partitionnement optimisé pour les requêtes
  • Orchestration avec Apache Airflow pour automatisation complète
  • Monitoring de la qualité des données avec alertes automatiques

Modélisation et Machine Learning

  • Feature engineering avancé (âge du véhicule, dépréciation, indices économiques marocains)
  • Ensemble de modèles : Random Forest, XGBoost, LightGBM avec stacking
  • Gestion des variables catégorielles spécifiques au marché marocain
  • Validation croisée stratifiée par gamme de prix et région
  • Système de ré-entraînement automatique avec drift detection
  • Explainabilité des prédictions avec SHAP values

Interface et déploiement

  • API REST haute performance avec FastAPI et mise en cache Redis
  • Interface web responsive avec React et visualisations D3.js
  • Système de comparaison de véhicules similaires
  • Alertes email pour suivi des prix de véhicules favoris
  • Dashboard administrateur pour monitoring des modèles
  • Déploiement containerisé avec Docker et orchestration Kubernetes

Technologies implémentées

Python Scrapy Apache Airflow XGBoost LightGBM FastAPI React D3.js AWS S3 Redis PostgreSQL Docker Kubernetes

Impact et résultats

  • R² de 0.92 sur le dataset de test avec erreur moyenne de 8% sur le prix prédit
  • Base de données de +50,000 véhicules actualisée quotidiennement
  • API capable de traiter 1000+ requêtes/minute avec latence < 50ms
  • Adoption par 3 concessionnaires pour l'évaluation de reprises
  • Interface utilisée par 500+ particuliers pour estimation de véhicules
  • Économies estimées de 12% sur les négociations grâce aux estimations précises