Souhail Lahlali

Data Scientist & AI Engineer

Spécialisé dans le développement de solutions d'intelligence artificielle et l'analyse de données massives. Expert en implémentation de systèmes RAG, pipelines ETL, et architectures cloud pour des solutions data-driven innovantes.

✉ souhail.lahlali2020@gmail.com ☎ +212 767 237 049 ⌘ Safi, Maroc ⚡ LinkedIn

Expérience Professionnelle

Freelance : Développement de solutions Data et IA

BAYWOOD, Australie (Remote)

Février 2025 - Août 2025

Développement de pipelines ETL automatisés pour l'intégration de données dans le cloud AWS
Exploitation des données pour alimenter HubSpot automatiquement
Mise en place d'un système RAG avec LLM pour analyser des PDF complexes

→ Voir les détails complets

Stage : Système de traduction vocale basé sur Transformers et CNN

ISSAC MCKENZIE & PARTNERS, Maroc

Avril 2024 - Juin 2024

Reconnaissance vocale automatique via CNN et coefficients MFCC
Implémentation d'un module de traduction automatique EN→FR basé sur BERT

→ Voir les détails complets

Stage : Développement backend et IA – Projet LMS

DevSoft, Maroc

Avril 2023 - Juin 2023

Participation au développement d'une plateforme LMS avec intégration d'un système de recommandation basé sur l'IA

→ Voir les détails complets

Formation

Master en Sciences des Données et Intelligence Artificielle

École Nationale des Sciences Appliquées (ENSA), El Jadida

2024 - Présent

Licence Pro. en Infrastructures, Traitement et Analyse de Données Massives

École Supérieure de Technologie, Fkih Ben Salah

2023 - 2024

DUT en Informatique Décisionnelle et Sciences des Données

École Supérieure de Technologie, Essaouira

2021 - 2023

Compétences Techniques

Langages

Python

Java

JavaScript

SQL

IA & NLP

Large Language Models

RAG Architecture

LangChain

Transformers

OpenAI API

Frameworks

FastAPI

Flask

React

PyTorch

TensorFlow

Apache Spark

Infrastructure

Docker

Git

Apache Kafka

Linux

Amazon Web Services

Projets Réalisés

Plateforme de modération de contenu en temps réel

Architecture complète de modération automatisée utilisant des modèles de deep learning pour la surveillance de contenu multimédia en temps réel.

Intégration BERT pour modération de texte et CLIP/OpenAI pour classification d'images
Architecture distribuée basée sur Apache Kafka et Spark
Système de monitoring avec TimescaleDB

Prévision de l'énergie solaire avec LSTM-V

Modèle de prédiction énergétique utilisant des réseaux de neurones récurrents pour l'optimisation de la production solaire photovoltaïque.

Pipeline de prétraitement de données météorologiques et énergétiques
Architecture LSTM-V optimisée en PyTorch
Système de prédiction de séries temporelles

Prédiction des prix automobiles – Marché marocain

Solution d'intelligence économique avec pipeline ETL complet et modèles de machine learning pour l'analyse du marché automobile marocain.

Pipeline ETL automatisé avec collecte, transformation et stockage cloud
Modèles de régression avancés adaptés au contexte marocain
Interface de prédiction en temps réel avec API REST

Certifications

AWS Academy Graduate

Fondations du Cloud Computing

AWS Academy Graduate

Sécurité Cloud Architecture

AWS Academy Graduate

Opérations d'ingénierie Cloud

Freelance : Développement de solutions Data et IA

BAYWOOD, Australie (Remote)

Février 2025 - Août 2025

Contexte du projet

Mission freelance pour BAYWOOD, une entreprise australienne spécialisée dans l'analyse de données immobilières. Le projet visait à moderniser leur infrastructure data et à implémenter des solutions d'IA pour automatiser l'analyse de documents complexes.

Réalisations principales

Développement de pipelines ETL robustes pour l'intégration automatisée de données multisources dans AWS S3 et RDS
Mise en place d'un système d'alimentation automatique de HubSpot via API pour synchroniser les données clients et prospects
Implémentation d'un système RAG (Retrieval-Augmented Generation) avec LLM pour l'analyse intelligente de PDF complexes (rapports immobiliers, contrats, études de marché)
Optimisation des performances avec mise en cache Redis et traitement asynchrone
Déploiement sur infrastructure AWS avec monitoring CloudWatch

Technologies utilisées

Python FastAPI AWS S3 AWS RDS LangChain OpenAI GPT HubSpot API Redis Docker PostgreSQL

Impacts et résultats

Réduction de 70% du temps de traitement des documents PDF grâce au système RAG
Automatisation complète de la synchronisation des données vers HubSpot (économie de 15h/semaine)
Amélioration de la qualité des données avec validation automatisée et nettoyage intelligent
Architecture scalable supportant 10x plus de volume de données

Système de traduction vocale basé sur Transformers et CNN

ISSAC MCKENZIE & PARTNERS, Maroc

Avril 2024 - Juin 2024

Contexte du projet

Stage de fin d'études portant sur le développement d'un système de traduction vocale en temps réel pour faciliter les communications internationales de l'entreprise. Le projet combinait reconnaissance vocale automatique et traduction neuronale.

Réalisations principales

Développement d'un modèle de reconnaissance vocale automatique utilisant des CNN avec extraction de caractéristiques MFCC
Implémentation d'un pipeline de prétraitement audio avec normalisation et augmentation de données
Création d'un module de traduction automatique anglais-français basé sur l'architecture BERT
Développement d'une interface utilisateur en temps réel pour la démonstration
Optimisation des modèles pour réduire la latence à moins de 2 secondes

Technologies utilisées

Python PyTorch Transformers BERT Librosa SpeechRecognition Flask JavaScript WebRTC

Résultats obtenus

Précision de reconnaissance vocale de 92% sur corpus de test
Score BLEU de 85% pour la traduction automatique
Système fonctionnel en temps réel avec interface web interactive
Documentation technique complète et présentation aux équipes

Développement backend et IA – Projet LMS

DevSoft, Maroc

Avril 2023 - Juin 2023

Contexte du projet

Participation au développement d'une plateforme LMS (Learning Management System) innovante intégrant des fonctionnalités d'intelligence artificielle pour personnaliser l'expérience d'apprentissage des utilisateurs.

Contributions principales

Développement d'APIs REST pour la gestion des cours, utilisateurs et contenus pédagogiques
Implémentation d'un système de recommandation basé sur le filtrage collaboratif et l'analyse des comportements d'apprentissage
Création d'algorithmes de machine learning pour adapter le parcours pédagogique selon les performances
Intégration de fonctionnalités de tracking et d'analytics pour mesurer l'engagement des apprenants
Participation aux phases de test et d'optimisation des performances

Technologies utilisées

Java Spring Boot MySQL Python Scikit-learn Pandas RESTful API Git

Apprentissages clés

Maîtrise du développement backend avec Spring Boot et gestion de bases de données
Première expérience en système de recommandation et algorithmes ML appliqués
Collaboration en équipe agile et utilisation d'outils de versioning
Compréhension des enjeux UX/UI dans les plateformes éducatives

Plateforme de modération de contenu en temps réel

Projet Personnel - Architecture Distribuée

2024

Vue d'ensemble

Développement d'une plateforme complète de modération automatisée capable de traiter en temps réel différents types de contenu (texte, images, vidéos) en utilisant des modèles de deep learning avancés et une architecture distribuée scalable.

Architecture technique

Architecture microservices avec Apache Kafka pour le streaming de données
Traitement distribué avec Apache Spark pour gérer des volumes importants
Intégration de modèles BERT fine-tunés pour la détection de contenu toxique dans le texte
Utilisation de CLIP et modèles OpenAI pour l'analyse et classification d'images
Base de données temporelle TimescaleDB pour le monitoring et l'historique
Interface de gestion en temps réel avec dashboard React

Fonctionnalités clés

Détection multi-langue de contenu inapproprié avec scores de confiance
Classification automatique d'images (contenu violent, explicite, spam)
Système de règles personnalisables selon le contexte d'application
API REST pour intégration facile dans des plateformes existantes
Tableaux de bord analytiques avec métriques en temps réel
Système d'alertes automatiques pour contenus critiques

Technologies utilisées

Python Apache Kafka Apache Spark BERT CLIP OpenAI API TimescaleDB React FastAPI Docker Redis

Performances et résultats

Capable de traiter 10,000+ contenus par minute avec latence < 100ms
Précision de 94% pour la détection de contenu toxique en français et anglais
Réduction de 85% du temps de modération manuelle
Architecture scalable supportant la montée en charge horizontale

Prévision de l'énergie solaire avec LSTM-V

Projet de Recherche - Énergies Renouvelables

2024

Objectif du projet

Développement d'un système de prédiction avancé pour optimiser la production d'énergie solaire photovoltaïque en utilisant des réseaux de neurones récurrents LSTM-V (LSTM avec couches de variation). Le projet vise à améliorer l'efficacité énergétique et la planification de la production.

Méthodologie et implémentation

Collecte et prétraitement de données météorologiques multi-sources (température, humidité, irradiance, couverture nuageuse)
Développement d'un pipeline de feature engineering avec variables dérivées et indicateurs temporels
Architecture LSTM-V personnalisée avec couches d'attention pour capturer les dépendances temporelles complexes
Optimisation bayésienne des hyperparamètres pour maximiser les performances
Validation croisée temporelle adaptée aux séries chronologiques
Système de prédiction multi-horizon (1h, 6h, 24h, 7 jours)

Innovations techniques

Intégration de données satellite pour améliorer les prédictions météorologiques
Modèle ensemble combinant LSTM-V, GRU et Transformer pour robustesse
Système d'adaptation en temps réel avec apprentissage incrémental
Interface de visualisation interactive pour l'analyse des prédictions
Module d'alertes pour maintenance prédictive des équipements

Stack technologique

Python PyTorch NumPy Pandas Scikit-learn Plotly Streamlit PostgreSQL Apache Airflow MLflow

Résultats obtenus

MAPE (Mean Absolute Percentage Error) de 8.5% pour prédictions à 24h
Amélioration de 23% par rapport aux modèles LSTM classiques
Réduction des coûts opérationnels estimée à 15% grâce à l'optimisation prédictive
Modèle déployé et testé sur installation pilote de 100kW
Publication des résultats dans un workshop sur l'IA pour l'énergie

Prédiction des prix automobiles – Marché marocain

Projet d'Intelligence Économique

2023-2024

Contexte et enjeux

Développement d'une solution complète d'analyse et de prédiction des prix automobiles sur le marché marocain. Le projet vise à fournir des estimations précises pour les particuliers, concessionnaires et assureurs en tenant compte des spécificités du marché local.

Pipeline ETL et Data Engineering

Web scraping automatisé de multiples plateformes (Avito, Moteur.ma, Automobile.ma) avec gestion des anti-bot
Pipeline ETL robuste avec validation de données, détection d'anomalies et nettoyage automatisé
Enrichissement des données avec APIs externes (historique des modèles, cotes officielles)
Data lake sur AWS S3 avec partitionnement optimisé pour les requêtes
Orchestration avec Apache Airflow pour automatisation complète
Monitoring de la qualité des données avec alertes automatiques

Modélisation et Machine Learning

Feature engineering avancé (âge du véhicule, dépréciation, indices économiques marocains)
Ensemble de modèles : Random Forest, XGBoost, LightGBM avec stacking
Gestion des variables catégorielles spécifiques au marché marocain
Validation croisée stratifiée par gamme de prix et région
Système de ré-entraînement automatique avec drift detection
Explainabilité des prédictions avec SHAP values

Interface et déploiement

API REST haute performance avec FastAPI et mise en cache Redis
Interface web responsive avec React et visualisations D3.js
Système de comparaison de véhicules similaires
Alertes email pour suivi des prix de véhicules favoris
Dashboard administrateur pour monitoring des modèles
Déploiement containerisé avec Docker et orchestration Kubernetes

Technologies implémentées

Python Scrapy Apache Airflow XGBoost LightGBM FastAPI React D3.js AWS S3 Redis PostgreSQL Docker Kubernetes

Impact et résultats

R² de 0.92 sur le dataset de test avec erreur moyenne de 8% sur le prix prédit
Base de données de +50,000 véhicules actualisée quotidiennement
API capable de traiter 1000+ requêtes/minute avec latence < 50ms
Adoption par 3 concessionnaires pour l'évaluation de reprises
Interface utilisée par 500+ particuliers pour estimation de véhicules
Économies estimées de 12% sur les négociations grâce aux estimations précises