Utilisation des modules struct et pickle pour la sérialisation

Découvrez la sérialisation en Python avec les modules 'struct' (pour les structures de données C) et 'pickle' (pour les objets Python). Apprenez à convertir des objets en séquences d'octets et vice-versa, pour le stockage ou la transmission.

Qu'est-ce que la sérialisation ? Définition et utilité

La sérialisation est le processus de conversion d'un objet (par exemple, une liste, un dictionnaire, une instance de classe) en une séquence d'octets (une chaîne binaire). Cette séquence d'octets peut ensuite être stockée dans un fichier, envoyée sur un réseau, ou transmise à un autre programme.

La désérialisation est le processus inverse : la conversion d'une séquence d'octets en un objet.

La sérialisation est utile pour :

Sauvegarder l'état d'un objet : Vous pouvez enregistrer un objet sur le disque, puis le recharger plus tard dans le même état.
Transmettre des objets entre programmes : Vous pouvez sérialiser un objet dans un programme, l'envoyer sur un réseau, et le désérialiser dans un autre programme (même s'il s'exécute sur une machine différente).
Stocker des données complexes dans des bases de données : Certaines bases de données permettent de stocker des objets sérialisés.
Echanger des données entre des programmes écrits dans des langages différents (en utilisant un format de sérialisation standardisé, comme JSON, XML, ou Protocol Buffers. Cependant, ce n'est pas une fonctionnalité native de `struct` et `pickle`).

Python propose plusieurs modules pour la sérialisation, dont les plus courants sont `struct` et `pickle`.

Le module struct : conversion entre Python et structures C

Le module `struct` permet de convertir des données Python (entiers, flottants, chaînes) en une représentation binaire (séquence d'octets) et inversement, en utilisant des formats inspirés des structures de données du langage C.

Il est principalement utilisé pour :

Interagir avec du code C (par exemple, appeler des fonctions C à partir de Python, ou lire/écrire des fichiers binaires générés par du code C).
Traiter des données binaires structurées (par exemple, des formats de fichiers binaires spécifiques).
Optimiser le stockage de données numériques (plus compact que le texte).

Les fonctions principales de `struct` sont :

`pack(format, v1, v2, ...)` : Convertit des valeurs Python en une chaîne d'octets selon un format donné.
`unpack(format, buffer)` : Convertit une chaîne d'octets en valeurs Python selon un format donné.
`calcsize(format)` : Retourne la taille (en octets) de la chaîne d'octets résultant de `pack` avec le format donné.

`format` est une chaîne de caractères qui spécifie le format des données (type, taille, ordre des octets). Par exemple :

`'i'` : entier signé (4 octets)
`'f'` : flottant simple précision (4 octets)
`'d'` : flottant double précision (8 octets)
`'h'` : entier court signé (2 octets)
`'H'` : entier court non signé (2 octets)
`'s'` : chaîne de caractères (précédée de sa taille)
`'>'` : big-endian (ordre des octets)
`'<'` : little-endian (ordre des octets)
Et bien d'autres... (voir la documentation de `struct` pour la liste complète)

Exemples d'utilisation de struct.pack() et struct.unpack()

Conversion d'un entier et d'un flottant en une chaîne d'octets (big-endian) :

import struct

entier = 10
flottant = 3.14

# '>i' : entier signé, 4 octets, big-endian
# 'f' : float, 4 octets.
octets = struct.pack('>if', entier, flottant)  # 'i' : entier, 'f' : flottant
print(octets)  # Affiche quelque chose comme b'\x00\x00\x00\n@I\x0f\xdb'

#Opération inverse:
taille = struct.calcsize('>if')
print(taille) #8 octets

#On décode:
resultat = struct.unpack('>if', octets)
print(resultat) #(10, 3.140000104904175)

Conversion d'une chaîne d'octets en un tuple d'entiers (little-endian) :

import struct

octets = b'\x01\x00\x02\x00\x03\x00'

# '<' : little-endian
# 'h' : entier court signé (2 octets)
valeurs = struct.unpack('

Il est crucial de bien comprendre les chaînes de format pour utiliser `struct` correctement. Une erreur dans le format peut entraîner des résultats incorrects ou des erreurs.

`Le module pickle : sérialisation d'objets Python`

Le module `pickle` permet de sérialiser et de désérialiser des *objets Python arbitraires*. Il est beaucoup plus puissant et flexible que `struct`, car il peut gérer des objets complexes (listes, dictionnaires, instances de classes, etc.) sans que vous ayez à spécifier un format binaire détaillé.

Les fonctions principales de `pickle` sont :

`dump(obj, file)` : Sérialise l'objet `obj` et l'écrit dans le fichier `file` (qui doit être ouvert en mode écriture binaire).
`dumps(obj)` : Sérialise l'objet `obj` et retourne la chaîne d'octets résultante.
`load(file)` : Lit un objet sérialisé depuis le fichier `file` (qui doit être ouvert en mode lecture binaire) et le retourne.
`loads(bytes_object)` : Lit un objet sérialisé depuis un objet `bytes` et le retourne.

Exemple :

import pickle

donnees = {
    'nom': 'Alice',
    'age': 30,
    'scores': [85, 92, 78]
}

# Sérialisation et écriture dans un fichier
with open('donnees.pickle', 'wb') as fichier:
    pickle.dump(donnees, fichier)

# Lecture et désérialisation
with open('donnees.pickle', 'rb') as fichier:
    donnees_chargees = pickle.load(fichier)

print(donnees_chargees)  # Affiche le dictionnaire original

Dans cet exemple, un dictionnaire Python est sérialisé avec `pickle.dump` et écrit dans un fichier. Le fichier est ensuite lu et le dictionnaire est reconstitué avec `pickle.load`.

`Limitations et avertissements concernant pickle`

Bien que `pickle` soit très pratique, il a des limitations et des inconvénients importants :

Sécurité : Ne désérialisez *jamais* des données provenant d'une source non fiable avec `pickle`. Il est possible de construire des données pickle malveillantes qui exécuteront du code arbitraire lors de la désérialisation. `pickle` n'est *pas* sécurisé.
Compatibilité : Le format de `pickle` est spécifique à Python. Vous ne pouvez pas utiliser `pickle` pour échanger des données avec des programmes écrits dans d'autres langages. De plus, le format de `pickle` peut changer entre les versions de Python, ce qui peut poser des problèmes de compatibilité à long terme.
Lisibilité : Les données sérialisées avec `pickle` ne sont pas lisibles par un humain.
Types supportés : `pickle` ne peut pas sérialiser tous les types d'objets Python (par exemple, les objets qui représentent des connexions réseau ou des fichiers ouverts ne sont généralement pas sérialisables).

Pour ces raisons, il est souvent préférable d'utiliser d'autres formats de sérialisation, comme JSON (pour les données textuelles) ou des bibliothèques comme `protobuf` (pour les données binaires), lorsque la sécurité, la portabilité ou la lisibilité sont importantes.

`pickle` reste utile pour des usages spécifiques, comme la sauvegarde temporaire de l'état d'un objet Python, ou la communication entre des programmes Python de confiance.

`Comparaison rapide : struct vs. pickle`

Caractéristique	struct	pickle
Objectif	Conversion entre Python et structures C (format binaire fixe)	Sérialisation d'objets Python arbitraires
Types de données	Types de base (entiers, flottants, chaînes)	Presque tous les objets Python
Format	Défini par une chaîne de format	Propre à Python (et potentiellement non compatible entre les versions)
Sécurité	Sûr (si le format est correct)	Non sûr avec des données non fiables
Lisibilité	Non lisible par un humain	Non lisible par un humain
Cas d'utilisation typiques	Interaction avec du code C, traitement de fichiers binaires structurés	Sauvegarde d'objets Python, communication inter-processus (entre processus Python de confiance)

◄ Précédent Suivant ►

くTable des matières
    Introduction et fondamentauxPourquoi Python ?La popularité et l'omniprésence de Python
Les domaines d'application de Python (Web, Data Science, IA...)
La philosophie de Python : lisibilité et simplicité
Communauté et ressources : apprendre et se faire aider
Installation et configuration de l'environnementTélécharger et installer Python (différentes distributions)
Choisir un éditeur de code ou un IDE (VS Code, PyCharm, Jupyter...)
Configuration de l'environnement virtuel (venv, conda)
Utilisation du gestionnaire de paquets pip
Premiers pas avec l'interpréteur Python
Variables, types de données et opérateursLes variables : nommer et stocker des données
Types de données de base : nombres (int, float), chaînes (str), booléens (bool)
Opérateurs arithmétiques, de comparaison et logiques
Conversion de types (casting)
Les commentaires : documenter son code
Structures de contrôle : conditions et bouclesInstructions conditionnelles : if, elif, else
Boucles : for et while
Instructions break et continue : contrôler le flux des boucles
Compréhensions de listes (list comprehensions) : création concise de listes
Structures de données : listes, tuples, dictionnaires et ensemblesListes : séquences ordonnées et modifiables
Tuples : séquences ordonnées et immuables
Dictionnaires : paires clé-valeur
Ensembles (sets) : collections non ordonnées d'éléments uniques
Manipulation et méthodes courantes de chaque structure
Fonctions, modules et packagesDéfinir et appeler des fonctionsPourquoi utiliser des fonctions : réutilisabilité et organisation
Syntaxe de définition d'une fonction (def, paramètres, return)
Arguments positionnels et arguments nommés (keyword arguments)
Valeurs par défaut des arguments
Documentation des fonctions (docstrings)
Portée des variables (scope) et espace de nomsVariables locales et variables globales
Les mots-clés global et nonlocal
Comprendre la règle LEGB (Local, Enclosing, Global, Built-in)
Fonctions avancéesFonctions lambda : fonctions anonymes
Fonctions récursives
Fonctions d'ordre supérieur (map, filter, reduce)
Décorateurs : modifier le comportement des fonctions
Itérateurs et générateursComprendre le protocole d'itération
Créer des itérateurs personnalisés
Utiliser le mot-clé yield pour créer des générateurs
Expressions génératrices
Avantages des générateurs en termes de performance et de mémoire
Modules et packages : organiser son codeImporter des modules (import, from ... import ...)
Créer ses propres modules
Créer et organiser des packages
Le fichier __init__.py
Modules de la bibliothèque standard (math, os, sys, datetime...)
Programmation orientée objet (POO)Concepts fondamentaux de la POOObjets et classes : le modèle de la POO
Attributs et méthodes
Encapsulation : protéger les données
Abstraction : masquer la complexité
Définir des classes et créer des objetsSyntaxe de définition d'une classe (class)
Le constructeur __init__
Méthodes spéciales (dunder methods : __str__, __repr__, ...)
Variables de classe vs. variables d'instance
Dataclasses : simplifier la création de classes de donnéesLe décorateur @dataclass
Génération automatique de méthodes (__init__, __repr__, etc.)
Comparaison avec les classes traditionnelles
Héritage et polymorphismeHéritage : créer des classes filles à partir de classes mères
Surcharge de méthodes (method overriding)
Polymorphisme : utiliser des objets de différentes classes de manière interchangeable
Héritage multiple et ordre de résolution des méthodes (MRO)
Classes abstraites et interfaces (abc module)
Propriétés et méthodes de classe/statiquesPropriétés (@property) : contrôler l'accès aux attributs
Méthodes de classe (@classmethod) : méthodes liées à la classe
Méthodes statiques (@staticmethod) : fonctions utilitaires
Gestion des exceptions et des erreursTypes d'erreurs courantes en PythonErreurs de syntaxe (SyntaxError)
Exceptions (TypeError, ValueError, IndexError, KeyError...)
Erreurs logiques : les plus difficiles à débusquer
Gérer les exceptions avec try...except...else...finallyLe bloc try : exécuter du code potentiellement problématique
Le bloc except : capturer et traiter les exceptions
Capturer plusieurs types d'exceptions
Le bloc else : exécuter du code si aucune exception n'est levée
Le bloc finally : exécuter du code dans tous les cas
Gestionnaires de contexte et l'instruction `with` (approfondissement)
Lever des exceptions avec raiseSignaler des erreurs spécifiques dans son propre code
Créer ses propres types d'exceptions
Bonnes pratiques de gestion des exceptionsEtre spécifique dans la capture des exceptions
Ne pas masquer les erreurs inutilement
Utiliser des assertions (assert) pour valider les préconditions
Manipulation de fichiers et entrées/sortiesOuvrir, lire et écrire des fichiers texteLa fonction open() et les modes d'ouverture ('r', 'w', 'a', 'x', 'b', 't')
Lire un fichier ligne par ligne ou en entier
Ecrire dans un fichier
Fermer un fichier (close()) ou utiliser with
Gérer les erreurs d'ouverture/fermeture de fichier
Manipulation de fichiers binairesDifférences entre fichiers texte et binaires
Lecture et écriture d'octets
Utilisation des modules struct et pickle pour la sérialisation
Interagir avec le système de fichiers (module os)Lister les fichiers et répertoires
Créer, renommer et supprimer des fichiers et répertoires
Obtenir des informations sur les fichiers (taille, date de modification...)
Parcourir récursivement une arborescence (os.walk)
Travailler avec des chemins de fichiers (module os.path)Construire des chemins de manière portable
Vérifier l'existence d'un fichier ou d'un répertoire
Obtenir le nom de base, le répertoire parent, etc.
Entrées/sorties standard (stdin, stdout, stderr)Lire les données entrées par l'utilisateur (input())
Afficher des données à l'écran (print())
Redirection des entrées/sorties
Concepts avancés et outils de l'écosystèmeExpressions régulières (module re)Introduction aux expressions régulières
Syntaxe des expressions régulières (caractères spéciaux, quantificateurs...)
Fonctions du module re (search, match, findall, sub...)
Utilisations courantes : validation de données, extraction d'informations...
Programmation concurrente et parallèleIntroduction au multithreading (module threading)
Le Global Interpreter Lock (GIL) et ses limitations
Introduction au multiprocessing (module multiprocessing)
Communication entre processus (Queues, Pipes)
Programmation asynchrone avec asyncio
Tests unitaires et débogagePourquoi écrire des tests unitaires ?
Le module unittest
Ecrire des cas de test (assertions)
Mocks et patchs (unittest.mock)
Exécuter les tests
Utilisation de pytest (framework de test plus avancé)
Débogage avec pdb (Python Debugger)
Utilisation des outils de débogage des IDE
Gestion de la mémoire et performanceLe ramasse-miettes (garbage collector) de Python
Optimisation du code : profiling et bonnes pratiques
Utilisation de __slots__ pour optimiser la mémoire
Utilisation de Cython ou de Numba pour améliorer les performances
Typage statique avec mypyIntroduction aux annotations de type
Utilisation de mypy pour vérifier les types
Avantages et limites du typage statique en Python
Packaging et distribution de code PythonStructure d'un projet Python (setup.py, requirements.txt)
Création de packages distribuables (wheels, source distributions)
Publication sur PyPI (Python Package Index)
Introduction à des bibliothèques populairesNumPy : calcul numérique
Pandas : analyse de données
Matplotlib et Seaborn : visualisation de données
Scikit-learn : apprentissage automatique (machine learning)
Requests : requêtes HTTP
Flask et Django : développement web
Bonnes pratiques et conventions de styleLe PEP 8 : guide de style pour le code PythonIndentation, espacement et longueur des lignes
Conventions de nommage (variables, fonctions, classes...)
Organisation du code et commentaires
Ecrire du code PythoniqueUtiliser les idiomes de Python (list comprehensions, itérateurs, générateurs...)
Principes DRY (Don't Repeat Yourself) et KISS (Keep It Simple, Stupid)
Utilisation de linters et de formateurs de codeFlake8, Pylint : analyse statique du code
Black, autopep8 : formatage automatique du code
Projets pratiques (optionnel - pour mettre en pratique)Projet 1 : un script d'automatisation de tâchesDéfinition des objectifs et des fonctionnalités
Conception et développement du script
Tests et amélioration du code
Projet 2 : une application web simple avec Flask ou DjangoChoix du framework (Flask ou Django)
Développement de l'application (modèles, vues, templates)
Déploiement de l'application
Projet 3 : analyse de données avec Pandas et visualisation avec Matplotlib/SeabornChoix et importation des données
Nettoyage et préparation des données
Analyse exploratoire et visualisation
Interprétation des résultats