inference-api-g1

Sleeping

App Files Files Community

alexfremont commited on 5 days ago

Commit

8a8fe7c

1 Parent(s): 8580232

Improve model unloading with explicit GPU memory cleanup and CUDA cache clearing

Browse files

Files changed (1) hide show

api/management.py +28 -2

api/management.py CHANGED Viewed

@@ -100,12 +100,38 @@ async def delete_single_model(model_db_id: Any):
         # Récupérer le nom du fichier pour le logging avant de supprimer
         filename = model_pipelines[model_db_id]['metadata'].get('hf_filename', 'unknown')
-        # Supprimer le modèle de la mémoire
         del model_pipelines[model_db_id]
-        # Force le garbage collector pour libérer la mémoire
         import gc
         gc.collect()
         logger.info(f"Successfully unloaded model ID {model_db_id} ({filename}) from memory")
         return {"message": f"Model {model_db_id} successfully unloaded from memory"}

         # Récupérer le nom du fichier pour le logging avant de supprimer
         filename = model_pipelines[model_db_id]['metadata'].get('hf_filename', 'unknown')
+        # Récupérer une référence au modèle avant de le supprimer
+        model_data = model_pipelines[model_db_id]
+        pipeline = model_data.get('pipeline')
+        # Détacher explicitement le modèle du GPU si applicable
+        if hasattr(pipeline, 'to') and hasattr(pipeline, 'cpu'):
+            try:
+                pipeline.to('cpu')
+                logger.info(f"Modèle {model_db_id} détaché du GPU")
+            except Exception as e:
+                logger.warning(f"Impossible de détacher le modèle du GPU: {e}")
+        # Supprimer le modèle du dictionnaire
         del model_pipelines[model_db_id]
+        # Supprimer explicitement les références
+        del model_data
+        del pipeline
+        # Vider le cache PyTorch si disponible
+        try:
+            import torch
+            if torch.cuda.is_available():
+                torch.cuda.empty_cache()
+                logger.info("Cache CUDA vidé")
+        except (ImportError, AttributeError) as e:
+            logger.debug(f"Impossible de vider le cache CUDA: {e}")
+        # Force le garbage collector plusieurs fois pour libérer la mémoire
         import gc
         gc.collect()
+        gc.collect()  # Parfois un second appel aide à libérer plus de mémoire
         logger.info(f"Successfully unloaded model ID {model_db_id} ({filename}) from memory")
         return {"message": f"Model {model_db_id} successfully unloaded from memory"}