Spaces:

Rulga
/

status-law-gbot

Running

Rulga commited on Apr 3

Commit

c8bbed1

1 Parent(s): c4364db

Refactor paths in configuration and .gitignore for chat history and model management

Files changed (4) hide show

.gitignore CHANGED Viewed

@@ -4,15 +4,14 @@ vector_store/
 *.faiss
 *.pkl
-# Chat history
 status-law-knowledge-base/chat_history/
 chat_history/
 *.json
-# Training and model files
-models/fine_tuned/
-models/registry.json
-training_output/
 *.bin
 *.pt
 *.pth

 *.faiss
 *.pkl
+# Chat history and models
 status-law-knowledge-base/chat_history/
 chat_history/
+chat_history/fine_tuned_models/
+chat_history/models_registry.json
 *.json
+# Training files
 *.bin
 *.pt
 *.pth

config/settings.py CHANGED Viewed

@@ -22,15 +22,16 @@ API_CONFIG = {
 DATASET_ID = "Rulga/status-law-knowledge-base"
 CHAT_HISTORY_PATH = "chat_history"
 VECTOR_STORE_PATH = "vector_store"
 # Paths configuration
 MODEL_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "models")
-TRAINING_OUTPUT_DIR = os.path.join(MODEL_PATH, "fine_tuned")
 # Create necessary directories if they don't exist
 os.makedirs(MODEL_PATH, exist_ok=True)
 os.makedirs(TRAINING_OUTPUT_DIR, exist_ok=True)
-MODELS_REGISTRY_PATH = os.path.join(MODEL_PATH, "registry.json")
 # Models configuration with detailed information
 MODELS = {
@@ -222,4 +223,4 @@ ACTIVE_MODEL = MODELS[DEFAULT_MODEL]
 EMBEDDING_MODEL = "intfloat/multilingual-e5-large"
 # Request settings
-USER_AGENT = "Status-Law-Assistant/1.0"

 DATASET_ID = "Rulga/status-law-knowledge-base"
 CHAT_HISTORY_PATH = "chat_history"
 VECTOR_STORE_PATH = "vector_store"
+FINE_TUNED_PATH = "fine_tuned_models"  # новый путь
 # Paths configuration
 MODEL_PATH = os.path.join(os.path.dirname(os.path.dirname(__file__)), "models")
+TRAINING_OUTPUT_DIR = os.path.join(CHAT_HISTORY_PATH, FINE_TUNED_PATH)  # изменённый путь
 # Create necessary directories if they don't exist
 os.makedirs(MODEL_PATH, exist_ok=True)
 os.makedirs(TRAINING_OUTPUT_DIR, exist_ok=True)
+MODELS_REGISTRY_PATH = os.path.join(CHAT_HISTORY_PATH, "models_registry.json")  # перемещаем registry.json
 # Models configuration with detailed information
 MODELS = {
 EMBEDDING_MODEL = "intfloat/multilingual-e5-large"
 # Request settings
+USER_AGENT = "Status-Law-Assistant/1.0"

src/training/fine_tuner.py CHANGED Viewed

@@ -38,6 +38,7 @@ class FineTuner:
         self.model = None
         self.chat_analyzer = ChatAnalyzer()
         os.makedirs(self.output_dir, exist_ok=True)
     def prepare_training_data(self, output_file: Optional[str] = None) -> str:

         self.model = None
         self.chat_analyzer = ChatAnalyzer()
+        # Создаём директорию для сохранения моделей в датасете
         os.makedirs(self.output_dir, exist_ok=True)
     def prepare_training_data(self, output_file: Optional[str] = None) -> str:

src/training/model_manager.py CHANGED Viewed

@@ -23,10 +23,6 @@ class ModelManager:
         self.registry_path = MODELS_REGISTRY_PATH
         os.makedirs(os.path.dirname(self.registry_path), exist_ok=True)
-        # Create empty registry if it doesn't exist
-        if not os.path.exists(self.registry_path):
-            self._save_registry([])
     def _load_registry(self) -> List[Dict[str, Any]]:
         """Load models registry"""
         try:

         self.registry_path = MODELS_REGISTRY_PATH
         os.makedirs(os.path.dirname(self.registry_path), exist_ok=True)
     def _load_registry(self) -> List[Dict[str, Any]]:
         """Load models registry"""
         try: