Update README.md

b9baa98 verified 3 months ago

28.1 kB

	---
	language:
	- ru
	license: mit
	datasets:
	- misterkirill/ru-wikipedia
	tags:
	- pytorch
	- neural-memory
	- titan
	- text-generation
	---

	# Neural Memory Model for Russian Text Generation

	This model implements a neural memory architecture for Russian text generation using PyTorch and the Titans library. The architecture is based on the implementation from [lucidrains/titans-pytorch](https://github.com/lucidrains/titans-pytorch).

	## Model Description

	The model uses a Transformer architecture enhanced with neural memory capabilities from the Titans library for improved context handling and long-range dependencies in text generation.

	### Architecture Source

	The core architecture is derived from the [Titans PyTorch implementation](https://github.com/lucidrains/titans-pytorch) by Phil Wang ([@lucidrains](https://github.com/lucidrains)). The original implementation provides the following key components that we utilize:
	- Memory-enhanced Transformer architecture
	- Flexible attention mechanisms
	- Neural memory layers

	### Key Features

	- Neural memory architecture with customizable depth and size
	- Sliding window attention mechanism
	- Gradient accumulation for stable training
	- CUDA-optimized implementation

	## Requirements

	### Environment

	- Python: 3.9.21
	- CUDA: 11.8
	- GPU with at least 16GB VRAM recommended

	### Key Dependencies
	```
	Python version: 3.9.21
	CUDA version: 11.8

	Requirements:
	adam-atan2-pytorch==0.1.18
	datasets==3.2.0
	nvidia-cuda-cupti-cu12==12.4.127
	nvidia-cuda-nvrtc-cu12==12.4.127
	nvidia-cuda-runtime-cu12==12.4.127
	nvidia-cudnn-cu12==9.1.0.70
	nvidia-cufft-cu12==11.2.1.3
	nvidia-curand-cu12==10.3.5.147
	nvidia-cusolver-cu12==11.6.1.9
	nvidia-cusparselt-cu12==0.6.2
	nvidia-nccl-cu12==2.21.5
	nvidia-nvtx-cu12==12.4.127
	titans-pytorch==0.3.25
	torchaudio==2.5.1
	torchvision==0.20.1
	transformers==4.48.3
	triton==3.1.0
	wandb==0.19.6
	```

	# Example
	The repository includes complete training and inference code. Key components:


	- Data preprocessing (WikiDatasetPreprocessor)
	- Custom dataset implementation (WikiTextDataset)
	- Training loop with gradient accumulation
	- Validation and checkpointing

	## Example Code
	```python
	import os
	import warnings
	from pathlib import Path
	from typing import List, Dict, Optional, Tuple

	import torch
	from torch import nn
	from torch.utils.data import Dataset, DataLoader
	from transformers import (
	GPT2TokenizerFast,
	PreTrainedModel,
	PreTrainedTokenizer,
	AutoConfig,
	AutoModelForCausalLM,
	AutoTokenizer,
	PretrainedConfig,
	GenerationMixin,
	pipeline
	)
	from transformers.modeling_outputs import CausalLMOutputWithCrossAttentions
	from huggingface_hub import HfApi, login
	from datasets import load_dataset
	from tqdm import tqdm
	from adam_atan2_pytorch import AdoptAtan2

	from titans_pytorch import (
	MemoryAsContextTransformer,
	MemoryMLP,
	MemoryAttention
	)

	# Отключаем предупреждения
	warnings.filterwarnings("ignore", category=UserWarning)
	torch._dynamo.config.suppress_errors = True
	torch._dynamo.config.cache_size_limit = 100000
	torch._dynamo.config.disable = True

	# Настройки CUDA
	os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:32'

	# Константы
	repo_id = 'Grpp/memory-transformer-ru'
	NUM_BATCHES = int(1e5)
	BATCH_SIZE = 4
	GRADIENT_ACCUMULATE_EVERY = 4
	LEARNING_RATE = 2e-4
	VALIDATE_EVERY = 100
	GENERATE_EVERY = 500
	PRIME_LENGTH = 100
	GENERATE_LENGTH = 512
	SHOULD_GENERATE = True
	SEQ_LEN = 512

	# Константы для нейронной памяти
	NEURAL_MEMORY_DEPTH = 2
	NUM_PERSIST_MEM = 4
	NUM_LONGTERM_MEM = 4
	NEURAL_MEM_LAYERS = (2, 4, 6)
	NEURAL_MEM_GATE_ATTN_OUTPUT = False
	NEURAL_MEM_MOMENTUM = True
	NEURAL_MEM_MOMENTUM_ORDER = 1
	NEURAL_MEM_QK_NORM = True
	NEURAL_MEM_MAX_LR = 1e-1
	USE_MEM_ATTENTION_MODEL = False
	WINDOW_SIZE = 32
	NEURAL_MEM_SEGMENT_LEN = 4
	NEURAL_MEM_BATCH_SIZE = 128
	SLIDING_WINDOWS = True
	STORE_ATTN_POOL_CHUNKS = True
	MEMORY_MODEL_PER_LAYER_LEARNED_LR = True
	NEURAL_MEM_WEIGHT_RESIDUAL = True


	class MemoryTransformerConfig(PretrainedConfig):
	model_type = "memory_transformer"

	def __init__(
	self,
	vocab_size=50257,
	dim=384,
	depth=8,
	segment_len=32,
	num_persist_mem=4,
	num_longterm_mem=4,
	neural_mem_layers=(2, 4, 6),
	pad_token_id=0,
	bos_token_id=1,
	eos_token_id=2,
	**kwargs
	):
	self.vocab_size = vocab_size
	self.dim = dim
	self.depth = depth
	self.segment_len = segment_len
	self.num_persist_mem = num_persist_mem
	self.num_longterm_mem = num_longterm_mem
	self.neural_mem_layers = neural_mem_layers
	super().__init__(
	pad_token_id=pad_token_id,
	bos_token_id=bos_token_id,
	eos_token_id=eos_token_id,
	**kwargs
	)


	class MemoryTransformerForCausalLM(PreTrainedModel, GenerationMixin):
	config_class = MemoryTransformerConfig
	supports_gradient_checkpointing = True

	def __init__(self, config):
	super().__init__(config)

	neural_memory_model = (
	MemoryAttention(dim=64) if USE_MEM_ATTENTION_MODEL
	else MemoryMLP(dim=64, depth=NEURAL_MEMORY_DEPTH)
	)

	self.transformer = MemoryAsContextTransformer(
	num_tokens=config.vocab_size,
	dim=config.dim,
	depth=config.depth,
	segment_len=config.segment_len,
	num_persist_mem_tokens=config.num_persist_mem,
	num_longterm_mem_tokens=config.num_longterm_mem,
	neural_memory_layers=config.neural_mem_layers,
	neural_memory_segment_len=NEURAL_MEM_SEGMENT_LEN,
	neural_memory_batch_size=NEURAL_MEM_BATCH_SIZE,
	neural_mem_gate_attn_output=NEURAL_MEM_GATE_ATTN_OUTPUT,
	neural_mem_weight_residual=NEURAL_MEM_WEIGHT_RESIDUAL,
	use_flex_attn=True,
	sliding_window_attn=SLIDING_WINDOWS,
	neural_memory_model=neural_memory_model,
	neural_memory_kwargs=dict(
	dim_head=64,
	heads=4,
	attn_pool_chunks=STORE_ATTN_POOL_CHUNKS,
	qk_rmsnorm=NEURAL_MEM_QK_NORM,
	momentum=NEURAL_MEM_MOMENTUM,
	momentum_order=NEURAL_MEM_MOMENTUM_ORDER,
	default_step_transform_max_lr=NEURAL_MEM_MAX_LR,
	use_accelerated_scan=True,
	per_parameter_lr_modulation=MEMORY_MODEL_PER_LAYER_LEARNED_LR
	)
	)

	def forward(
	self,
	input_ids: Optional[torch.LongTensor] = None,
	attention_mask: Optional[torch.FloatTensor] = None,
	labels: Optional[torch.LongTensor] = None,
	return_dict: Optional[bool] = None,
	**kwargs
	):
	return_dict = return_dict if return_dict is not None else self.config.use_return_dict
	outputs = self.transformer(input_ids)

	if labels is not None:
	loss = self.transformer(input_ids, return_loss=True)
	return CausalLMOutputWithCrossAttentions(
	loss=loss,
	logits=outputs,
	past_key_values=None,
	hidden_states=None,
	attentions=None,
	cross_attentions=None
	)

	return CausalLMOutputWithCrossAttentions(
	loss=None,
	logits=outputs,
	past_key_values=None,
	hidden_states=None,
	attentions=None,
	cross_attentions=None
	)

	def prepare_inputs_for_generation(
	self,
	input_ids,
	past=None,
	attention_mask=None,
	**kwargs
	):
	if past:
	input_ids = input_ids[:, -1].unsqueeze(-1)

	return {
	"input_ids": input_ids,
	"past_key_values": past,
	"attention_mask": attention_mask,
	}

	@property
	def device(self):
	return next(self.parameters()).device


	def setup_custom_model():
	"""Регистрация кастомной модели"""
	AutoConfig.register("memory_transformer", MemoryTransformerConfig)
	AutoModelForCausalLM.register(MemoryTransformerConfig, MemoryTransformerForCausalLM)


	def generate_example(model, tokenizer, text, max_length=100):
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model = model.to(device)
	model.eval()

	input_ids = tokenizer.encode(text, return_tensors="pt").to(device)
	attention_mask = torch.ones_like(input_ids, device=device)

	print(f"Model device: {next(model.parameters()).device}")
	print(f"Input device: {input_ids.device}")

	with torch.no_grad():
	outputs = model.generate(
	input_ids=input_ids,
	attention_mask=attention_mask,
	max_length=max_length,
	num_return_sequences=1,
	no_repeat_ngram_size=2,
	do_sample=True,
	top_k=50,
	top_p=0.95,
	temperature=0.7,
	pad_token_id=tokenizer.pad_token_id,
	eos_token_id=tokenizer.eos_token_id,
	)

	return tokenizer.decode(outputs[0], skip_special_tokens=True)


	if __name__ == "__main__":
	torch.manual_seed(42)
	torch.cuda.manual_seed_all(42)

	setup_custom_model()
	config = AutoConfig.from_pretrained(repo_id)
	model = AutoModelForCausalLM.from_pretrained(repo_id)
	tokenizer = AutoTokenizer.from_pretrained(repo_id)

	test_text = "Московский кремль является"
	generated_text = generate_example(model, tokenizer, test_text)
	print(generated_text)
	```


	## Finetine Code

	```python
	import os
	import torch
	from pathlib import Path
	from torch.utils.data import DataLoader
	from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
	from tqdm import tqdm
	from adam_atan2_pytorch import AdoptAtan2

	# Импортируем классы из кода обучения
	from run_train_pep8 import (
	WikiDatasetPreprocessor,
	WikiTextDataset,
	create_dataloaders,
	cycle
	) # From Train Code

	from test_load import setup_custom_model # From Example Code

	# Настройки CUDA
	os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:32'

	# Константы для файнтьюнинга
	BATCH_SIZE = 2
	GRADIENT_ACCUMULATE_EVERY = 2
	LEARNING_RATE = 1e-5
	NUM_EPOCHS = 3
	STEPS_PER_EPOCH = 1000 # Количество шагов на эпоху
	SEQ_LEN = 256
	PROCESSED_DATA_DIR = 'processed_data'
	CACHE_DIR = 'cache'
	REPO_ID = 'Grpp/memory-transformer-ru'

	def finetune_model(
	model,
	train_loader,
	val_loader,
	num_epochs,
	device,
	save_path='finetuned_model'
	):
	"""Файнтьюнинг модели."""

	model = model.to(device)
	optimizer = AdoptAtan2(model.parameters(), lr=LEARNING_RATE)

	best_val_loss = float('inf')

	for epoch in range(num_epochs):
	model.train()
	total_train_loss = 0
	train_steps = 0

	# Прогресс-бар для фиксированного количества шагов
	train_pbar = tqdm(range(STEPS_PER_EPOCH),
	desc=f'Epoch {epoch+1}/{num_epochs} [Train]')

	for step in train_pbar:
	total_loss = 0

	# Градиентное накопление
	for _ in range(GRADIENT_ACCUMULATE_EVERY):
	batch = next(train_loader)
	batch = batch.to(device)

	# Получаем входные данные и метки
	inputs = batch[:, :-1]
	labels = batch[:, 1:]

	# Прямой проход
	outputs = model(input_ids=inputs, labels=labels)
	loss = outputs.loss / GRADIENT_ACCUMULATE_EVERY

	# Обратное распространение
	loss.backward()
	total_loss += loss.item()

	# Обновление параметров
	torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
	optimizer.step()
	optimizer.zero_grad()

	total_train_loss += total_loss
	train_steps += 1

	# Обновление прогресс-бара
	train_pbar.set_postfix({
	'loss': f'{total_loss:.4f}',
	'avg_loss': f'{total_train_loss/train_steps:.4f}'
	})

	# Валидация каждые 100 шагов
	if step % 100 == 0:
	model.eval()
	val_loss = 0
	val_steps = 0

	with torch.no_grad():
	for _ in range(10): # Ограничиваем количество валидационных шагов
	val_batch = next(val_loader)
	val_batch = val_batch.to(device)

	val_inputs = val_batch[:, :-1]
	val_labels = val_batch[:, 1:]

	val_outputs = model(input_ids=val_inputs, labels=val_labels)
	val_loss += val_outputs.loss.item()
	val_steps += 1

	avg_val_loss = val_loss / val_steps

	print(f"\nValidation loss: {avg_val_loss:.4f}")

	# Сохраняем лучшую модель
	if avg_val_loss < best_val_loss:
	best_val_loss = avg_val_loss
	torch.save({
	'epoch': epoch,
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	'loss': best_val_loss,
	}, f'{save_path}_best.pt')

	model.train()

	# Сохраняем чекпойнт после каждой эпохи
	torch.save({
	'epoch': epoch,
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	'loss': total_train_loss / train_steps,
	}, f'{save_path}_epoch_{epoch}.pt')

	print(f"\nEpoch {epoch+1} completed. Average loss: {total_train_loss/train_steps:.4f}")

	return model

	def main():
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print(f"Using device: {device}")

	# Загружаем и подготавливаем данные
	processed_data_path = Path(PROCESSED_DATA_DIR) / 'processed_wiki.pt'

	if not processed_data_path.exists():
	print("Processing dataset...")
	preprocessor = WikiDatasetPreprocessor(CACHE_DIR, PROCESSED_DATA_DIR)
	preprocessor.process_and_save(max_articles=10000)

	print("Creating dataloaders...")
	train_loader, val_loader = create_dataloaders(
	processed_data_path,
	batch_size=BATCH_SIZE,
	seq_len=SEQ_LEN
	)

	train_loader = cycle(train_loader)
	val_loader = cycle(val_loader)

	# Загружаем предобученную модель
	print("Loading pretrained model...")
	setup_custom_model()
	config = AutoConfig.from_pretrained(REPO_ID)
	model = AutoModelForCausalLM.from_pretrained(REPO_ID)

	print("Starting finetuning...")
	# Файнтьюним модель
	model = finetune_model(
	model,
	train_loader,
	val_loader,
	NUM_EPOCHS,
	device
	)

	# Сохраняем финальную версию модели
	print("Saving final model...")
	model.save_pretrained('final_finetuned_model')

	return model

	if __name__ == "__main__":
	torch.manual_seed(42)
	torch.cuda.manual_seed_all(42)
	torch.backends.cudnn.benchmark = True

	try:
	model = main()
	print("Finetuning completed successfully!")
	except Exception as e:
	print(f"An error occurred: {str(e)}")
	```

	# Training

	The model was trained on a cleaned subset of Russian Wikipedia articles using the following parameters:


	Batch size: 4
	Sequence length: 512
	Learning rate: 2e-4
	Gradient accumulation steps: 4
	Neural memory depth: 2
	Window size: 32

	## Train Code
	```python
	import json
	import os
	import random
	import re
	from pathlib import Path
	from typing import List, Dict

	import numpy as np
	import torch
	from torch import nn
	from torch.utils.data import DataLoader, Dataset
	from transformers import GPT2TokenizerFast
	from tqdm import tqdm
	from datasets import load_dataset
	from adam_atan2_pytorch import AdoptAtan2
	from titans_pytorch import (
	MemoryAsContextTransformer,
	MemoryMLP,
	MemoryAttention
	)

	# CUDA memory settings
	os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:32'

	# Training constants
	NUM_BATCHES = int(1e5)
	BATCH_SIZE = 4
	GRADIENT_ACCUMULATE_EVERY = 4
	LEARNING_RATE = 2e-4
	VALIDATE_EVERY = 100
	GENERATE_EVERY = 500
	PRIME_LENGTH = 100
	GENERATE_LENGTH = 512
	SHOULD_GENERATE = True
	SEQ_LEN = 512

	# Neural memory constants
	NEURAL_MEMORY_DEPTH = 2
	NUM_PERSIST_MEM = 4
	NUM_LONGTERM_MEM = 4
	NEURAL_MEM_LAYERS = (2, 4, 6)
	NEURAL_MEM_GATE_ATTN_OUTPUT = False
	NEURAL_MEM_MOMENTUM = True
	NEURAL_MEM_MOMENTUM_ORDER = 1
	NEURAL_MEM_QK_NORM = True
	NEURAL_MEM_MAX_LR = 1e-1
	USE_MEM_ATTENTION_MODEL = False
	WINDOW_SIZE = 32
	NEURAL_MEM_SEGMENT_LEN = 4
	NEURAL_MEM_BATCH_SIZE = 128
	SLIDING_WINDOWS = True
	STORE_ATTN_POOL_CHUNKS = True
	MEMORY_MODEL_PER_LAYER_LEARNED_LR = True
	NEURAL_MEM_WEIGHT_RESIDUAL = True

	# Initialize tokenizer
	tokenizer = GPT2TokenizerFast.from_pretrained('sberbank-ai/rugpt3small_based_on_gpt2')


	class WikiDatasetPreprocessor:
	def __init__(self, cache_dir: str = 'cache', output_dir: str = 'processed_data'):
	self.cache_dir = Path(cache_dir)
	self.output_dir = Path(output_dir)
	self.cache_dir.mkdir(parents=True, exist_ok=True)
	self.output_dir.mkdir(parents=True, exist_ok=True)
	self.tokenizer = GPT2TokenizerFast.from_pretrained(
	'sberbank-ai/rugpt3small_based_on_gpt2'
	)

	def load_wiki_dataset(self):
	"""Загрузка датасета из Hugging Face."""
	print("Loading Wikipedia dataset...")
	dataset = load_dataset(
	"misterkirill/ru-wikipedia",
	cache_dir=str(self.cache_dir)
	)
	print(f"Dataset loaded. Size: {len(dataset['train'])} articles")
	return dataset

	def clean_text(self, text: str) -> str:
	"""Базовая очистка текста."""
	return ' '.join(text.split())

	def process_wiki_article(self, text: str) -> List[str]:
	"""Обработка одной статьи из википедии."""
	processed_chunks = []
	clean_text = self.clean_text(text)
	tokens = self.tokenizer.encode(clean_text)

	chunk_size = 256
	stride = 192

	for i in range(0, len(tokens), stride):
	chunk = tokens[i:i + chunk_size]
	if len(chunk) > 50:
	processed_chunks.append(chunk)

	return processed_chunks

	def process_and_save(
	self,
	batch_size: int = 1000,
	test_size: float = 0.1,
	max_articles: int = 10000
	):
	"""Обработка статей из датасета и сохранение результатов."""
	dataset = self.load_wiki_dataset()
	total_articles = min(len(dataset['train']), max_articles)
	print(f"Processing {total_articles} articles out of {len(dataset['train'])}")

	all_chunks = []
	for i in tqdm(range(0, total_articles, batch_size), desc="Processing articles"):
	batch = dataset['train'][i:i + batch_size]
	for text in batch['text']:
	chunks = self.process_wiki_article(text)
	all_chunks.extend(chunks)

	if len(all_chunks) > 50000:
	break

	if len(all_chunks) > 50000:
	break

	print(f"Total chunks created: {len(all_chunks)}")

	random.seed(42)
	random.shuffle(all_chunks)

	test_size = int(len(all_chunks) * test_size)
	train_chunks = all_chunks[:-test_size]
	test_chunks = all_chunks[-test_size:]

	print(f"Saving {len(train_chunks)} training chunks and {len(test_chunks)} test chunks...")
	torch.save(
	{
	'train': train_chunks,
	'test': test_chunks
	},
	self.output_dir / 'processed_wiki.pt'
	)


	class WikiTextDataset(Dataset):
	def __init__(self, chunks: List[List[int]], seq_len: int = 512):
	self.chunks = chunks
	self.seq_len = seq_len

	def __len__(self):
	return len(self.chunks)

	def __getitem__(self, idx):
	chunk = self.chunks[idx]
	if len(chunk) < self.seq_len + 1:
	chunk = chunk + [50256] * (self.seq_len + 1 - len(chunk))
	else:
	chunk = chunk[:self.seq_len + 1]
	return torch.tensor(chunk, device='cuda').long()


	def create_dataloaders(
	processed_data_path: str,
	batch_size: int = 4,
	seq_len: int = 512,
	train_test_split: float = 0.9
	) -> tuple:
	"""Создание загрузчиков данных для обучения и валидации."""
	print(f"Loading processed data from {processed_data_path}")
	data = torch.load(processed_data_path)
	train_chunks = data['train']
	test_chunks = data['test']

	train_dataset = WikiTextDataset(train_chunks, seq_len)
	test_dataset = WikiTextDataset(test_chunks, seq_len)

	print(f"Created datasets with {len(train_dataset)} training and "
	f"{len(test_dataset)} test samples")

	train_loader = DataLoader(
	train_dataset,
	batch_size=batch_size,
	shuffle=True,
	num_workers=0,
	pin_memory=False
	)

	val_loader = DataLoader(
	test_dataset,
	batch_size=batch_size,
	shuffle=False,
	num_workers=0,
	pin_memory=False
	)

	return train_loader, val_loader


	def cycle(loader):
	"""Бесконечный итератор по загрузчику данных."""
	while True:
	for data in loader:
	yield data


	def create_model():
	"""Создание модели нейронной сети."""
	try:
	if USE_MEM_ATTENTION_MODEL:
	neural_memory_model = MemoryAttention(dim=64)
	else:
	neural_memory_model = MemoryMLP(dim=64, depth=NEURAL_MEMORY_DEPTH)

	model = MemoryAsContextTransformer(
	num_tokens=len(tokenizer),
	dim=384,
	depth=8,
	segment_len=WINDOW_SIZE,
	num_persist_mem_tokens=NUM_PERSIST_MEM,
	num_longterm_mem_tokens=NUM_LONGTERM_MEM,
	neural_memory_layers=NEURAL_MEM_LAYERS,
	neural_memory_segment_len=NEURAL_MEM_SEGMENT_LEN,
	neural_memory_batch_size=NEURAL_MEM_BATCH_SIZE,
	neural_mem_gate_attn_output=NEURAL_MEM_GATE_ATTN_OUTPUT,
	neural_mem_weight_residual=NEURAL_MEM_WEIGHT_RESIDUAL,
	use_flex_attn=True,
	sliding_window_attn=SLIDING_WINDOWS,
	neural_memory_model=neural_memory_model,
	neural_memory_kwargs=dict(
	dim_head=64,
	heads=4,
	attn_pool_chunks=STORE_ATTN_POOL_CHUNKS,
	qk_rmsnorm=NEURAL_MEM_QK_NORM,
	momentum=NEURAL_MEM_MOMENTUM,
	momentum_order=NEURAL_MEM_MOMENTUM_ORDER,
	default_step_transform_max_lr=NEURAL_MEM_MAX_LR,
	use_accelerated_scan=True,
	per_parameter_lr_modulation=MEMORY_MODEL_PER_LAYER_LEARNED_LR
	)
	).cuda()

	assert next(model.parameters()).is_cuda, "Model is not on CUDA"
	return model

	except Exception as e:
	print(f"Error creating model: {e}")
	raise e


	def train_model(model, train_loader, val_loader, num_batches=int(1e4)):
	"""Обучение модели."""
	optim = AdoptAtan2(model.parameters(), lr=2e-4)
	torch.cuda.empty_cache()
	pbar = tqdm(range(num_batches), desc='Training')
	running_loss = 0.0

	try:
	for i in pbar:
	model.train()
	total_loss = 0

	for __ in range(4):
	batch = next(train_loader)
	loss = model(batch, return_loss=True)
	loss = loss / 4
	loss.backward()
	total_loss += loss.item()

	torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
	optim.step()
	optim.zero_grad()

	if i % 100 == 0:
	torch.cuda.empty_cache()

	avg_loss = total_loss
	running_loss = 0.9 * running_loss + 0.1 * avg_loss if i > 0 else avg_loss

	pbar.set_postfix({
	'loss': f'{running_loss:.4f}',
	'batch_loss': f'{avg_loss:.4f}'
	})

	if i % 100 == 0:
	model.eval()
	with torch.no_grad():
	val_batch = next(val_loader)
	val_loss = model(val_batch, return_loss=True)
	pbar.set_postfix({
	'train_loss': f'{running_loss:.4f}',
	'val_loss': f'{val_loss.item():.4f}'
	})

	if i % 1000 == 0 and i > 0:
	torch.save({
	'epoch': i,
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optim.state_dict(),
	'loss': running_loss,
	}, f'checkpoint_{i}.pt')

	except KeyboardInterrupt:
	print("\nTraining interrupted by user")
	except Exception as e:
	print(f"\nTraining stopped due to error: {e}")
	raise e

	return model


	def main():
	"""Основная функция программы."""
	try:
	if not torch.cuda.is_available():
	raise RuntimeError("CUDA is not available. This code requires GPU.")

	print(f"Using CUDA device: {torch.cuda.get_device_name(0)}")

	BATCH_SIZE = 4
	SEQ_LEN = 512
	CACHE_DIR = 'cache'
	PROCESSED_DATA_DIR = 'processed_data'
	NUM_BATCHES = 10000

	preprocessor = WikiDatasetPreprocessor(CACHE_DIR, PROCESSED_DATA_DIR)
	processed_data_path = Path(PROCESSED_DATA_DIR) / 'processed_wiki.pt'

	if not processed_data_path.exists():
	print("Processing Wikipedia dataset...")
	preprocessor.process_and_save(max_articles=10000)

	train_loader, val_loader = create_dataloaders(
	processed_data_path,
	batch_size=BATCH_SIZE,
	seq_len=SEQ_LEN
	)

	train_loader = cycle(train_loader)
	val_loader = cycle(val_loader)

	model = create_model()
	model = train_model(model, train_loader, val_loader, num_batches=NUM_BATCHES)

	torch.save(model.state_dict(), 'final_model.pt')
	return model, train_loader, val_loader

	except Exception as e:
	print(f"Error in main: {e}")
	raise e


	if __name__ == "__main__":
	torch.manual_seed(42)
	torch.cuda.manual_seed_all(42)
	torch.backends.cudnn.benchmark = True
	model, train_loader, val_loader = main()
	```

	# License

	This project is licensed under the MIT License. See LICENSE file for details.


	# Citation

	If you use this model in your research, please cite:
	```bibtex
	@software{neural_memory_model,
	title = {Neural Memory Model for Russian Text Generation},
	year = {2025},
	url = {https://huggingface.co/Grpp/memory-transformer-ru}
	}
	```