In [None]:
import os
from google.cloud import storage
import pandas as pd
from typing import Tuple, List, Dict
import io

def check_blob_exists_and_size(bucket, possible_paths: List[str]) -> Tuple[bool, str, float]:
 """
 Проверяет существование файла по всем возможным путям и его размер
 Returns:
 Tuple[bool, str, float]: (найден ли файл, путь к файлу, размер в MB)
 """
 for path in possible_paths:
 blob = bucket.blob(path)
 try:
 if blob.exists():
 blob.reload() # Загружаем метаданные
 size_mb = blob.size / (1024 * 1024)
 return True, path, size_mb
 except Exception as e:
 print(f"Ошибка при проверке файла {path}: {str(e)}")
 continue
 return False, "", 0.0

def generate_possible_paths(original_path: str, clips_prefix: str) -> List[str]:
 """
 Генерирует все возможные варианты пути к файлу с учетом префикса
 """
 parts = original_path.split('/')
 if len(parts) < 2:
 return []
 current_folder = parts[-2] # получаем название текущей папки
 filename = parts[-1] # получаем имя файла с расширением
 base_dir = '/'.join(parts[:-1]) # получаем путь к директории

 # Разделяем имя файла на имя и расширение
 name, extension = os.path.splitext(filename)
 
 # Разделяем имя по знаку подчеркивания и берем левую часть
 base_name = name.split('_')[0]
 
 # Формируем все возможные варианты имен файлов
 possible_names = [
 f"{base_name}{extension}", # просто имя с расширением
 f"{base_name}_{current_folder}{extension}", # имя + текущая папка
 f"{base_name}untitled{extension}" # имя + untitled
 ]
 
 # Формируем полные пути с префиксом
 possible_paths = [f"{clips_prefix}/{base_dir}/{name}" for name in possible_names]
 
 return list(set(possible_paths)) # удаляем возможные дубликаты

def check_all_files_sizes(bucket_name: str, tsv_path: str, clips_prefix: str, max_size_mb: float = 1.0) -> Dict[str, Tuple[str, float]]:
 """
 Проверяет размеры всех файлов и возвращает словарь с информацией о файлах меньше max_size_mb
 """
 storage_client = storage.Client()
 bucket = storage_client.bucket(bucket_name)
 
 print(f"Загружаем список файлов из {tsv_path}")
 blob = bucket.blob(tsv_path)
 content = blob.download_as_string()
 df = pd.read_csv(io.BytesIO(content), sep='\t')
 
 valid_files = {}
 missing_files = []
 oversized_files = []
 
 total_files = len(df)
 print(f"Проверяем размеры {total_files} файлов (ищем файлы < {max_size_mb}MB)...")
 
 # Статистика по размерам
 size_stats = {
 '0-0.5MB': 0,
 '0.5-1MB': 0,
 '1-1.5MB': 0,
 '1.5-2MB': 0,
 '>2MB': 0
 }
 
 # Проверяем каждый файл
 for idx, row in df.iterrows():
 if 'path' not in row or pd.isna(row['path']):
 continue
 
 original_path = row['path'].strip()
 possible_paths = generate_possible_paths(original_path, clips_prefix)
 exists, real_path, size_mb = check_blob_exists_and_size(bucket, possible_paths)
 
 if exists:
 # Обновляем статистику по размерам
 if size_mb > 2:
 size_stats['>2MB'] += 1
 elif size_mb > 1.5:
 size_stats['1.5-2MB'] += 1
 elif size_mb > 1:
 size_stats['1-1.5MB'] += 1
 elif size_mb > 0.5:
 size_stats['0.5-1MB'] += 1
 else:
 size_stats['0-0.5MB'] += 1
 
 if size_mb < max_size_mb:
 valid_files[original_path] = (real_path, size_mb)
 if len(valid_files) <= 5:
 print(f"Подходящий файл найден: {real_path}, размер: {size_mb:.2f}MB")
 else:
 oversized_files.append((original_path, size_mb))
 if len(oversized_files) <= 5:
 print(f"Файл слишком большой: {real_path} ({size_mb:.2f}MB > {max_size_mb}MB)")
 else:
 missing_files.append(original_path)
 
 if (idx + 1) % 100 == 0:
 print(f"Проверено {idx + 1}/{total_files} файлов...")
 
 # Выводим статистику
 print("\nРезультаты проверки размеров:")
 print(f"Всего файлов: {total_files}")
 print(f"Файлов не найдено: {len(missing_files)}")
 print(f"\nРаспределение по размерам:")
 for size_range, count in size_stats.items():
 print(f"{size_range}: {count} файлов")
 
 return valid_files, missing_files, oversized_files

def create_filtered_dataset(bucket_name: str, tsv_path: str, clips_prefix: str, max_size_mb: float = 1.0) -> pd.DataFrame:
 """
 Создает датафрейм только с файлами подходящего размера
 """
 # Проверяем размеры всех файлов
 valid_files, missing_files, oversized_files = check_all_files_sizes(
 bucket_name, tsv_path, clips_prefix, max_size_mb
 )
 
 # Загружаем исходный датафрейм
 storage_client = storage.Client()
 bucket = storage_client.bucket(bucket_name)
 blob = bucket.blob(tsv_path)
 content = blob.download_as_string()
 df = pd.read_csv(io.BytesIO(content), sep='\t')
 
 # Очищаем датафрейм
 df = df.dropna(subset=['path', 'sentence_normalized'])
 df = df[
 (df['path'].str.strip() != '') & 
 (df['sentence_normalized'].str.strip() != '')
 ]
 
 # Фильтруем датафрейм
 filtered_df = df[df['path'].isin(valid_files.keys())].copy()
 
 # Обновляем пути и создаем аудио колонку
 filtered_df['path'] = filtered_df['path'].apply(lambda x: valid_files[x][0])
 filtered_df['audio'] = filtered_df['path'].apply(lambda x: f"gs://{bucket_name}/{x}")
 
 # Создаем тройную транскрипцию
 filtered_df['sentence_normalized'] = filtered_df['sentence_normalized'].apply(
 lambda x: ' '.join([x.strip()] * 3)
 )
 
 print(f"\nСоздан отфильтрованный датасет с {len(filtered_df)} записями")
 return filtered_df

def process_datasets(bucket_name: str, train_tsv: str, test_tsv: str, clips_prefix: str, max_size_mb: float = 1.0):
 """
 Обрабатывает тренировочный и тестовый датасеты
 """
 print("Обработка тренировочного датасета...")
 filtered_train_df = create_filtered_dataset(
 bucket_name=bucket_name,
 tsv_path=train_tsv,
 clips_prefix=clips_prefix,
 max_size_mb=max_size_mb
 )
 
 print("\nОбработка тестового датасета...")
 filtered_test_df = create_filtered_dataset(
 bucket_name=bucket_name,
 tsv_path=test_tsv,
 clips_prefix=clips_prefix,
 max_size_mb=max_size_mb
 )
 
 # Сохраняем результаты
 filtered_train_df.to_csv('1filtered_train_dataset.tsv', sep='\t', index=False)
 filtered_test_df.to_csv('filtered_test_dataset.tsv', sep='\t', index=False)
 
 return filtered_train_df, filtered_test_df

if __name__ == "__main__":
 # Обрабатываем оба датасета
 filtered_train_df, filtered_test_df = process_datasets(
 bucket_name='ngen_model_fine_tuned',
 train_tsv='ngn/train_big.tsv',
 test_tsv='ngn/test_big.tsv',
 clips_prefix='ngn/clips',
 max_size_mb=1.0 # ограничение в 1MB
 )
 
# # Создаем датасеты для huggingface
# from datasets import Dataset
# from datasets.features import Audio
 
# train_dataset = Dataset.from_pandas(filtered_train_df)
# test_dataset = Dataset.from_pandas(filtered_test_df)
# print("Созданы датасеты")
 
# train_dataset = train_dataset.cast_column("audio", Audio(sampling_rate=16000))
# test_dataset = test_dataset.cast_column("audio", Audio(sampling_rate=16000))
# print("Колонки аудио преобразованы")

Обработка тренировочного датасета...
Загружаем список файлов из ngn/train_big.tsv
Проверяем размеры 1120 файлов (ищем файлы < 1.0MB)...
Файл слишком большой: ngn/clips/Audio_Ngen_2019_2020_2021/02012020/995_02012020.wav (2.06MB > 1.0MB)
Подходящий файл найден: ngn/clips/Audio_Ngen_2019_2020_2021/26122019/110.wav, размер: 0.79MB
Подходящий файл найден: ngn/clips/Audio_Ngen_2019_2020_2021/27122019/321untitled.wav, размер: 0.43MB
Подходящий файл найден: ngn/clips/Audio_Ngen_2019_2020_2021/06122020/1448untitled.wav, размер: 0.55MB
Подходящий файл найден: ngn/clips/Audio_Ngen_2019_2020_2021/10012020/1866_10012020.wav, размер: 0.22MB
Подходящий файл найден: ngn/clips/Audio_Ngen_2019_2020_2021/12012020/1986untitled.wav, размер: 0.32MB
Файл слишком большой: ngn/clips/Audio_Ngen_2019_2020_2021/30122019/658untitled.wav (1.26MB > 1.0MB)
Файл слишком большой: ngn/clips/Audio_Ngen_2019_2020_2021/03012020/1064untitled.wav (1.52MB > 1.0MB)
Файл слишком большой: ngn/clips/Audio_Ngen_2019_2020_2021/030