GurgenGulay commited on
Commit
2ef22e2
·
verified ·
1 Parent(s): 6d11bcc

Update utils.py

Browse files
Files changed (1) hide show
  1. utils.py +35 -3
utils.py CHANGED
@@ -1,12 +1,44 @@
1
- from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  def create_pipeline(model_name: str):
4
  """
5
- Belirtilen model için bir text-generation pipeline'ı oluşturur.
6
  """
7
  # Tokenizer ve model oluşturuluyor
8
  tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True, legacy=False)
9
  model = AutoModelForCausalLM.from_pretrained(model_name)
10
 
11
  # Text generation pipeline'ı döndür
12
- return pipeline("text-generation", model=model, tokenizer=tokenizer, device="cpu")
 
 
1
+ from transformers import pipeline #, AutoTokenizer, AutoModelForCausalLM
2
 
3
+ def split_text_into_chunks(text, chunk_size=1000):
4
+ """
5
+ Metni belirli sayıda kelimelik parçalara böler.
6
+ """
7
+ words = text.split() # Metni kelimelere bölelim
8
+ chunks = []
9
+ for i in range(0, len(words), chunk_size):
10
+ chunk = ' '.join(words[i:i+chunk_size]) # Belirli sayıda kelimelik parça oluştur
11
+ chunks.append(chunk)
12
+ return chunks
13
+
14
+ def generate_lesson_from_chunks(chunks):
15
+ """
16
+ Modeli her parça için çalıştırıp sonucu döndüren fonksiyon.
17
+ """
18
+ pipe = pipeline("text-generation", model="jondurbin/airoboros-gpt-3.5-turbo-100k-7b", device="cpu")
19
+ generated_texts = []
20
+ for chunk in chunks:
21
+ generated_text = pipe(chunk, max_length=500)[0]['generated_text'] # Her parça için metin üret
22
+ generated_texts.append(generated_text)
23
+ return ' '.join(generated_texts) # Tüm parçaları birleştir
24
+
25
+ def process_large_text(text):
26
+ """
27
+ Büyük metni işleyecek ve sonucu döndürecek fonksiyon.
28
+ """
29
+ chunks = split_text_into_chunks(text, chunk_size=1000) # Metni parçalara böl
30
+ generated_text = generate_lesson_from_chunks(chunks) # Her parçayı işleyip birleştir
31
+ return generated_text
32
+
33
+ """
34
  def create_pipeline(model_name: str):
35
  """
36
+ # Belirtilen model için bir text-generation pipeline'ı oluşturur.
37
  """
38
  # Tokenizer ve model oluşturuluyor
39
  tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True, legacy=False)
40
  model = AutoModelForCausalLM.from_pretrained(model_name)
41
 
42
  # Text generation pipeline'ı döndür
43
+ return pipeline("text-generation", model=model, tokenizer=tokenizer, device="cpu")
44
+ """