Spaces:

LeoNguyen101120
/

ai-assistance

Paused

App Files Files Community

LeoNguyen101120 commited on May 27

Commit

e48d33f

1 Parent(s): e086b97

Refactor Dockerfile and .dockerignore: Update file copying strategy to include only necessary files and improve ignored patterns for better build efficiency.

Browse files

Files changed (3) hide show

.dockerignore +21 -7
Dockerfile +3 -2
src/utils/llama_cpp_client.py +21 -21

.dockerignore CHANGED Viewed

@@ -1,27 +1,41 @@
 # Byte-compiled / optimized / DLL files
-__pycache__/
-*.py[cod]
-*.pyo
-*.pyw
-*.pyz
 # Distribution / packaging
-*.egg-info/
 # OS files
 .DS_Store
 # Environment files
 .env
-.env.*
 # Project data and outputs
 outputs/
 uploads/
 data/
 # VSCode settings
 .vscode/
 # Git
 .git/

 # Byte-compiled / optimized / DLL files
+**pycache**/
+_.py[cod]
+_.pyo
+_.pyw
+_.pyz
 # Distribution / packaging
+\*.egg-info/
 # OS files
 .DS_Store
 # Environment files
 .env
+.env.\*
 # Project data and outputs
 outputs/
 uploads/
 data/
 # VSCode settings
 .vscode/
 # Git
 .git/
+.venv
+.idea
+.vscode
+\*.md
+.git
+.env

Dockerfile CHANGED Viewed

@@ -35,8 +35,9 @@ RUN pip install --no-cache-dir "llama-cpp-python==0.3.8" --extra-index-url https
 RUN grep -v "llama-cpp-python" requirements.txt > requirements-no-llama.txt && \
     pip install --no-cache-dir -r requirements-no-llama.txt
-# 6. Copy the rest of the application code
-COPY . .
 # 7. Expose the port FastAPI will run on
 EXPOSE 7860

 RUN grep -v "llama-cpp-python" requirements.txt > requirements-no-llama.txt && \
     pip install --no-cache-dir -r requirements-no-llama.txt
+# 6. Copy only necessary files and folders
+COPY requirements.txt .
+COPY src/ ./src
 # 7. Expose the port FastAPI will run on
 EXPOSE 7860

src/utils/llama_cpp_client.py CHANGED Viewed

@@ -7,25 +7,25 @@ from models.responses.chat_response import ChatResponse
 from utils.timing import measure_time
 from utils.tools import tools_define
-from transformers import AutoTokenizer
-tokenizer = AutoTokenizer.from_pretrained("modularai/Llama-3.1-8B-Instruct-GGUF")
-def messages_to_prompt(messages):
-    messages = [{"role": m.role.value, "content": m.content} for m in messages]
-    prompt = tokenizer.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-    return prompt
-def completion_to_prompt(completion):
-    messages = [{"role": "user", "content": completion}]
-    prompt = tokenizer.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-    return prompt
 # llm = llama_cpp.Llama(
@@ -44,8 +44,8 @@ llm = llama_cpp.Llama.from_pretrained(
     n_gpu_layers=-1,
     n_ctx=4096,
     verbose=True,
-    messages_to_prompt=messages_to_prompt,
-    completion_to_prompt=completion_to_prompt,
 )
@@ -60,11 +60,11 @@ def create(messages: List[Message], has_tool_call: bool = True):
     try:
         with measure_time("Starting create chat completion"):
             output = llm.create_chat_completion(
-                prompt,
-                tools=tools,
                 tool_choice=tool_choice,
             )  # type: ignore
-            return ChatResponse.from_llm_output(output)
     except Exception as e:
         print(f"Error in create chat completion: {str(e)}")
         raise
@@ -74,9 +74,9 @@ def create_stream(messages: List[Message]) -> Generator[ChatResponse, None, None
     prompt = [message.to_map() for message in messages]
     output = llm.create_chat_completion(
-        prompt,
         stream=True,
-        tools=tools_define.tools,
         tool_choice="auto",
     )  # type: ignore
     last_role = None

 from utils.timing import measure_time
 from utils.tools import tools_define
+# from transformers import AutoTokenizer
+# tokenizer = AutoTokenizer.from_pretrained("modularai/Llama-3.1-8B-Instruct-GGUF")
+# def messages_to_prompt(messages):
+#     messages = [{"role": m.role.value, "content": m.content} for m in messages]
+#     prompt = tokenizer.apply_chat_template(
+#         messages, tokenize=False, add_generation_prompt=True
+#     )
+#     return prompt
+# def completion_to_prompt(completion):
+#     messages = [{"role": "user", "content": completion}]
+#     prompt = tokenizer.apply_chat_template(
+#         messages, tokenize=False, add_generation_prompt=True
+#     )
+#     return prompt
 # llm = llama_cpp.Llama(
     n_gpu_layers=-1,
     n_ctx=4096,
     verbose=True,
+    # messages_to_prompt=messages_to_prompt,
+    # completion_to_prompt=completion_to_prompt,
 )
     try:
         with measure_time("Starting create chat completion"):
             output = llm.create_chat_completion(
+                prompt,  # type: ignore
+                tools=tools,  # type: ignore
                 tool_choice=tool_choice,
             )  # type: ignore
+            return ChatResponse.from_llm_output(output)  # type: ignore
     except Exception as e:
         print(f"Error in create chat completion: {str(e)}")
         raise
     prompt = [message.to_map() for message in messages]
     output = llm.create_chat_completion(
+        prompt,  # type: ignore
         stream=True,
+        tools=tools_define.tools,  # type: ignore
         tool_choice="auto",
     )  # type: ignore
     last_role = None