AIHumanBody

Runtime error

App Files Files Community

awacke1 commited on Dec 6, 2023

Commit

0bc666d

1 Parent(s): 1dec5ae

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -38

app.py CHANGED Viewed

@@ -153,44 +153,44 @@ def StreamLLMChatResponse(prompt):
     API_URL = 'https://qe55p8afio98s0u3.us-east-1.aws.endpoints.huggingface.cloud'  # Dr Llama
     API_KEY = os.getenv('API_KEY')
-    try:
-        endpoint_url = API_URL
-        hf_token = API_KEY
-        client = InferenceClient(endpoint_url, token=hf_token)
-        gen_kwargs = dict(
-            max_new_tokens=512,
-            top_k=30,
-            top_p=0.9,
-            temperature=0.2,
-            repetition_penalty=1.02,
-            stop_sequences=["\nUser:", "<|endoftext|>", "</s>"],
-        )
-        stream = client.text_generation(prompt, stream=True, details=True, **gen_kwargs)
-        report=[]
-        res_box = st.empty()
-        collected_chunks=[]
-        collected_messages=[]
-        allresults=''
-        for r in stream:
-            if r.token.special:
-                continue
-            if r.token.text in gen_kwargs["stop_sequences"]:
-                break
-            collected_chunks.append(r.token.text)
-            chunk_message = r.token.text
-            collected_messages.append(chunk_message)
-            #try:
-            report.append(r.token.text)
-            if len(r.token.text) > 0:
-                result="".join(report).strip()
-                res_box.markdown(f'*{result}*')
-            #except:
-                #st.write('Stream llm issue')
-        SpeechSynthesis(result)
-        return result
-    except:
-        st.write('Llama model is asleep. Starting up now on A10 - please give 5 minutes then retry as KEDA scales up from zero to activate running container(s).')

     API_URL = 'https://qe55p8afio98s0u3.us-east-1.aws.endpoints.huggingface.cloud'  # Dr Llama
     API_KEY = os.getenv('API_KEY')
+    #try:
+    endpoint_url = API_URL
+    hf_token = API_KEY
+    client = InferenceClient(endpoint_url, token=hf_token)
+    gen_kwargs = dict(
+        max_new_tokens=512,
+        top_k=30,
+        top_p=0.9,
+        temperature=0.2,
+        repetition_penalty=1.02,
+        stop_sequences=["\nUser:", "<|endoftext|>", "</s>"],
+    )
+    stream = client.text_generation(prompt, stream=True, details=True, **gen_kwargs)
+    report=[]
+    res_box = st.empty()
+    collected_chunks=[]
+    collected_messages=[]
+    allresults=''
+    for r in stream:
+        if r.token.special:
+            continue
+        if r.token.text in gen_kwargs["stop_sequences"]:
+            break
+        collected_chunks.append(r.token.text)
+        chunk_message = r.token.text
+        collected_messages.append(chunk_message)
+        #try:
+        report.append(r.token.text)
+        if len(r.token.text) > 0:
+            result="".join(report).strip()
+            res_box.markdown(f'*{result}*')
+        #except:
+            #st.write('Stream llm issue')
+    SpeechSynthesis(result)
+    return result
+    #except:
+        #st.write('Llama model is asleep. Starting up now on A10 - please give 5 minutes then retry as KEDA scales up from zero to activate running container(s).')