Spaces:

saicharan2804
/

SmilesPeTokenizer

Runtime error

saicharan2804 commited on Feb 27, 2024

Commit

d235aee

1 Parent(s): f23bcf0

reset

Files changed (2) hide show

SmilesPeTokenizer.py CHANGED Viewed

@@ -1,16 +1,12 @@
-from tokenizers import Tokenizer
-def bpe_tokenizer(smiles_string):
-    # Load the tokenizer from the saved file
-    tokenizer = Tokenizer.from_file("chembl_bpe_tokenizer.json")
-    # Tokenize the SMILES string
-    encoded_output = tokenizer.encode(smiles_string)
-    # To get the tokenized output as text
-    tokens_text = encoded_output.tokens
-    # To get the corresponding token IDs
-    token_ids = encoded_output.ids
-    return tokens_text, token_ids

+import codecs
+from SmilesPE.tokenizer import *
+def smilespe_tokenizer(smiles_string):
+    spe_vob = codecs.open('chembl_smiles_tokenizer30000.txt')
+    spe = SPE_Tokenizer(spe_vob)
+    tokenized = spe.tokenize(smiles_string)
+    return tokenized

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ iface = gr.Interface(
     inputs=[
         gr.Textbox(label="SMILES"),
     ],
-    outputs=["text", "text"]
 )
 iface.launch()

     inputs=[
         gr.Textbox(label="SMILES"),
     ],
+    outputs="text"
 )
 iface.launch()