Spaces:

melvinalves
/

protein_function_prediction

Sleeping

App Files Files Community

melvinalves commited on Jun 23

Commit

20b7c2a

verified ·

1 Parent(s): 1e0b741

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -23

app.py CHANGED Viewed

@@ -38,9 +38,7 @@ def load_keras(name):
 @st.cache_resource
 def load_hf_encoder(repo_id, subfolder=None, base_tok=None):
-    """
-    Carrega tokenizer + encoder HF (converte TF-weights p/ PyTorch on-the-fly).
-    """
     if base_tok is None:
         base_tok = repo_id
     tok = AutoTokenizer.from_pretrained(base_tok, do_lower_case=False)
@@ -53,14 +51,12 @@ def load_hf_encoder(repo_id, subfolder=None, base_tok=None):
     return tok, mdl
 def embed_seq(model_ref, seq, chunk):
-    """
-    Devolve embedding CLS médio (divide seq. longa em chunks se necessário).
-    """
-    if isinstance(model_ref, tuple):                       # ProtBERT fine-tuned
         repo_id, subf = model_ref
         tok, mdl = load_hf_encoder(repo_id, subfolder=subf,
                                    base_tok="Rostlab/prot_bert")
-    else:                                                  # modelo base ESM-2
         tok, mdl = load_hf_encoder(model_ref)
     parts = [seq[i:i+chunk] for i in range(0, len(seq), chunk)]
@@ -112,31 +108,34 @@ if os.path.exists("logo.png"):
 st.title("Predição de Funções Moleculares de Proteínas (GO:MF)")
-fasta_input      = st.text_area("Insere uma ou mais sequências FASTA:", height=300)
-predict_clicked  = st.button("Prever GO terms")
 # ———————————————————  UTILITÁRIOS  ——————————————————— #
 def parse_fasta_multiple(text):
     """Extrai [(header, seq)] de texto FASTA (bloco inicial sem '>' suportado)."""
-    out, blocks = [], text.strip().split(">")
-    for i, blk in enumerate(blocks):
         if not blk.strip():
             continue
-        lines = blk.strip().splitlines()
-        if i > 0:
-            header, seq = lines[0].strip(), "".join(lines[1:]).replace(" ", "").upper()
-        else:
-            header, seq = f"Seq_{i+1}", "".join(lines).replace(" ", "").upper()
         if seq:
             out.append((header, seq))
     return out
 def clean_definition(defin: str) -> str:
-    """Remove '\"', blocos [ ... ] e múltiplos espaços."""
-    defin = re.sub(r"\\[[^\\]]*\\]", "", defin or "")   # tira citações [...]
-    defin = defin.replace('"', "")                      # tira aspas
-    defin = re.sub(r"\\s{2,}", " ", defin)              # colapsa espaços
-    return defin.strip()
 def go_link(go_id, name=""):
     url = f"https://www.ebi.ac.uk/QuickGO/term/{go_id}"
@@ -201,7 +200,7 @@ if predict_clicked:
         mostrar(header, y_ens)
-# ———————————————————  LISTA COMPLETA (597)  ——————————————————— #
 with st.expander("Mostrar lista completa dos 597 GO terms possíveis", expanded=False):
     cols = st.columns(3)
     for i, go_id in enumerate(GO):

 @st.cache_resource
 def load_hf_encoder(repo_id, subfolder=None, base_tok=None):
+    """Carrega tokenizer + encoder; converte TF-weights → PyTorch on-the-fly."""
     if base_tok is None:
         base_tok = repo_id
     tok = AutoTokenizer.from_pretrained(base_tok, do_lower_case=False)
     return tok, mdl
 def embed_seq(model_ref, seq, chunk):
+    """Devolve embedding CLS médio; corta seq. longa em chunks se preciso."""
+    if isinstance(model_ref, tuple):                # ProtBERT fine-tuned
         repo_id, subf = model_ref
         tok, mdl = load_hf_encoder(repo_id, subfolder=subf,
                                    base_tok="Rostlab/prot_bert")
+    else:                                           # modelo base ESM-2
         tok, mdl = load_hf_encoder(model_ref)
     parts = [seq[i:i+chunk] for i in range(0, len(seq), chunk)]
 st.title("Predição de Funções Moleculares de Proteínas (GO:MF)")
+fasta_input     = st.text_area("Insere uma ou mais sequências FASTA:", height=300)
+predict_clicked = st.button("Prever GO terms")
 # ———————————————————  UTILITÁRIOS  ——————————————————— #
 def parse_fasta_multiple(text):
     """Extrai [(header, seq)] de texto FASTA (bloco inicial sem '>' suportado)."""
+    out = []
+    for i, blk in enumerate(text.strip().split(">")):
         if not blk.strip():
             continue
+        lines  = blk.strip().splitlines()
+        header = lines[0].strip() if i else f"Seq_{i+1}"
+        seq    = "".join(lines[1:] if i else lines).replace(" ", "").upper()
         if seq:
             out.append((header, seq))
     return out
 def clean_definition(defin: str) -> str:
+    """
+    Retorna apenas o texto dentro das primeiras aspas.
+    Se não houver aspas, devolve texto antes do primeiro '['.
+    """
+    if not defin:
+        return ""
+    m = re.search(r'"([^"]+)"', defin)
+    if m:
+        return m.group(1).strip()
+    return defin.split("[", 1)[0].strip()
 def go_link(go_id, name=""):
     url = f"https://www.ebi.ac.uk/QuickGO/term/{go_id}"
         mostrar(header, y_ens)
+# ———————————————————  LISTA COMPLETA  ——————————————————— #
 with st.expander("Mostrar lista completa dos 597 GO terms possíveis", expanded=False):
     cols = st.columns(3)
     for i, go_id in enumerate(GO):