Spaces:

latticetower
/

keyword-embeddings-space

Sleeping

latticetower commited on Feb 19

Commit

ca7444f

1 Parent(s): 5710643

add fix for int64 conversion error

Files changed (2) hide show

app.py CHANGED Viewed

@@ -8,14 +8,22 @@ from constants import *
 from mpl_data_plotter import MatplotlibDataPlotter
 print(f"Loading domains data...")
 single_df = pd.read_csv(SINGLE_DOMAINS_FILE, compression='gzip')
 single_df['biosyn_class_index'] = single_df.bgc_class.apply(lambda x: BIOSYN_CLASS_NAMES.index(x))
 pair_df = pd.read_csv(PAIR_DOMAINS_FILE, compression='gzip')
 pair_df['biosyn_class_index'] = pair_df.bgc_class.apply(lambda x: BIOSYN_CLASS_NAMES.index(x))
-# unique_domain_lengths = single_df.dom_location_len.unique()
 num_domains_in_region_df = single_df.groupby('cds_region_id', as_index=False).agg({'as_domain_id': 'count'}).rename(
     columns={'as_domain_id': 'num_domains'})

 from mpl_data_plotter import MatplotlibDataPlotter
+def convert_int64_to_int32(df):
+    for col in df.columns:
+        if df[col].dtype == 'int64':
+            print(col)
+            df[col] = df[col].astype('int32')
+    return df
 print(f"Loading domains data...")
 single_df = pd.read_csv(SINGLE_DOMAINS_FILE, compression='gzip')
 single_df['biosyn_class_index'] = single_df.bgc_class.apply(lambda x: BIOSYN_CLASS_NAMES.index(x))
+single_df = convert_int64_to_int32(single_df)
 pair_df = pd.read_csv(PAIR_DOMAINS_FILE, compression='gzip')
 pair_df['biosyn_class_index'] = pair_df.bgc_class.apply(lambda x: BIOSYN_CLASS_NAMES.index(x))
+pair_df = convert_int64_to_int32(pair_df)
 num_domains_in_region_df = single_df.groupby('cds_region_id', as_index=False).agg({'as_domain_id': 'count'}).rename(
     columns={'as_domain_id': 'num_domains'})

mpl_data_plotter.py CHANGED Viewed

@@ -26,6 +26,7 @@ class MatplotlibDataPlotter:
             'cds_region_id'].values
         single_df_subset = self.single_df.loc[self.single_df.cds_region_id.isin(selected_region_ids)]
         split_name = 'stratified'
         column_name = f'cosine_similarity_{split_name}'
         # single_df_subset = single_df.loc[single_df.dom_location_len >= num_domains]
@@ -69,7 +70,7 @@ class MatplotlibDataPlotter:
             self.num_domains_in_region_df.num_domains >= num_domains,
             'cds_region_id'].values
         pair_df_subset = self.pair_df.loc[self.pair_df.cds_region_id.isin(selected_region_ids)]
         split_name = 'stratified'
         column_name = f'cosine_similarity_{split_name}'
         # pair_df_subset = pair_df.loc[pair_df.dom_location_len >= num_domains]

             'cds_region_id'].values
         single_df_subset = self.single_df.loc[self.single_df.cds_region_id.isin(selected_region_ids)]
+        return self.single_domains_fig
         split_name = 'stratified'
         column_name = f'cosine_similarity_{split_name}'
         # single_df_subset = single_df.loc[single_df.dom_location_len >= num_domains]
             self.num_domains_in_region_df.num_domains >= num_domains,
             'cds_region_id'].values
         pair_df_subset = self.pair_df.loc[self.pair_df.cds_region_id.isin(selected_region_ids)]
+        return self.pair_domains_fig
         split_name = 'stratified'
         column_name = f'cosine_similarity_{split_name}'
         # pair_df_subset = pair_df.loc[pair_df.dom_location_len >= num_domains]