RDKit WARNING: [14:01:31] Enabling RDKit 2019.09.3 jupyter extensions

RDKit WARNING: [13:18:25] Enabling RDKit 2019.09.3 jupyter extensions

Example 1: Generating Scaffolds from SMILES¶

smiles = ['O=C(O)c1ccc(C[S](=O)=O)cc1',
         'O=C(O)c1ccccc1',
          'N[C@H](CCC=O)C(=O)O',
          'N[C@@H](CCC=O)C(=O)O',
          'O=c1cccc[nH]1',
          'Oc1ccccn1',
          'Cc1cc(Oc2nccc(CCC)c2)ccc1',
          'COc1cc(OC)c(S(=O)(=O)N2c3ccccc3CCC2C)cc1NC(=O)CSCC(=O)O',
          'Nc1ccc(-c2nc3ccc(O)cc3s2)cc1',
          'O=C(O)c1cccc(N2CCC(CN3CCC(Oc4ccc(Cl)c(Cl)c4)CC3)CC2)c1',
          'CSc1c(C(=O)NC2C3CC4CC(C3)CC2C4)cnn1-c1ccc(C(=O)O)cc1'
         ]

scaffolds = []
for smi in smiles:
    scaffolds.append(generate_scaffold(smi))

import pandas as pd
from rdkit.Chem.Draw import IPythonConsole
from rdkit.Chem import PandasTools

data = pd.DataFrame({'smiles': smiles, 'scaffold': scaffolds})
PandasTools.AddMoleculeColumnToFrame(data, smilesCol='smiles', molCol='Mol (SMILES)')
PandasTools.AddMoleculeColumnToFrame(data, smilesCol='scaffold', molCol='Mol (Scaffold)')

data.iloc[:,2:]

Example 2: Collecting scaffolds from a list of SMILES¶

lipo_data = pd.read_csv('../clean_data/Lipophilicity.csv')
lipo_data.shape

(4200, 2)

lipo_data.head(1)

scaffolds = scaffold_to_smiles(lipo_data.smiles, use_indices=True)

counts = 0
for i in scaffolds.keys():
    if len(scaffolds[i]) ==1:
        counts +=1
print(f'There are {counts} ({counts/len(scaffolds):.2f} of the original data) scafoolds appearing only once.')

There are 1857 (0.77 of the original data) scafoolds appearing only once.

max_counts = 0
for i in scaffolds.keys():
    if len(scaffolds[i]) >= max_counts:
        max_counts = len(scaffolds[i])
        scaffold_max = i
print(f'The scaffold {scaffold_max} appears {max_counts} times, which is the most.')
Chem.MolFromSmiles(scaffold_max)

The scaffold c1ccccc1 appears 76 times, which is the most.

Example 3: Scaffold Split¶

splits, splits_index = scaffold_split(lipo_data.smiles, balanced=True, seed = 0)

Total scaffolds = 2,408 | train scaffolds = 1,915 | val scaffolds = 248 | test scaffolds = 245

train, val, test = splits
print(len(train), len(val), len(test))

3360 420 420

Example 4: Random Split¶

splits, splits_index = random_split(lipo_data.smiles, seed = 0)

train, val, test = splits
print(len(train), len(val), len(test))

3360 420 420

Example 5: Add multiple splits to a dataset.¶

lipo_splits = generate_folds(lipo_data, 'random', num_folds=10)
lipo_splits.head(1)

We can further add scaffold split to the dataset.

lipo_splits = generate_folds(lipo_splits, 'scaffold', num_folds=10)
lipo_splits.head(1)

Total scaffolds = 2,408 | train scaffolds = 1,951 | val scaffolds = 211 | test scaffolds = 246
Total scaffolds = 2,408 | train scaffolds = 1,947 | val scaffolds = 260 | test scaffolds = 201
Total scaffolds = 2,408 | train scaffolds = 1,887 | val scaffolds = 235 | test scaffolds = 286
Total scaffolds = 2,408 | train scaffolds = 1,984 | val scaffolds = 191 | test scaffolds = 233
Total scaffolds = 2,408 | train scaffolds = 1,906 | val scaffolds = 234 | test scaffolds = 268
Total scaffolds = 2,408 | train scaffolds = 2,041 | val scaffolds = 183 | test scaffolds = 184
Total scaffolds = 2,408 | train scaffolds = 1,894 | val scaffolds = 263 | test scaffolds = 251
Total scaffolds = 2,408 | train scaffolds = 1,907 | val scaffolds = 247 | test scaffolds = 254
Total scaffolds = 2,408 | train scaffolds = 1,917 | val scaffolds = 249 | test scaffolds = 242
Total scaffolds = 2,408 | train scaffolds = 1,905 | val scaffolds = 247 | test scaffolds = 256

DSsplitter

`generate_scaffold`[source]

`scaffold_to_smiles`[source]

`scaffold_split`[source]

`random_split`[source]

`generate_folds`[source]

Example 1: Generating Scaffolds from SMILES¶

Example 2: Collecting scaffolds from a list of SMILES¶

Example 3: Scaffold Split¶

Example 4: Random Split¶

Example 5: Add multiple splits to a dataset.¶

	Mol (SMILES)	Mol (Scaffold)
0
1
2
3
4
5
6
7
8
9
10

DSsplitter

generate_scaffold[source]

scaffold_to_smiles[source]

scaffold_split[source]

random_split[source]

generate_folds[source]

Example 1: Generating Scaffolds from SMILES¶

Example 2: Collecting scaffolds from a list of SMILES¶

Example 3: Scaffold Split¶

Example 4: Random Split¶

Example 5: Add multiple splits to a dataset.¶

`generate_scaffold`[source]

`scaffold_to_smiles`[source]

`scaffold_split`[source]

`random_split`[source]

`generate_folds`[source]