SMILES
SMILES (Simplified Molecular Input Line Entry System) היא שפת סימון כימית המשמשת לייצוג מבנים מולקולריים כמחרוזות ליניאריות במקום ציור המולקולה. השפה פותחה בשנות ה-80 של המאה ה-20 על ידי דייוויד ויינינגר ועמיתיו. SMILES מספקת שיטה קומפקטית הניתנת לעיבוד על ידי מחשב לקידוד גרפים כימיים, אשר יכולים גם להיות מובנים בקלות על ידי בני אדם.[1]
שפה זו הפכה לאחד הפורמטים הנפוצים ביותר בכימו-אינפורמטיקה (תחום המשלב כימיה עם מדעי המחשב לצורך ניתוח ועיבוד מידע כימי), והיא תומכת ביישומים כגון אחסון במאגרי נתונים, חיפוש מבנים, מידול מולקולרי וכימיה חישובית. השילוב בין פשטות ליעילות חישובית הפך אותה לכלי יסוד במערכות מידע כימיות מודרניות .[2]
היסטוריה
[עריכת קוד מקור | עריכה]לפני SMILES התקיימו שיטות סימון קוויות אחרות כמו Wiswesser Line Notation (WLN), אך הן דרשו חוקים מורכבים שהיו קשים ללמידה עבור כימאים. ויינינגר ביקש ליצור מערכת שתהיה גם אינטואיטיבית לכימאים וגם מותאמת לניתוח על-ידי מחשב. שיטת SMILES פותחה כמענה לצורך בייצוג דיגיטלי יעיל של מבנים כימיים.
התיאור הרשמי הראשון של SMILES פורסם בשנת 1988 במאמר בכתב העת Journal of Chemical Information and Computer Sciences . במאמר זה הציג ויינינגר את המתודולוגיה ואת כללי הקידוד, והדגיש כי המערכת מאפשרת לכימאים לכתוב כל תיאור SMILES ברור שיבחרו, בעוד שהמחשב אחראי להמיר את הקלט לצורה סטנדרטית וייחודית אחת. מאמר נוסף שפורסם בשנת 1989 הציג את אלגוריתם, CANGEN אשר יוצר מחרוזת SMILES אחת ועקבית עבור כל מולקולה, והוא פותח גם כן על-ידי ויינינגר.
בהמשך הורחבה שיטת SMILES על-ידי חברת ,Daylight Chemical Information Systems אשר שילבה אותה בתוכנות כימו-אינפורמטיקה מסחריות. עם הזמן, יישומי קוד פתוח כגון Open Babel ו-RDKit תרמו להפצת הפורמט ולהפיכתו לנפוץ יותר.[2][1]
עקרונות בסיסיים
[עריכת קוד מקור | עריכה]השיטה של SMILES מבוססת על ייצוג מולקולות כגרפים, שבהם אטומים הם צמתים (nodes) וקשרים כימיים הם קשתות .(edges) לפי גישה זו, הגרפים הללו מומרים לאחר מכן למחרוזת פשוטה של תווים באמצעות מערכת כללים מוגדרת.[1][2]
לפי הכללים אטומים מיוצגים באמצעות הסימנים האטומיים שלהם, כאשר אטומים שאינם מימן נכתבים בדרך כלל בתוך סוגריים מרובעים. עם זאת, אם האטומים נמצאים במצב הערכיות הטיפוסי שלהם, ניתן לרשום את ה-"קבוצת האורגנית" הכוללת את B, C, N, O, P, S, F, Cl, Br ו-Iללא סוגריים. כל אטום מחוץ לקבוצה זו, או כזה הנמצא במצב לא טיפוסי, חייב להופיע בתוך סוגריים מרובעים. בנוסף, אטומי מימן קשורים ומטענים פורמליים מצוינים תמיד בתוך סוגריים .
קשר יחיד, כפול, משולש וארומטי מיוצגים באמצעות הסימנים -, =, # ו- : בהתאמה. עם זאת, לעיתים אין צורך לציין קשרים יחידים במפורש, לדוגמה, אתנול ניתן לכתוב כ-CCO. בנוסף, הסתעפויות במבנה מסומנות באמצעות סוגריים עגולים. לדוגמה, חומצה איזובוטירית נכתבת כ-CC(C)C(=O)O .
כדי לייצג מבנים טבעתיים, אחד הקשרים בטבעת נבחר כנקודת פתיחה, ושני האטומים המחוברים אליו מסומנים באותה ספרה. לדוגמה, ציקלוהקסאן נכתב כ-C1CCCCC1 [1]. בנוסף, מולקולות ארומטיות מסומנות באמצעות אותיות קטנות, למשל c1ccoc1 עבור פוראן. המערכת משתמשת באלגוריתם פנימי לזיהוי ארומטיות הפועל לפי כלל היקל (Hückel) לזיהוי טבעות של אטומי sp² המכילות 4n + 2 אלקטרוני π. כלומר, המערכת יכולה לקבל מבני קקולה (Kekulé) סטנדרטיים שבהם מופיעים קשרים כפולים ויחידים לסירוגין ולהמיר אותם לסימון ארומטי כדרוש .[1]
קנוניזציה של SMILES ואלגוריתם CANGEN
[עריכת קוד מקור | עריכה]מכיוון שניתן לכתוב מולקולות בדרכים רבות, SMILES עושה שימוש בתהליך הנקרא קנוניזציה (Canonicalization), שמטרתו להבטיח שלכל מולקולה תהיה צורת ייצוג ייחודית. תהליך זה חשוב למשימות כגון אינדוקס מאגרי נתונים, זיהוי כפילויות והשוואת מבנים כימיים. התהליך מתבצע באמצעות אלגוריתם CANGEN הפועל בשני שלבים שונים כדי להפיק תוצאה חד משמעית ויחידה עבור כל מבנה נתון.[2]
בשלב הראשון, הנקרא CANON נבחנת קישוריות האטומים במולקולה. לכל אטום ניתן מספר ייחודי על בסיס מאפיינים מבניים כגון מספר אטומי, ערכיות ומטען, וכן על פי קישוריות מורחבת. כדי להבחין במדויק בין מחלקות סימטריה שונות, האלגוריתם משתמש בפונקציה מתמטית המבוססת על מכפלות של מספרים ראשוניים המבוססת על מכפלות של מספרים ראשוניים. שימוש במכפלות של מספרים ראשוניים מבטיח שכל מבנה מולקולרי יקבל ייצוג יחיד ועקבי .[2]
בשלב השני, הנקרא ,GENESהאלגוריתם משתמש בתוויות שנוצרו וקורא את מבנה המולקולה לפי סדר מוגדר כדי ליצור את מחרוזת ה- .SMILESהוא מתחיל מהאטום בעל התווית הנמוכה ביותר וממשיך לאורך ההסתעפויות לפי הסדר הקנוני שנקבע בשלב הראשון. במבנים פוליציקליים משתמש האלגוריתם בשיטה דו-שלבית כדי לוודא שהמספרים המשמשים לסגירת הטבעות יהיו תמיד זהים .התוצאה הסופית היא מחרוזת SMILES יחידה וחד-משמעית עבור אותו מבנה.[2]
שימושים של SMILES
[עריכת קוד מקור | עריכה]SMILES מאפשרת אחסון קומפקטי של ספריות כימיות עצומות. לפי ויינינגר, המערכת יכולה לצמצם באופן משמעותי את צורכי האחסון, מידע שבעבר דרש 1000-2000 תווים יכול להידחס לכ-40 תווים בלבד בעזרת SMILES .
בנוסף, SMILES מאפשרת יכולות כגון חיפוש תת-מבנים .(substructure searching) היא מאפשרת לחוקרים למצוא קבוצות פונקציונליות או תבניות מסוימות בתוך מולקולות גדולות יותר. בעזרת תהליך הקנוניזציה, מחשבים יכולים להשוות בין מולקולות ולזהות כפילויות כמעט באופן מיידי .[1][2]
SMILES בכימיה המודרנית
[עריכת קוד מקור | עריכה]SMILES ממשיכה למלא תפקיד מרכזי בכימו-אינפורמטיקה, במיוחד בתחום למידת המכונה (ML, Machine Learning) שבו מודלים רבים מתייחסים למחרוזות SMILES כרצפים, דבר המאפשר ליישם טכניקות של עיבוד שפה על נתונים כימיים. השיטה אפשרה פיתוח מערכות חיפוש מבנים מהירות במיוחד וכן יצירת מאגרי נתונים כימיים קומפקטיים. כשפה פשוטה לקריאה על-ידי בני אדם המבוססת על כללים חישוביים קפדניים, היא ממשיכה להשפיע על פיתוח שפות כימיות חדשות. כמו כן, חשיבותה משתקפת באימוצה הרחב במחקר אקדמי, בפיתוח תרופות ובפלטפורמות תוכנה כימיות. גם עם הופעת מזהים חדשים יותר ,SMILES נותרת כלי מרכזי לייצוג ולמניפולציה של מבנים כימיים.[1][2]
מגבלות
[עריכת קוד מקור | עריכה]למערכת יש מספר מגבלות חשובות. ראשית, קיימת עמימות כאשר אין קנוניזציה משום שמחרוזות SMILES שונות עשויות לייצג את אותה המולקולה. בנוסף, הפורמט אינו כולל מידע תלת-ממדי מובנה ולכן יש לקודד סטריאוכימיה באופן מפורש בתוך המחרוזת. מגבלה נוספת היא התלות במימוש התוכנתי, שכן ערכות כלים שונות עשויות להפיק ייצוג SMILES קנוני שונה עבור אותה מולקולה [2]. כמו כן, קיימת מורכבות בייצוג תרכובות אנאורגניות או אורגנו-מתכתיות משום שמודל הגרף עליו מבוסס SMILES פחות מתאים לתיאור קשרים דלוקליזטוריים או קומפלקסי קואורדינציה. מגבלות אלו הובילו לפיתוח פורמטים חלופיים, כגון InChI המספק מזהה סטנדרטי מלא המאושר על-ידי IUPAC.[1][2]
מקורות
[עריכת קוד מקור | עריכה][1] Weininger, D. (1988). SMILES, a Chemical Language and Information System: 1: Introduction to Methodology and Encoding Rules. Journal of Chemical Information and Computer Sciences, 28(1), 31–36. https://doi.org/10.1021/ci00057a005
[2] Weininger, D., Weininger, A., & Weininger, J. L. (1989). SMILES. 2. Algorithm for Generation of Unique SMILES Notation. Journal of Chemical Information and Computer Sciences, 29(2), 97–101. https://doi.org/10.1021/ci00062a008
[3] Warr, W. A. (2011). Representation of chemical structures. Annual Reports in Computational Chemistry, 7, 51–94.
Simplified Molecular-Input Line-Entry System ובראשי תיבות SMILES היא שיטת סימול ליניארית ופשוטה לייצוג מולקולות.
SMILES היא שיטת סימול לייצוג של צורונים כימיים באופן ממוחשב עבור צרכים של עיבוד מידע, תכנות ומידול בתחום הכימיה.[3] השיטה מבוססת על עקרונות התיאור הגרפי הדו-ממדי של מולקולות על ידי שימוש באותיות ובסמלים כך שיתארו את הצמתים ואת הקצוות של הגרף, קרי, את האטומים ואת הקשרים הכימיים.[4] הסמלים, מבוססי ASCII, מסודרים לאורך קו (line notation) בסדר מסוים, כלומר, מחרוזת של סמלים ואותיות (characters) המתארת בצורה חד משמעית את המבנה הטופולוגי של המולקולה.
SMILES נחשבת לשיטה אינטואיטיבית ופשוטה לקריאה המובנת גם למחשב וגם למשתמש שאינו כימאי בהכרח.[3] כדי לוודא שהמחשב יוכל להבין באיזה צורון מדובר, ישנם כללי כתיבה ברורים למחרוזת SMILES שיש להקפיד עליהם על מנת שהמולקולה תתואר בצורה נכונה. סימול SMILES משמש בין היתר לייצוג של מולקולות במאגרי מידע שונים ולחיפושן באמצעות אלגוריתמים. בנוסף, נעשה שימוש בSMILES במגוון תחומי כימיה כגון מידול מנגנונים קינטיים בתהליכים כימיים ולמידת מכונה (אנ') לצורכי חישובים וניבויים של מערכות מולקולריות.[3][5]
היסטוריה
[עריכת קוד מקור | עריכה]מפרט SMILES המקורי נכנס לשימוש בשנות ה-80, ומאז הוא שונה והורחב. היזם של שיטת SMILES היה דייוויד ווינינגר (אנ') שפעל בשיתוף עם הסוכנות האמריקנית להגנת הסביבה.[6][7] כימאים וחוקרים נוספים תרמו גם הם לפיתוח הראשוני של SMILES וכן לעדכונים ולשינויים שנערכו בשיטה במרוצת השנים, שרבים מהם בוצעו על ידי חברתDaylight Chemical Information Systems.[4] בשנת 2007 פותח תקן פתוח בשם OpenSMILES בקהילת הכימיה Blue Obelisk שעושה שימוש בקוד פתוח.
ישנן שיטות ליניאריות נוספות כגון Wiswesser Line Notation (WLN) ואחרות. שיטה פופולרית נוספת לקידוד מולקולות בצורה קווית היא שיטת InChI שפותחה ב-2006 על ידי IUPAC, אך נחשבת לפחות אינטואיטיבית לקריאה עבור המשתמש.
תכונות
[עריכת קוד מקור | עריכה]SMILES יכול לתאר מחרוזת בודדת או מערך של מחרוזות המתארות מספר מולקולות. בנוסף, מחרוזות שונות יכולות לתאר את אותה המולקולה: אתנול, למשל, יכול להיות מתואר כ-CCO, OCC ו-C(O)C. כלומר, SMILES אינה שיטה קנונית, מה שיכול להוות בעיה בקידוד ולהאריך את זמן החיפוש בהינתן מאגר נתונים גדול.
יתר על כן, חוסר הקנוניות מקשה על התוכנה בחיפוש ובקידוד של מבנים שונים ושל תת-מבנים מולקולריים. כדי להתגבר על הבעיות הללו, ישנם אלגוריתמים המפיקים SMILES קנונים כמו OpenEye Scientific Software ו-Universal Smiles. כלומר, בעיית הקנוניות היא תלוית-אלגוריתם. בנוסף, SMILES יכולה לתאר את הסידור המרחבי של המולקולה במבנה של טטראדר או של קשר כפול וכן של איזומרים שונים ואף לאפיין כיראליות של מולקולות, כפי שמפורט בכללים מטה.
כללי הכתיבה של SMILES
[עריכת קוד מקור | עריכה]אטומים נכתבים ב-SMILES באמצעות אותיות גדולות, ואליהן מתלוות אותיות קטנות, אם היסוד הכימי מכיל יותר מאות אחת. החוק הבסיסי של SMILES הוא הכללת אטומי המימן באופן אוטומטי, כך שאין צורך לציינם באופן מפורש, על אף שבפועל ניתן להוסיף אותם. ישנם מקרים מיוחדים שבהם יש לציינם באופן מפורש, לדוגמה רדיקלים כימיים.
כדוגמה לסימול מולקולה פשוטה, מולקולת מתאן תסומן כ-C בלבד. סימול זה מציין פחמן עם ארבעה קשרים יחידים קוולנטיים לארבעה מימנים (דוגמה 1 בטבלה מטה). מנגד, אם מדובר בצורון שהוא יסוד כימי או רדיקל, או שאינו האיזוטופ השכיח, יש להוסיף סוגריים מרובעים לצורון אם מידע נוסף רלוונטי. להלן, אטום פחמן יסומן על ידי [C] (דוגמה 2).
דוגמה נוספת היא ייצוג של קטיון טיטניום Ti4+ בשני אופנים זהים: [Ti+4] או לחלופין [Ti++++] (דוגמה 3). ניתן אף לייצג מטענים פורמליים במולקולה, כגון N2O כפי שמופיע בדוגמה 4. דוגמה למולקולה עם רדיקל היא אתנול עם רדיקל על הפחמן הנמצא בקצה המולקולה (דוגמה 5).[6]
- קשרים קוולנטיים בין שני אטומים מהסוגים: יחידים, כפולים ומשולשים, מתורגמים ב-SMILES לסימנים -, =, #,בהתאמה. קשר קוולנטי בודד יכול להיות מיוצג ללא מקף כלל ואכן הנוהג הוא לא לציינו. לדוגמה, מולקולת אתאן המיוצגת כך: CC, זהה מבחינה סמנטית לC-C (דוגמה 6). דוגמה נוספת למולקולה עם קשרים יחידים וכפולים לסירוגין היא הקסדיאן (2,4-hexadiene) (דוגמה 7).
- קשרים נוספים הניתנים לייצוג על ידי SMILES, הם קשרים יוניים וקשרי ואן דר ואלס המסומנים בנקודה (דוגמה 8 עבור נתרן כלורי). ניתן אף לייצג קשרים מרובעים על ידי הסימן $.
- סטריאוכימיה מיוצגת על ידי לוכסן ימני (/) או שמאלי (\) לקשר קוולנטי יחיד מסוג טראנס (trans) או ציס (cis) הסמוך לקשר כפול. שני לוכסנים עוקבים בהטייה זהה, מייצגים קשר טראנס ואילו שני לוכסנים בהטיות מנוגדות מייצגים קשר ציס (דוגמאות 9 ו-10).
- מבחינת סטריאוכימיה כיראלית, ישנה דרך לייצג מולקולות במבנה טטראדרלי זהה, הנקראות אננטיומרים, אך מהוות תמונת ראי אחת של השנייה. ייצוג של סיבוב המרחב עם כיוון השעון מסומן על ידי הסימון @@ ואילו סיבוב נגד כיוון השעון מסומן על ידי הסימן @. לדוגמה, מולקולת אלאנין בשתי הקונפיגורציות בדוגמאות 11 ו-12 בטבלה.
- על מנת לייצג טבעת כימית (טבעת בעלת שלושה אטומים לפחות) בתצורת SMILES, יש לפצל את הטבעת במיקום שרירותי על מנת לסמן את ההתחלה ואת הסוף של הטבעת באמצעות תווית נומרית. לדוגמה, מולקולת בנזן תסומן על ידי C1=CC=CC=C1 (דוגמה 13). התוויות הספרה "1" משמעה ששני האטומים הסמוכים משמאל לתוויות מחוברים גם הם. אם מדובר בטבעות בי-ציקליות, ניתן לפצל את הטבעת הראשונה במיקום שרירותי עם אינדקס 1, ואילו את הטבעת השנייה לפצל עם אינדקס 2. להלן, מולקולת דקאלין תיכתב ב-SMILES באופן הבא: C1CCCC2C1CCCC2. צורה נוספת לרישום מולקולה זאת, היא C1CCCC2CCCCC12. בסימול זה, הפחמן האחרון מייצג סגירה של טבעות 1 ו-2, כל אחת לחוד (דוגמה 14). אם מדובר במולקולה בעלת מספר טבעות העולה על 9, תחילת האינדקס יסומן על ידי הסימן % לפני המספור עצמו. לדוגמה, הסימון: %10 מציין כי מתייחסים לטבעת מספר 10 במולקולה, ולא להתחלה או לסוף של טבעות 0 ו-1. מומלץ להשתמש באינדקסים שהם מספרים עולים ועוקבים על מנת שלמשתמש יהיה קל ונוח יותר לקרוא את ייצוג ה-SMILES של המולקולה.
- ארומטיות ניתנת לייצוג על ידי אחת משתי הדרכים הבאות:
- ייצוג קשרים יחידים וכפולים לסירוגין, להלן, מקרה של מולקולת בנזן C1=CC=CC=C1 (דוגמה 13) בהתאם לשיטת מבני קקולה.
- ייצוג הטבעת הארומטית על ידי אותיות קטנות, להלן, המקרה של מולקולת טולואן, המיוצג בתור Cc1ccccc1 (ששת הפחמנים של הטבעת מיוצגים באותיות קטנות ואילו המתמיר המתילי שלה מיוצג בפחמן באות גדולה, דוגמה 15). ייצוג זה מתאים לשיטת קלאר עבור מולקולות פוליציקליות ארומטיות.[8] במולקולות ארומטיות ממשפחת פירול, במקרה בו ישנו קשר קוולנטי יחיד בין חנקן למימן במולקולה ארומטית, יש לציין זאת באופן הבא: [nH]. דוגמה למולקולה כזאת היא אימידאזול שהייצוג שלה יהיה n1c[nH]cc1 (דוגמה 16). במקרה בו טבעות ארומטיות מחוברות בקשר יחיד ביניהן, כגון ביפניל, יש לציין קשר יחיד זה במפורש ב-SMILES. עבור ביפניל, הייצוג יהיה: c1ccccc1-c2ccccc2 (דוגמה 17).
- אטומים מותמרים על טבעת או על שלד המולקולה יסומנו בתוך סוגריים עגולים. לדוגמה, מולקולת איזובוטאן תיוצג על ידי CC(C)C (דוגמה 18). דוגמה נוספת לסיעוף היא הוספת שייר קרבוקסילי ואמיני לשלד פחמימני במולקולה אלאנין. מולקולה זאת תירשם בצורה הבאה: CCC(N)C(=O), כאשר השייר האמיני מסומל על ידי (N) והשייר הקרבוקסילי מסומל על ידי (O=). השלמת המימנים מתבצעת באופן אוטומטי (דוגמה 19).
- מתמירים על גבי טבעת יכולים להיכתב באופן הנזכר לעיל, במיקום המתאים הנמצא בתוך סימון הטבעת. לחלופין אפשר לא לכתוב את המתמיר של הטבעת בסוגריים עגולים אם המתמיר נכתב לפני פתיחה או סגירה של הטבעת. לדוגמה מולקולת טולואן (דוגמה 15).
- על מנת לייצג איזוטופ מסוים, יש לכתוב בסוגריים מרובעים את מספר האיזוטופ לפני סימול היסוד. לדוגמה, פחמן 14 ייצוג על ידי [14C]. בנזן עם פחמן יחיד מסוג פחמן 14, יסומן באופן הבא: [14c]1ccccc1.
דוגמאות למולקולות שונות וייצוגן ב-SMILES[9]
[עריכת קוד מקור | עריכה]הרחבות של SMILES
[עריכת קוד מקור | עריכה]ישנן מספר הרחבות מבוססות SMILES אשר נועדו לדייק ולהקל על השימוש. אחת מהן היא SMARTS, שיטה המאפשרת חיפוש של תת-מבנים ושל מבנים מולקולריים במאגרי נתונים באמצעות מחרוזת SMILES מסוימת. למשל, כדי לחפש מבנים של מולקולות המכילות פנול, ניתן להשתמש במחרוזת SMARTS הבאה: [OH]c1cccccc1. השיטה כוללת אופרטורים לוגיים ומתארי מולקולות בנוסף לאלו של SMILES.[3][10]
הרחבה נוספת היא SMIRKS שמתארת תגובות גנריות, כלומר קבוצה של תגובות שקורה בהן תהליך זהה. תגובות מתוארות על ידי הפרדה בין מגיבים, תוצרים, ומחוללי תגובה באמצעות הסימן <, גם ב-SMIRKS וגם ב-SMARTS. ניתן להשאיר שדות ריקים בתגובה. במקרה שבו רוצים לכלול מספר מולקולות, מפרידים באמצעות נקודה. SMIRKS היא למעשה הכלאה של SMILES ו-SMARTS שנועדה לענות על הצורך הכפול של תגובה גנרית: ביטוי התגובה וביטוי של השפעות עקיפות לתגובה, כגון אטומים שלא משתתפים באופן ישיר בתגובה.[11][12]
ראו גם
[עריכת קוד מקור | עריכה]קישורים חיצוניים
[עריכת קוד מקור | עריכה]
אתר האינטרנט הרשמי של SMILES (באנגלית)- חיפוש מולקולות באמצעות SMILES, באתר rmg
- מאגר לחיפוש צורונים כימיים, באתר PubChem
- תרגיל כתיבת SMILES, באתר EPA
הערות שוליים
[עריכת קוד מקור | עריכה]- 1 2 3 4 5 6 7 David Weininger, SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, Journal of Chemical Information and Computer Sciences 28, 1988-02-01, עמ' 31–36 doi: 10.1021/ci00057a005
- 1 2 3 4 5 6 7 8 9 David Weininger, Arthur Weininger, Joseph L. Weininger, SMILES. 2. Algorithm for generation of unique SMILES notation, Journal of Chemical Information and Computer Sciences 29, 1989-05-01, עמ' 97–101 doi: 10.1021/ci00062a008
- 1 2 3 4 Wigh DS, Goodman JM, Lapkin AA. A review of molecular representation in the age of machine learning. Wiley Interdiscip Rev Comput Mol Sci. 2022;12(5):1-19. doi:10.1002/wcms.1603
- 1 2 Daylight Theory: SMILES, www.daylight.com
- ↑ Quirós M, Gražulis S, Girdzijauskaitė S, Merkys A, Vaitkus A. Using SMILES strings for the description of chemical connectivity in the Crystallography Open Database. J Cheminform. 2018;10(1):1-17. doi:10.1186/s13321-018-0279-6
- 1 2 David Weininger, SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, Journal of Chemical Information and Computer Sciences 28, 1988-02-01, עמ' 31–36 doi: 10.1021/ci00057a005
- ↑ Office of Research & Development, SMILES (SIMPLIFIED MOLECULAR IDENTIFICATION AND LINE ENTRY SYSTEM): A LINE NOTATION AND COMPUTERIZED INTERPRETER FOR CHEMICAL STRUCTURES, cfpub.epa.gov (באנגלית)
- ↑ Hansen P, Zheng M. The Clar number of a benzenoid hydrocarbon and linear programming. J Math Chem. 1994;15(1):93-107. doi:10.1007/BF01277551
- ↑ Probst D, Reymond JL. SmilesDrawer: Parsing and Drawing SMILES-Encoded Molecular Structures Using Client-Side JavaScript. J Chem Inf Model. 2018;58(1):1-7. doi:10.1021/acs.jcim.7b00425
- ↑ Daylight Theory: SMARTS - A Language for Describing Molecular Patterns, www.daylight.com
- ↑ Daylight Theory: SMIRKS - A Reaction Transform Language, www.daylight.com
- ↑ 5.8: Line Notation (SMILES and InChI), Chemistry LibreTexts, 2020-08-11 (באנגלית)






