Tuesday, January 23, 2018

Scikit Learn API principles paper



The Scikit-Learn API is designed with the following guiding principles in mind, as outlined in the Scikit-Learn API paper:
  • Consistency: All objects share a common interface drawn from a limited set of methods, with consistent documentation.
  • Inspection: All specified parameter values are exposed as public attributes.
  • Limited object hierarchy: Only algorithms are represented by Python classes; datasets are represented in standard formats (NumPy arrays, Pandas DataFrames, SciPy sparse matrices) and parameter names use standard Python strings.
  • Composition: Many machine learning tasks can be expressed as sequences of more fundamental algorithms, and Scikit-Learn makes use of this wherever possible.
  • Sensible defaults: When models require user-specified parameters, the library defines an appropriate default value.

Roger Peng: The Art of Data Science: “A Guide for Anyone Who Works with Data”

Another excellent read. Short and to the point with many useful tips.

Roger Peng: The Art of Data Science: “A Guide for Anyone Who Works with Data”

Get it for free on leanpub.

למתעניינים ב-Data Science ושוקלים ללמוד להיות מדעני נתונים או לאלה שכבר עוסקים בתחום אני ממליץ מאד על הספר של רוג'ר פנג:


שלמה
mathematic.ai

The Elements of Data Analytic Style: “A guide for people who want to analyze data


Excellent read. Short and to the point. Many useful tips.

Jeff Leek: The Elements of Data Analytic Style: “A guide for people who want to analyze data.

Get it for free at leanpub



למתעניינים ב-Data Science ושוקלים ללמוד להיות מדעני נתונים או לאלה שכבר עוסקים בתחום אני ממליץ מאד על הספר של ג'ף ליק:


שלמה
mathematic.ai

Friday, January 19, 2018

איך ללמוד להיות מדען נתונים? איפה לומדים על למידת מכונה? איך?

Mathematic.ai logo

איך ללמוד דאטה סאיינס?

איך ללמוד להיות מדען נתונים? איפה לומדים על למידת מכונה? איך?

השפות הנפוצות היום בתחום הן
R

לכל אחת מהן סביבות פיתוח וסביבות עבודה וספריות וכלי עבודה נפוצים ומקובלים. כדאי להחליט אם רוצים להשקיע באחת או באחרת. היום נראה שהשקעה בפיתון מביאה את התשואה המהירה ביותר ביחס להשקעה וגם מזמנת יותר הזדמנויות בתעשייה, אם כי מומחים בשפת אר מבוקשים לא פחות ומוערכים מאד.

ברשימה הזאת אתמקד בפיתון, אם כי רובם ככולם של המקורות שאני מציין פה אינם לפייתוניסטים בלבד.

מקורות לימוד מעניינים ורלוונטיים

משהו מעשי וטוב להתחיל ולעבוד איתו זה ספר בחינם בגישה מעשית:
https://jakevdp.github.io/PythonDataScienceHandbook/

סרטוני הסבר מעולים מלווים במחברות ג'ופיטר טובות ויסודיות
https://www.youtube.com/user/dataschool

האתר הזה *מעולה* -- לא חופר, לא הולך סחור סחור, ממש נגיעות וטעימות בנושאים שונים, טכנולוגיות שונות, גישות שונות, שפות שונות וכלים שונים -- לא קשה לעקוב ולא קשה לסנן ולדלג לפי צורך ואז לחזור אחרי שמשלימים בסיס או צורך במקום אחר.
https://machinelearningmastery.com/start-here/


אם מוכנים לשלם כסף מידי חודש ל-Safari Online תמצא שם המון ספרים ווידאו ו-learning trails ללמוד כל דבר כמעט. ממליץ למצות את הדברים הטובים (דגש על הטובים ועל השווים) שבחינם לפני שרצים להוציא כסף. אם יש גישה לסאפארי אונליין ולא יודעים מהיכן להתחיל ומה מומלץ ללמוד שם, צרו קשר ואנסה לסייע.

קורסים שווים אונליין: Coursera, EdX, Udacity -- יש מקורות אחרים שלפעמים יש שם דברים שווים, אבל בעקרון המקורות הללו איכותיים ויש המון הזדמנויות ללמוד קורסים שווים בחינם (. איך בחינם? מנסים להרשם לקורס, אבל בוחרים בקישור הקטן והחבוי שרשום עליו Audit ואז מוותרים על האפשרות לקבל ציון והגשת/בדיקת תרגילים, אבל מקבלים גישה חינמית ומלאה לחומרי הלימוד.

כמה מהמומלצים:

Executive Data Science Specialization
https://www.coursera.org/specializations/executive-data-science
מדוע?
כי זה מסביר מהכלל אל הפרט, ומנקודת מבט עסקית/ניהולית -- כרגע כמתחיל בתחום חשוב שתדע להבין את ההקשר ואת המשמעויות וכיצד להסביר לאנשים שאינם מהתחום וגם שכן בתחום במושגים נכונים ותבין את התהליכים ואת ההזדמנויות ואת נקודות התורפה. זה זמן להשקיע שיחזור עם ריבית ועם דיווידנד.

Data Science Math Skills
https://www.coursera.org/learn/datasciencemathskills
מדוע?
בסיס מתמטי שטוב לדעת, טוב שיהיה, וטוב להזכר.

Applied Data Science with Python Specialization
https://www.coursera.org/specializations/data-science-python
מדוע?
מיומנויות בפיתון בתחום הזה הופכות יותר ויותר לנדרשות ומצופות ממועמדים. בפרט, שליטה והבנה מעולות ב-pandas, scikitlearn, numpy, scipy ובכלים נלווים נפוצים שיותר תלויי תחום ומרחב בעיה. שווה ליישר קו ולייצר לך בסיס טוב.

Process Mining
https://www.coursera.org/learn/process-mining
מדוע?
כי זה נושא שלא רבים מבינים בו, הוא לא מורכב ולא מסובך להבנה ויסייע לך לקבל יתרון יחסי בתחומים מסויימים. זה פותח את הראש ומאפשר לייצר ערך ולהביא לשולחן כלי עבודה טובים וחשובים שרבים אינם מכירים.

SQL for Data Science
https://www.coursera.org/learn/sql-for-data-science
מדוע?
כי זאת השפה וזה האמצעי הנפוץ ביותר והעקבי ביותר לבצע שאילתות למסדי נתונים. מבינים איך זה עובד ואיך משתמשים ומיומנים בזה? הופכים לנכס. זה גם יאפשר יותר עצמאות בעבודה לעומת אחרים  שיודעים להתמודד עם נתונים רק כשהכל מוכן ולפניהם – מי שעצמאי ומסוגל לגשת ולארגן הנתונים בעצמו במצב הרבה יותר טוב.

Data Science at Scale
https://www.coursera.org/specializations/data-science
מדוע?
כי אחרי שמשיגים מיומנות והבנה בעבודה במחשב שלנו, או במערכת יחידה, חשוב להבין את השווה ואת השונה כשעובדים במערכת מבוזרת בסילום (סקייל) גבוה ומה הבסיס של זה.

Data Mining Specialization
https://www.coursera.org/specializations/data-mining
מדוע? יש פה הסברים על בעיות גנריות ובעיות "טקסטבוק" חשובות וגם את הסקירה ההסטורית (תוך כדי הסברים) ואת האמצעים להבין ולהכיר ולהתנסות. זה יעזור מאד גם בתפקידי אנליסט וגם בתפקידי מדען.

זאת התחלה טובה ומועילה. לא חסרים מקורות איכותיים וטובים נוספים. עליהם ברשימה אחרת.

תרצו להתייעץ? כתבו לי בתגובות או צרו קשר בדוא"ל.
רוצים שאגיע לחברה שלכם לייעץ או להדריך או לפתור בעיות אלגוריתמיות, להנחות אתכם לפתור בעיות אלגוריתמיות? אשמח מאד לעזור באמצעות חברת המחקר האלגוריתמי היישומי שלי, MATHEMATIC.AI, בנושאים שכאלה ובהמון אחרים, פנו בדוא"ל או טלפנו אליי.