Tuesday, January 23, 2018

Scikit Learn API principles paper



The Scikit-Learn API is designed with the following guiding principles in mind, as outlined in the Scikit-Learn API paper:
  • Consistency: All objects share a common interface drawn from a limited set of methods, with consistent documentation.
  • Inspection: All specified parameter values are exposed as public attributes.
  • Limited object hierarchy: Only algorithms are represented by Python classes; datasets are represented in standard formats (NumPy arrays, Pandas DataFrames, SciPy sparse matrices) and parameter names use standard Python strings.
  • Composition: Many machine learning tasks can be expressed as sequences of more fundamental algorithms, and Scikit-Learn makes use of this wherever possible.
  • Sensible defaults: When models require user-specified parameters, the library defines an appropriate default value.

Roger Peng: The Art of Data Science: “A Guide for Anyone Who Works with Data”

Another excellent read. Short and to the point with many useful tips.

Roger Peng: The Art of Data Science: “A Guide for Anyone Who Works with Data”

Get it for free on leanpub.

למתעניינים ב-Data Science ושוקלים ללמוד להיות מדעני נתונים או לאלה שכבר עוסקים בתחום אני ממליץ מאד על הספר של רוג'ר פנג:


שלמה
mathematic.ai

The Elements of Data Analytic Style: “A guide for people who want to analyze data


Excellent read. Short and to the point. Many useful tips.

Jeff Leek: The Elements of Data Analytic Style: “A guide for people who want to analyze data.

Get it for free at leanpub



למתעניינים ב-Data Science ושוקלים ללמוד להיות מדעני נתונים או לאלה שכבר עוסקים בתחום אני ממליץ מאד על הספר של ג'ף ליק:


שלמה
mathematic.ai

Friday, January 19, 2018

איך ללמוד להיות מדען נתונים? איפה לומדים על למידת מכונה? איך?

Mathematic.ai logo

איך ללמוד דאטה סאיינס?

איך ללמוד להיות מדען נתונים? איפה לומדים על למידת מכונה? איך?

השפות הנפוצות היום בתחום הן
R

לכל אחת מהן סביבות פיתוח וסביבות עבודה וספריות וכלי עבודה נפוצים ומקובלים. כדאי להחליט אם רוצים להשקיע באחת או באחרת. היום נראה שהשקעה בפיתון מביאה את התשואה המהירה ביותר ביחס להשקעה וגם מזמנת יותר הזדמנויות בתעשייה, אם כי מומחים בשפת אר מבוקשים לא פחות ומוערכים מאד.

ברשימה הזאת אתמקד בפיתון, אם כי רובם ככולם של המקורות שאני מציין פה אינם לפייתוניסטים בלבד.

מקורות לימוד מעניינים ורלוונטיים

משהו מעשי וטוב להתחיל ולעבוד איתו זה ספר בחינם בגישה מעשית:
https://jakevdp.github.io/PythonDataScienceHandbook/

סרטוני הסבר מעולים מלווים במחברות ג'ופיטר טובות ויסודיות
https://www.youtube.com/user/dataschool

האתר הזה *מעולה* -- לא חופר, לא הולך סחור סחור, ממש נגיעות וטעימות בנושאים שונים, טכנולוגיות שונות, גישות שונות, שפות שונות וכלים שונים -- לא קשה לעקוב ולא קשה לסנן ולדלג לפי צורך ואז לחזור אחרי שמשלימים בסיס או צורך במקום אחר.
https://machinelearningmastery.com/start-here/


אם מוכנים לשלם כסף מידי חודש ל-Safari Online תמצא שם המון ספרים ווידאו ו-learning trails ללמוד כל דבר כמעט. ממליץ למצות את הדברים הטובים (דגש על הטובים ועל השווים) שבחינם לפני שרצים להוציא כסף. אם יש גישה לסאפארי אונליין ולא יודעים מהיכן להתחיל ומה מומלץ ללמוד שם, צרו קשר ואנסה לסייע.

קורסים שווים אונליין: Coursera, EdX, Udacity -- יש מקורות אחרים שלפעמים יש שם דברים שווים, אבל בעקרון המקורות הללו איכותיים ויש המון הזדמנויות ללמוד קורסים שווים בחינם (. איך בחינם? מנסים להרשם לקורס, אבל בוחרים בקישור הקטן והחבוי שרשום עליו Audit ואז מוותרים על האפשרות לקבל ציון והגשת/בדיקת תרגילים, אבל מקבלים גישה חינמית ומלאה לחומרי הלימוד.

כמה מהמומלצים:

Executive Data Science Specialization
https://www.coursera.org/specializations/executive-data-science
מדוע?
כי זה מסביר מהכלל אל הפרט, ומנקודת מבט עסקית/ניהולית -- כרגע כמתחיל בתחום חשוב שתדע להבין את ההקשר ואת המשמעויות וכיצד להסביר לאנשים שאינם מהתחום וגם שכן בתחום במושגים נכונים ותבין את התהליכים ואת ההזדמנויות ואת נקודות התורפה. זה זמן להשקיע שיחזור עם ריבית ועם דיווידנד.

Data Science Math Skills
https://www.coursera.org/learn/datasciencemathskills
מדוע?
בסיס מתמטי שטוב לדעת, טוב שיהיה, וטוב להזכר.

Applied Data Science with Python Specialization
https://www.coursera.org/specializations/data-science-python
מדוע?
מיומנויות בפיתון בתחום הזה הופכות יותר ויותר לנדרשות ומצופות ממועמדים. בפרט, שליטה והבנה מעולות ב-pandas, scikitlearn, numpy, scipy ובכלים נלווים נפוצים שיותר תלויי תחום ומרחב בעיה. שווה ליישר קו ולייצר לך בסיס טוב.

Process Mining
https://www.coursera.org/learn/process-mining
מדוע?
כי זה נושא שלא רבים מבינים בו, הוא לא מורכב ולא מסובך להבנה ויסייע לך לקבל יתרון יחסי בתחומים מסויימים. זה פותח את הראש ומאפשר לייצר ערך ולהביא לשולחן כלי עבודה טובים וחשובים שרבים אינם מכירים.

SQL for Data Science
https://www.coursera.org/learn/sql-for-data-science
מדוע?
כי זאת השפה וזה האמצעי הנפוץ ביותר והעקבי ביותר לבצע שאילתות למסדי נתונים. מבינים איך זה עובד ואיך משתמשים ומיומנים בזה? הופכים לנכס. זה גם יאפשר יותר עצמאות בעבודה לעומת אחרים  שיודעים להתמודד עם נתונים רק כשהכל מוכן ולפניהם – מי שעצמאי ומסוגל לגשת ולארגן הנתונים בעצמו במצב הרבה יותר טוב.

Data Science at Scale
https://www.coursera.org/specializations/data-science
מדוע?
כי אחרי שמשיגים מיומנות והבנה בעבודה במחשב שלנו, או במערכת יחידה, חשוב להבין את השווה ואת השונה כשעובדים במערכת מבוזרת בסילום (סקייל) גבוה ומה הבסיס של זה.

Data Mining Specialization
https://www.coursera.org/specializations/data-mining
מדוע? יש פה הסברים על בעיות גנריות ובעיות "טקסטבוק" חשובות וגם את הסקירה ההסטורית (תוך כדי הסברים) ואת האמצעים להבין ולהכיר ולהתנסות. זה יעזור מאד גם בתפקידי אנליסט וגם בתפקידי מדען.

זאת התחלה טובה ומועילה. לא חסרים מקורות איכותיים וטובים נוספים. עליהם ברשימה אחרת.

תרצו להתייעץ? כתבו לי בתגובות או צרו קשר בדוא"ל.
רוצים שאגיע לחברה שלכם לייעץ או להדריך או לפתור בעיות אלגוריתמיות, להנחות אתכם לפתור בעיות אלגוריתמיות? אשמח מאד לעזור באמצעות חברת המחקר האלגוריתמי היישומי שלי, MATHEMATIC.AI, בנושאים שכאלה ובהמון אחרים, פנו בדוא"ל או טלפנו אליי.


Wednesday, December 6, 2017

מתמטיקאי מחקר ופיתוח בע"מ -- Mathematic.ai

Matematic.ai logo

לאורך הקריירה שלי ובעיקר בגלל העיסוק שלי באלגוריתמים, בנתונים ובקשר שלהם לטכנולוגיה מצד אחד ולפתרון בעיות עסקיות מצד אחר יצא לי לקבל בקשות רבות לייעוץ.


בהתחלה במשך שנים מספר עשיתי זאת כשיכולתי ללא שום רצון וכוונה לקבל תמורה.
בהמשך כשחלק מהבקשות הפכו להיות מאד תובעיות התחלתי לסנן. כשהציעו תשלום, לא ידעתי כיצד לגבות אותו וכיצד להתנהל מול רשויות המס ומול המעסיק שלי.

עד שלפני שנים מספר התחלתי כעוסק פטור ודאגתי בחוזה ההעסקה שלי מול המעסיק שלי לסעיפים שיאפשרו לי לייעץ כל עוד זה לא בשעות העבודה שלי, לא בשימוש במשאבי החברה ולא מתחרה בעסקי החברה.
ראיתי כי טוב. היעוץ אפשר לי לקבל הכנסה נוספת נחמדה ולהכיר אנשים חדשים ותחומים חדשים ולהתמודד עם חומר חדש ועם בעיות חדשות. זה הפך להיות ערוץ משמעותי מאד בלמידה שלי ובהתפתחות שלי.

ככל שרבו הפניות לייעוץ מפה לאוזן ומהמלצות של מכרים ושל לקוחות התחלתי לסנן יותר ולבחור את הלקוחות ואת המטלות לפי תחומים שרציתי ללמוד, אנשים שרציתי להכיר ונושאים שרציתי להיחשף אליהם.

עם הזמן העוסק הפטור הפך לעוסק מורשה וביוני האחרון גם הקמתי חברה.

החוויות רבות, ההתנסות מאד מלמדת ומחכימה והנסיון הולך ומעשיר.

ההתנסות ביעוץ עזרה לי לפתח כישורים רבים וללמוד ולהחשף לתחומים חדשים:

  • למדתי להקים עסק
  • למדתי לתחזק עסק
  • למדתי לנהל מו"מ על חוזים ועל עסקאות
  • למדתי לנהל תקציב
  • למדתי על השווה ועל השונה בין חברות טכנולוגיה בתחומים רבים ועל המקצועות השונים ועל התהליכים השונים בחברות
  • למדתי להתנהל ביעילות רבה כדי שלא להישחק בין המחוייבויות שלי לעסק, לעבודתי במשרה מלאה שהיא בעצמה תובענית ביותר, למשפחה ולפנאי.
  • למדתי להתמקד יותר בדברים החשובים וזה חידד לי את הצורך להבחין טוב יותר בין עיקר וטפל
  • למדתי להתחיל ב-מה חשוב, למה זה חשוב, מה יהיה פתרון מספיק טוב, מה האלטרנטיבות
  • למדתי המון מתמטיקה, המון טכנולוגיה, המון כלים והמון תחומי דעת חדשים
  • הכרתי אנשים רבים ומעניינים
  • למדתי איך כן לנהל חברה ואיך לא לנהל חברה מתוך שלל דוגמאות
  • למדתי איך לתת ערך ללקוחות שלי
אני מאד ממליץ על התנסות בהקמה של עסק לצד פעילות כשכיר. זה מאד מפתח את האישיות ואת היכולות ומשמש כמנוע צמיחה לא מבוטל. גם, כמובן, הכנסה יפה.


אז, בואו לבקר:
מתמטיקאי מחקר ופיתוח בע"מ
mathematic.ai
מחקר, פיתוח ויעוץ אלגוריתמי

אנו מסייעים לחברות הזנק קטנות ולתאגידים גדולים לפתור בעיות קשות. אנו מוחות להשכיר. מיומנים במחקר אלגוריתמי יישומי ובתפעול מערכות אלגוריתמיות מבצעיות.

נסיון בפיתוח ובשיפורים אלגוריתמיים בתחומים רבים: עבוד שפה טבעית, הגנת סייבר, תקשורת נתונים, עבוד אותות, מערכות מבוזרות, מערכות פרסום אונליין, זהויות, גילוי הונאות. ראו נא את רשימת לקוחותינו הגדלה.