Thursday, October 14, 2010

TechTalk: IRC Crawlers





(ההרצאה מצולמת ותופיע אונליין)


שרון מפיקסקאוט (picscout) הציג. טביעת אצבע מבינארי של תמונה. כך אפשר, אם עובדים על תמונות רבות ממקורות רבים, בהנתן תמונה למצוא היכן עוד משתמשים בה (או בגילגולים שלה). זה טוב כדי לרדוף ולתבוע על שימוש לא הוגן (גניבה). משמש למעקב על זכויות יוצרים והפרתן. טביעת האצבע משתמשת בתכונות התמונה שאינן תלויות במניפולציות נפוצות (רוטציה, צבע וכו').

צריכים סקאלאביליות
תכנון למקרה של כשלים
העדפה לאי-סינכרון (קח בעיות לאופליין)

טענה של גוגל: מתוך 4.2 מיליארד תמונות, 380 מיליון מגיעות מהאתרים ה"גדולים"
דף אינטרנט בממוצע שוקל 320 ק"ב
מציג בעיות:
•ניתוח הדפים, ניתוח התעבודה, ניתוח המשאבים, ניתוח הקבצים -- parsing-- אתגרים בניתוח (לא הכל רגולרי, JavaScript ושפות דינאמיות, ...)
• מצב הרשת (קישורים שבורים, DNS...)
• Bot traps -- פה מעניין היה הדיון על מלכודות לרובוטים -- אני מחייך כי אני יודע על מה עבדתי ומה תכננתי בעניין זה ב-F5... -- ראו בגרסאות חדשות ועתידיות של ASM...
• מחפשים תוכן תמונות עם העדפה לאתרים איכותיים
• צריכים להביא תוכן של מיליוני דפים ביום גם מאותו הדומיין
• רוצים להצליח לגדול ולהתרחב בקלות (לחשב מדד לחשיבות המקור והדף ולחלק עמוסים ועדיפויות בהתאם)
• יציבות עם התאוששיות מהירה מתקלות
ארכיטקטורת BUS ומקביליות
משתמשים ב-nServiceBus, memcache, .net, ...

Agility pack מנתח HTML והופך אותו ל-XML תקני

מדדים ל-"איכות הדף"
• עומק הקישור בדומיין
• ארץ המקור של הדומיין
• יחס טקסט ל-HTML – יחס תמונות ל-HTML
• טריות הדף (מדד לכמה זמן שעבר מאז הביקור האחרון)
• תכונות התמונות בדף
• תוכן עסקי (לעומת אנשים פרטיים)

מנוע החיפוש שלהם מקבל תמונה ונותן תוצאה (מי עוד משתמש בתמונה)

והדיון גלש אח"כ על שימוש בעינון (אמאזון, ראקספייס וכו' עם חוויות שימוש...)

הרצאות טכניות לשיתוף ידע בתעשייה


אחד הדברים שהגדרתי לעצמי בעת חיפוש מקום העבודה הבא שלי אחרי F5 Networks היה שתהיה לארגון בכלל ולקבוצה שבה אני עובד בפרט תרבות של שיתוף מידע ושל הוראה הדדית. ב-Outbrain מתקיימות שיחות שבועיות בנושאים שונים, לרוב בנושאים של טכנולוגיה. מידי שבוע מתכנסים הכול בפינת ה-wii של החברה ומשתתפים בהרצאה. הדוברים הם לפעמים מתוך החברה ולפעמים דוברים מן החוץ. זה נפלא!


זה מזכיר לי את רוח הדברים בפגישות שוחרי פרל בישראל (Israeli Perl mongers)שבהן הצגתי פעמים רבות ושארגנתי בעצמי לפני כמה שנים ואפילו ארחתי במהלך שנה שלמה ב-F5. לומדים כך לא מעט וגם האפשרות להתחכך במומחים מתחומים שונים וממקומות שונים יש לה יתרון בהגדלת ובהשבחת הרשת החברתית והמקצועית. זה מצב שבו הכול מרוויחים.


מי שמארגן את השיחות אצלנו הוא חבר באותו הצוות שבו אני עובד. כמה נוח!

כבר קיבלתי לתת הרצאה על הוראת מתמטיקה לגיל הרך לאור העניין שהנושא מעורר בחברה.
אני נהנה ללמוד דברים חדשים ולשמוע הרצאות. נחמד ומוצלח מבחינתי שזה גם חלק מסביבת העבודה שלי.

Google Blogger Bug on IE8 -- cannot paste when editing a post


There's a very annoying bug that doesn't allow to paste stuff from the clipboard (even plain text) to a post while editing it. This yet makes me further not want to edit posts using IE.


I found someone also discussing it here. I couldn't find how to use the advice in the popular answer.
Any ideas?


The Java Programming Language Third Edition by Ken Arnold, James Gosling and David Holmes


I got to read and to get up to date with Java by reading The Java Programming Language Third Edition book by Arnold, Gosling and Holmes.

Reading the book is slightly more interesting than reading the phone book. There's a lot of useful information there. I can't say that the book is very productive for reading cover-to-cover (time will tell). However, I'm pretty sure that it will pay off as a useful reference book.

I didn't find the book as useful or as well written as the K&R book for C (The C Programming Language), possibly due to the vast differences between C and Java.


I'd be happy to get recommendations for good Java programming and design book for Java implementation.