Thursday, October 14, 2010

TechTalk: IRC Crawlers





(ההרצאה מצולמת ותופיע אונליין)


שרון מפיקסקאוט (picscout) הציג. טביעת אצבע מבינארי של תמונה. כך אפשר, אם עובדים על תמונות רבות ממקורות רבים, בהנתן תמונה למצוא היכן עוד משתמשים בה (או בגילגולים שלה). זה טוב כדי לרדוף ולתבוע על שימוש לא הוגן (גניבה). משמש למעקב על זכויות יוצרים והפרתן. טביעת האצבע משתמשת בתכונות התמונה שאינן תלויות במניפולציות נפוצות (רוטציה, צבע וכו').

צריכים סקאלאביליות
תכנון למקרה של כשלים
העדפה לאי-סינכרון (קח בעיות לאופליין)

טענה של גוגל: מתוך 4.2 מיליארד תמונות, 380 מיליון מגיעות מהאתרים ה"גדולים"
דף אינטרנט בממוצע שוקל 320 ק"ב
מציג בעיות:
•ניתוח הדפים, ניתוח התעבודה, ניתוח המשאבים, ניתוח הקבצים -- parsing-- אתגרים בניתוח (לא הכל רגולרי, JavaScript ושפות דינאמיות, ...)
• מצב הרשת (קישורים שבורים, DNS...)
• Bot traps -- פה מעניין היה הדיון על מלכודות לרובוטים -- אני מחייך כי אני יודע על מה עבדתי ומה תכננתי בעניין זה ב-F5... -- ראו בגרסאות חדשות ועתידיות של ASM...
• מחפשים תוכן תמונות עם העדפה לאתרים איכותיים
• צריכים להביא תוכן של מיליוני דפים ביום גם מאותו הדומיין
• רוצים להצליח לגדול ולהתרחב בקלות (לחשב מדד לחשיבות המקור והדף ולחלק עמוסים ועדיפויות בהתאם)
• יציבות עם התאוששיות מהירה מתקלות
ארכיטקטורת BUS ומקביליות
משתמשים ב-nServiceBus, memcache, .net, ...

Agility pack מנתח HTML והופך אותו ל-XML תקני

מדדים ל-"איכות הדף"
• עומק הקישור בדומיין
• ארץ המקור של הדומיין
• יחס טקסט ל-HTML – יחס תמונות ל-HTML
• טריות הדף (מדד לכמה זמן שעבר מאז הביקור האחרון)
• תכונות התמונות בדף
• תוכן עסקי (לעומת אנשים פרטיים)

מנוע החיפוש שלהם מקבל תמונה ונותן תוצאה (מי עוד משתמש בתמונה)

והדיון גלש אח"כ על שימוש בעינון (אמאזון, ראקספייס וכו' עם חוויות שימוש...)

No comments:

Post a Comment