none
📌הזמנה למפגש קבוצת PASS בעברית ביום חמישי, 24 בינואר, 15:00 שעון ישראל📢 RRS feed

  • דיון כללי

  • שלום מקבוצת PASS בעברית,

    📌הזמנה למפגש ביום חמישי, 24 בינואר, 15:00 שעון ישראל📢

    שימו לב לזמן הפגישה! אם נרשמתם לאירוע מוקדם, אז שימו לב לשינוי בשעה ולזמן המעודכנת של המפגש.

    ✔️ מרצה אורח: פיני קרישר! 😍

    פיני הוא אחד ממובילי קהילת פלטפורמת הנתונים בישראל וחבר פעיל בקבוצת המשתמשים המקומית מזה שנים רבות. זה תענוג גדול לארח אותו בקבוצה הווירטואלית שלנו, ולתת לו את הבמה כדי לחלוק מהניסיון הרב שיש לו בעבודה עם סוגים שונים של מסדי נתונים על פלטפורמות שונות - שם המשחק היום הוא גיוון.

    ✔️ נושא המפגש הקרוב: סביבות מסדי נתונים שונות בענן.

    ✔️ במפגש הקרוב פיני יסקור שני מסדי נתונים בענן של מיקרוסופט, ומסד נתונים אחד בענן של גוגל. את ההרצאה נפתח עם סקירה רחבה שרתי Azure SQL Database, ונעבור לדבר על האפשרויות הרבות הקשורות לשירותי מסד הנתונים. לאחר מכן פיני מתכוון לעבור בקצרה על השירות Azure Data explorer ועל הייעודים השונים שלו. כאשר לסיום נראה בקצרה את המוצר של גוגל big query.

    ✔️ הרשמה למפגש:

    https://globalhebrew.pass.org/Event.aspx?EventID=12389

    ✔️ המפגשים נערכים Online, וניתן להצטרף למפגש מכל מקום בו אתה נמצא. כל מה שצריך זה אינטרנט ומחשב עם רמקולים.

    * הפיצו את הבשורה בכל ערוצי התקשורות המתאימים📨💬📞

    ** זיכרו להירשם עם השם האמיתי שלכם וכתובת מייל עדכנית, אם אתם רוצים להשתתף בהגרלה הגדולה שאנחנו עורכים בין המשתתפים. לפרטים נוספים תוכלו לצפות בהקלטה של המפגש הקודם.

    המפגשים של הקבוצה מוקלטים ואתם מוזמנים לצפות במפגשים הקודמים ולהוריד את ההחומרים הנלווים להרצאות ואת קבצי המצגות, בארכיון הקבוצה בקישור הבא.

    הערה: כחלק מפעילות הקבוצה אנחנו מפעילים את הפורום המקוון של MSDN, ומקדמים בברכה את השתתפותך בדיונים, בשאלות, הערות, וכמובן משוב על המפגשים.

    שנה טובה ולהתראות ביום חמישי,

      


    מפגשים מתוכננים קרובים: 

    20 בפברואר 17:00 (שעון ישראל), חדשות מעולם מערכות המידע של מייקרוסופט
    מרצה אורח: יוסי אלקיים, אדריכל בכיר למערכות Data & AI בחברת מייקרוסופט
    עדיין לא נקבע מרצה לחודש מרץ - אם אתם חושבים שאתם מתאימים לאתגר, אנא פנו למארגני הקבוצה.
    30 באפריל 15:00 (שעון ישראל), שאילתות חיפוש דינמי מתקדם וכיצד להגן על השימוש בהם מבחינת אבטחה.
    מרצה אורח: איתן בלומין, מומחה מערכות נתונים ויועץ בכיר בחברת Madeira Data Solutions

    מי אנחנו?

    ארגון PASS הוא ארגון עולמי ללא מטרות רווח, המנוהל על ידי הקהילה. PASS תומך באנשי מקצוע ומשתמשים בעולם כולו, אשר עושים שימוש בפלטפורמת הנתונים של חברת Microsoft. הקבוצה הוירטואלית בעברית של ארגון PASS העולמי מקיימת פגישות OnLine עם מיטב המרצים מהארץ ומהעולם. מוצרי הדגל של מייקרוסופט כולל שרתי SQL, מפותחים בחלקם כחול לבן כאן בישראל, ורבים מהמובילים בתחום הנמצאים בחו"ל הגיעו במקור מישראל או נמצאים בישראל! אנחנו ננסה להביא אותם ישירות אל המסך שלכם, והכל בשפה העברית!


    signature   Ronen Ariely
     [Personal Site]    [Blog]    [Facebook]    [Linkedin]


    שבת 19 ינואר 2019 00:01
    מנחה דיון

כל התגובות

  • תודה רבה פיני ורונן, זה היה מאד מעניין.

    שאלה נוספת ברשותך, 
    כיצד אתם מנהלים ובאילו כלים את תהליכי הETL בחברה(שרתים מקומיים אל Azure ומשם אל Google ובחזרה)?
    האם ADF הוא כלי מספיק רציני בשביל לבנות עליו תהליכי ETL רציניים או שעדיין מחזיקים שרתי SSIS מקומיים(On Prem) לצורך זה?
    אולי גם וגם?

    שוב תודה

    נתן

    יום חמישי 24 ינואר 2019 14:14
  • תודה רבה פיני ורונן, זה היה מאד מעניין.

    שאלה נוספת ברשותך, 
    כיצד אתם מנהלים ובאילו כלים את תהליכי הETL בחברה(שרתים מקומיים אל Azure ומשם אל Google ובחזרה)?
    האם ADF הוא כלי מספיק רציני בשביל לבנות עליו תהליכי ETL רציניים או שעדיין מחזיקים שרתי SSIS מקומיים(On Prem) לצורך זה?
    אולי גם וגם?

    שוב תודה

    נתן

    אהלן נתן,

    קודם כל, ברוך הבא אל הפורומים של MSDN :-)

    אני אשאיר לפיני לענות על השאלה כיצד הם מנהלים את תהליכי הETL מכיוון שזה מאוד מאוד שונה מחברה לחברה, וכמובן אני לא יודע לגבי החברה שלהם.

    אני יכול לענותעל השאלהבצורהב כלחית לגבי מה האפשרויות אבל כדי לדעת מה טוב לכם ומה מתאים יהיה צורך בהכרה מעמיקה של המערכת שלכם ולימוד הצרכים הספציפיים

    >> ומשם אל Google

    אני לא עובד עם הענן של גוגל עבור פלטפורמות נתונים, כך שאולי פיני יוכל לספר כיצד הם עובדים

    >> שרתים מקומיים אל Azure 

    ישנם כלים מובניםייעודיים כמו למשל:

    וישנם את הכלים הכלליים שאיתם עובדים בשרתים מקומיים כמו רפליקציה (רפליקציה בין שרת מקומי לשרתבענן ה כלי מאוד חזק).

    יש למייקרוסופט כלי קטן נחמד באינרטנט בעזרתו אפשרלבחור את השיטה המומלצת לכם.פשוט עוברים תעד אחרי צעד ומכניסים מידע ובסיום יוצגהכלי שלעת מייקרוסופט בברירת המחדל אמור להתאים לכם:

    https://azure.microsoft.com/en-us/migration/get-started

    >> האם ADF הוא כלי מספיק רציני בשביל לבנות עליו תהליכי ETL רציניים או שעדיין מחזיקים שרתי SSIS מקומיים(On Prem) לצורך זה?

    זו שאלהטובה אבל לצערי התשובה התשובה כמו כל המקרים כמעט היא "זה תלוי". כל מקרה צריך לבדוק לגופו של עניין

    באופן כללי אפשרלראות ב ADF כגרסה העננית של ה SSIS - לזה הוא נועד והוא בעקרון נותן מענה זהה במצבים מסויימים, פחות טוב לאחרי, אבל הרבה יותרטוב וגמיש למצבים נוספים.. בקיצור לא אמרתי כלום כי כל מקרה לגופו :-)

    בברירת המחדל הוא אמור לספק אבל עדיין אם יש לכם עבודה במערכות מקומיות אז הSSIS כניראה צריך להיות חלק מהתהליך, או תהליך שונה מקומי. אני בוחר באפשרות "אולי גם וגם" :-)

    בעתיד, אני ממליץ לפתוח שרשורה (הודעה חדשה) עבור כל שאלה בנפרד. זה מאפשרצלאנשים לנהל לנהל דיון ענייני וממוקד.


    signature   Ronen Ariely
     [Personal Site]    [Blog]    [Facebook]    [Linkedin]

    יום חמישי 24 ינואר 2019 14:58
    מנחה דיון
  • תודה על התשובה רונן, 

    עם זאת, אני יודע, מניסיון, שData Sync הוא לא כלי כל כך טוב. קודם כל הוא בונה טריגרים על הטבלאות, והכי גרוע הוא פשוט לא מחזיק. 
    (הרבה דיונים עם התמיכה של מייקרוסופט והם בסוף הודו שהכלי אינו בשל מספיק בשביל DB גדולים).

    מתוך ההתעסקות שלי עם ADF נוכחתי לדעת כי הכלי הזה די מסובך, אולי(די בטוח) שאני עוד לא מכיר את כולו, אבל מהיותי שולט לא רע בSSIS ציפיתי שאכנס לפיתוח ADF יחסית במהירות וזה לא קרה(כולל באג מעצבן שעדיין בודקים בשבילי בתמיכה של מייקרוסופט).

    המטרה שלי בשאלה היא לברר את המצב בארגונים אחרים, לקבל מהם קצת תחושה בקשר לאימפלימטציה של המערכות.
    אני לא מכיר ולא ראיתי איך זה פועל בארגונים שונים ולכן אני שואל.  משם כבר אקבל רעיונות.

    תודה


    בברכה נתן ליפשס

    יום חמישי 24 ינואר 2019 15:58
  • היי,

    אתה צודק לחלוטין :-)

    1. Data Sync מתאים רק למערכות קטנות והוא הוצג ככזה (מההתחלה ולא רק בסוף). בנוסף צריך לזכור שלא מדובר על פתרון disaster recovery - DR בשום צורה אלא לסינכרון מתוזמן שאמור לתת מענה למיגרציה של נתונים.

    2. לדעתי ADF לא יותר מורכב מעבודה עם SSIS ועקומת הלמידה (מניסיוני לפי מה שראיתי באופן אישי ו/או באינטרנט) לא יותרחדה מעקומת הלמידה של SSIS. כמובן שאחרי שמכירים כלי אחד המעברלכלי שונה מחייב שוב פעם ללמוד

    * יש נקודה אחת שיכולה להיות בעיה מצד אחד או ייתרון מצד שני תלוי בגישה - ה ADF הרבה יותר דינאמי כרגע מה SSIS מכיוון שהוא בתחילת דרכו בפיתוח ובשנה האחרונה היו בו שינויים גדולים מאוד מפעם לפעם שאולי הכריחו המשך למידה. ההרגשה שלי שהוא כרגע דיי מיוצב באופן שעובדים איתו.

    3. אני אשמח לשמוע פרטים נוספים על הבאג שנתקלתם בו. אני חושב שזה יכול להיות מועיל מאוד לקהילהגם להציג אותו בפומבי, אם אין מניעה למשל מבחינת בסכמי NDA. חשוב מאוד להכיר פוטניאלים לבעיות ולכן פרטים על אפשרות לקיום באג זה משהו שאחרים צריכים לקחת בחשבון

    4. חזרה לנושא פעולות ETL

    מצד אחד, כלל הזהב קובע שפעולות ETL בדרך כלל מקטינות את כמות המידע ביחס למקורות המידע (למשל פעולות אגריגציה של נתונים רבים). לכן העדפה היא לבצע את הפעולה קרוב ככל הניתן למקור ולא בהכרח במקום בו אנחנו נאחסן את התוצאה של הפעולות.

    לכן, אם אנחנו אוספים את המידע מקומית בשרתים On-Premises אז נעדיף לבצע את פעולות ה ETL בשרתים המקומיים ואל הענן נעביר רק את המידע המאורגן (זה כלל אצבע ולאקבעה מוחלטת כמו תמיד!).

    עם זה בדרך כלל בשימוש בענן וחלק מהייתרון בשימוש בענן קשור לאיסוף המידע המקורי ולכן המידע נאסף אל הענן ופעולות הETL בדרךכלל יהיה עדיף להשאיר במסגרת הענן(אם הכלים שם מספיקים ומספקים אתכם)

    מצד שני, בניגוד לשרתי OLTP בשרתי Data Warehouse אנחנו לאמת מקדים על כללים כמו נירמול נתונים והמטרה לשמור את הנתונים בצורה המהירה ביותר לשימוש בדוחות ו Output שונה. לשם כך אנחנו הרבה פעמים מחזיקים מידע כפול המאורגן בהתאם לצריכם שלנו בשימוש במידע. פעולות ETL לארגון המידע בהתאם לשימוש בו אשר מובילים בדרך כלל להגדלת נפח המידע ששומרים ביחס למקורות המידע, העדפה היא לבצע בצד של ה DW ולכן אם אנחנו נעזרים בשרתים הענן הרי שפעולות אלו יבוצעו בענן.

    פעולות ETL כוללות שלושה שלבים: Extract, Transform, Load
    (1) איסוף המידע בלי לפגוע בעבודת מקורות המידע, (2) המרה, מיון, סינון, בדיקת המידע, ניקוי כפילויות וטעויות, אימות של עקביות של מקורות נתונים, התאמה לסטנדרטים. (3) טעינת המידע למערכת ה DW.
    ואין שום הכרח לבצע את השלושה ביחד בכלי אחד :-)

    בחירת הכלים איתם אנחנו עובדים נגזרים ישירות מאפיון המערכת ובין השאר לפי הנקודות שהזכרתי מעל. עם מזה להערכתי, רוב החברות המחזיקות מערכות נתונים מורכבות וגדולות לא מתבססות על אף אחד מהפתרונות שהזכרנו כאן בשרשור כפתרון שלם, אלא מתבססים בעיקר על כלים ייעודיים שמפותחים על ידי חברות צד שלישי והרבה מאוד על כלים פנימיים שמפותחים In-house, ואם יש צורך בשילוב כלים שהזכרנו לשלב מסויים. למשל ADF מאוד יעיל לשלב הטעינה ולשלב איסוף המידע, אבל לדעתי האישית הוא פחות נוח לשלב עיבוד המידע

    בנוסף צריך לזכור שהיום כל נושא ה machine learning נכנס ישירות לנושא ה ETL מכיוון שחברות קבות כבר הבינו שימוש ב machine learning יכול להיות חלק מהתהליך של השלב השני.

    בקיצור הדברים מאוד מאוד גמישים ואין הרבה חוקים לגבי מה מתאים למה, וכל מקרה לגופו של עניין

    בין שאר הכלים אפשר למצוא

    > Informatica PowerCenter
    > Attunity
    > Business Objects Data Integrator
    > IBM InfoSphere DataStage
    > Microsoft SQL Server Integration Services (SSIS)
    > Azure Data Factory
    > Oracle Warehouse Builder / Data Integrator
    > Pentaho Data Integration (Open Source)
    > Jasper ETL (Open Source)

    פיני, אולי תוכל לפרט ספיציפית עם איזה כלים אתם עובדים?


    signature   Ronen Ariely
     [Personal Site]    [Blog]    [Facebook]    [Linkedin]


    יום חמישי 24 ינואר 2019 23:03
    מנחה דיון
  • בוקר טוב וסליחה על התגובה המאוחרת

    אנו כרגע ב SSIS על VM באז'ור.

    בוחנים עדיין את ה ADF - הוא עדיין לא פרוד אצלינו.
    יש כל מיני בעיות תקשורת של התחברות ל onprem וכדומה.

    data sync - לא שמיש בעליל

    בוקר טוב 

    יום שישי 25 ינואר 2019 04:49
  • בוקר טוב וסליחה על התגובה המאוחרת

    אנו כרגע ב SSIS על VM באז'ור.

    בוחנים עדיין את ה ADF - הוא עדיין לא פרוד אצלינו.
    יש כל מיני בעיות תקשורת של התחברות ל onprem וכדומה.

    data sync - לא שמיש בעליל

    בוקר טוב 

    תודה רבה פיני ורונן :-)


    בברכה נתן ליפשס

    יום ראשון 27 ינואר 2019 10:43