הקדמה
אני עובד בחברה שבה גמר עבודות אצווה רבים עיבוד מיליוני רשומות של נתונים מדי יום, חשבתי לאחרונה על כל מכונות יושבים בכל יום לעשות כלום במשך כמה שעות. האם לא יהיה זה טוב אם אנחנו יכולים להשתמש במכונות האלה כדי לחזק את כוח העיבוד של המערכות שלנו? במערכה זו של מאמרים אני מסתכל על היתרונות הפוטנציאליים של העסקת המשרד לרשת באמצעות סביבות וירטואליות.
ב חלק 1 נתתי סקירה כללית של מערכת טכנולוגיות אני יהיה להשתמש גם כפי שנדון כמה סיבות אפשריות למה אתה רוצה ליצור רשת Office.
עבודה ובקרה
אם אתה הולך לרוץ מקומות עבודה אז אתה הולך צריך קצת דרך לנהל אותם. השליטה תפקידך במערכת (בשרת העבודה שלך) צריך להיחשב ממש טוב לפני עוד ניסיון להפעיל רשת Office. אז ראשית, מה הן משימות עבור מערכת בקרת עבודה:
- לחלק משרות, לבקשת העובדים
- תגיד עובדים איזה סוג של עבודות לרוץ
- מעקב אחר עבודות
- להבטיח כי עבודות מנוהלים רק פעם אחת
- לספק נתונים עבודה לעובדים, או לפחות אומר להם איפה ניתן לקבל אותו
המערכת גם צריכה להיות להרחבה, פתרון שעובד בינתיים במקרה אחד ניתן להאריך להריץ מספר סוגים של מקומות עבודה כעסק רואה שווה בפתרון הרשת. לדוגמה, מקומות עבודה יכול לקבל סדרי עדיפויות, יותר מסוג אחד העבודה יכולה להתקיים (כלומר מספר בסיסי קוד), בסופו של דבר אתה יכול אפילו להריץ מספר מכונות עובדים שונים כי הם אופטימיזציה עבור כל סוג של עבודה (אם כי אין להתרחק העובד גנרי "הרעיון). תמיד מנסה לחשוב על העתיד בעת פיתוח מערכות, ראייה לטווח קצר יכול להוביל לתסכול ארוך טווח זמן הפיתוח גדל.
שרת העבודה
אנחנו הולכים צריך מקום לשלוט עבודות שלנו, זה אמור להיות במערכת רק ברשת שלך, כי יש מאתר משאבים קבוע, להיות כתובת IP, שם המחשב המארח, כתובת האתר (שימוש פנימי DNS), וכו 'זה בגלל העובדים צריכים לדעת איפה לחפש עבודה, עובדים צריכים למצוא עבודה מלאה במערכת (לא מערכת בקרת למצוא עבודה לעובדים).
שרת העבודה עצמה לא ממש יש משימה מסובכת (במערכת בסיסית בכל אופן), זה צריך לאחסן רשימה של מקומות עבודה, מחלקים עבודות, לקבל תוצאות, ולאחר מכן לאחסן אותם אחזור מאוחר יותר. איך חלקים אלה ("יד ג'ובים" כגון) מוגדרים יכול להיות מאוד בסיסי. מאוחר יותר אנו יכולים להרחיב את המערכת לכלול ממשק הניהול להוסיף, לערוך, למחוק, להשעות את העבודות, אבל זה מעבר התרגיל הזה.
אין שום סיבה שהיא אז שרת העבודה שלך לא יכול להיות מפעיל וירטואלי בתוך השרת עיבוד הראשי בתנאי שזה לא לייבש יותר מדי משאבים ממנו. שרת העבודה עם זאת צריך זמינות גבוהה, אם הוא יורד ביום שישי בערב אתה הולך לאבד את כל סוף השבוע של עיבוד, באופן פוטנציאלי עולה לך כמה שבועות בשווי של זמן עיבוד (לעומת שרת עיבוד הראשי בלבד) . אולי כדאי לשקול לשים שרת העבודה שלך על הסביבה עומס מאוזן עבור זמינות גבוהה.
הגדרה בסיסית
התקנה בסיסית של שרת העבודה שלנו תכלול את מה שאני קורא את אחד השרתים הרפוי שלי (כלומר Nux לי, מ 'ySql, P-HP). הקוד רץ על עובדים תיאה יהיה ממש להבין מה זה יכול לרוץ עבודות על ידי אינטראקציה עם מסדי נתונים עבודה עם שליטה במערכת. אחר כך נוכל ליצור שירות אינטרנט ולמעשה לחלק משרות ולא צורך העובדים לעשות את העבודה הקשה עצמם, אבל בינתיים נמשיך להשתמש בעיקרון KISS (שמור את זה פשוט, טיפש!).
אז, מאפשר ליצור שלושה של MySQL שולחנות להתמודד עם מקומות עבודה. אלה יהיו `עבודות`, `jobRecords`, ו `jobResults`.
כאן אני משתמש ב SQL החברים חלופה מעט גדולה phpMyAdmin רק כי קל יותר שלה להתקין על CentOS (לאחרים לראות: 10 חלופות הגדול ל phpMyAdmin )
טבלה זו מכילה 5 שדות פשוטים,
- מק"ט: לזהות את העבודה
- שם: יכול להיות הפניה ללקוח, או כל מספר מזהים אחרים
- סטטוס: אתה צריך לדעת איפה העבודה נמצאת, למשל
- 0: לא התחיל
- 1: הרים
- 2: הושלם
- started_by: מי התחיל לעשות את העבודה? פעולה זו אינה הכרחית לחלוטין אבל הוא נחמד שיש. הייתי מציע מעקב עובדים לפי כתובת ה-IP שלהם ברשת
- started_at: מתי העובד להתחיל את העבודה? על ידי מעקב אחר עבודות שלא הושלמו בתוך פרק X זמן אנחנו יודעים שאנחנו צריכים להרים את העבודה שוב ולהתחיל עיבוד על ידי עובד אחר. עובדים יכולתי להפסיק עיבוד / go offline עבור כל מספר סיבות, הפסקת חשמל, קריסה, אובדן ברשת, וכו '
קל איך את הטבלה ניתן יהיה להרחיב עם כמה שדות נוספים, כדי לאפשר מעקב אחר נתונים סטטיסטיים, זמן לסיים את הטור כדי לראות כמה זמן עבודה לקח, מונה כדי לראות כמה עובדים הרים את העבודה (כמובן זה צריך נוטים 1), עדיפות עבודה, הרשימה יכולה להמשיך עוד ועוד. בתרחישים עבודה מורכבות יותר ניתן יהיה להגדיר כמה זיכרון העובד היה צריך גישה (ולכן משתמשים רק עובדים מתאימים), או אפילו איזה סוג של העובד יהיה צורך.
מאפשר להוסיף כמה עבודות לדוגמה כמה:
הטבלה הבאה שוב הוא די פשוט להבין, אלה הם נתוני עבודות שלנו. הם קשורים לשולחן עבודות העיקרי של טור `jobs_id`. להפוך את השולחן זה מאוד תלוי את הנתונים שאתה צריך לספק לעובדים שלכם, מאפשר להפוך דוגמה פשוטה מאוד, שם יש לנו ארבעה עמודים:
- מק"ט: ID של הרשומה
- השם: שמו של אדם
- כתובת: כתובת של איש
- jobs_id: מזהה את העבודה כי זה שיא קשור
הטבלה השלישי והאחרון מורכב בטבלת התוצאות, יש לו דומה לפצות כמו השולחן שלנו רשומות, ועם תוספת של כמה עמודות יכול להיות חלק של הטבלה תקליטים:
- job_record_id: קישור תוצאה לשולחן העבודה
- התוצאה: הנתונים התוצאה
... וזה כל מה שאתה צריך עבור עבודה! (אם כי ברמה בסיסית מאוד) במקרה שלי אני הצביע על שולחן אחר שבו הנתונים שלי לתהליך נמצא, אבל זה יכול היה באותה קלות הקובץ, הפרמטרים להפעיל קוד סימולציה, מה שתרצו.
בחירת עבודה
כאמור, העובדים יעשו וניהול העבודה שלנו אצלנו עכשיו, אז כל מה שאנחנו צריכים באמת לעשות זה למצוא עבודה, כי צריך עיבוד ולקבל את המידע. איך היינו עושים את זה? ובכן לבחור בחירה העבודה שלנו קריטריונים ולחפש עבודה, ב-SQL עשיתי את הפעולות הבאות:
- קח לאף משרה שאינם מסומנים מלאה אלא עובד שלנו לאפס אותם (תחליף ME__ __ עם מזהה, הקלה ביותר תהיה כתובת ה-IP):
עדכון ג `עבודות` סט `מצב` = 0 WHERE `מצב` ו `= 1 started_by '= __ ME__;
- באמצעות הבחירה שלנו עבודה קריטריונים, בחר את העבודה ולספר מערכת בקרת שהעובד הזה היא להתמודד עם זה:
עדכון ג `עבודות` סט `מצב` = 1 `,` started_by = __ ME__, `started_at` = NOW () WHERE `מצב` = 0 או
(`מצב` ו `= 1 started_at`> DATE_SUB (NOW (), שעה מרווח X)) ORDER BY `id` ASC;
מקומות עבודה על ידי גרירה שלא חזרו תוצאות בסכום X זמן אנו מבטיחים כי כל העבודות מנוהלות במקרה של עובד מתרסק או הנפקדות.
- לאחר מכן לתפוס את משרות פרטים ואחריו את הרשומות עצמם:
SELECT * FROM `עבודות` WHERE `started_by '= __ ME__ LIMIT 1;
SELECT * FROM `job_records` WHERE `id` = __ JOBID__;
עם סיום העבודה אנו להוסיף רשומות התוצאות שלנו ולסמן את העבודה הושלמה. זכור כמקום עבודה יכולים להשעות / לחדש בכל עת לאפשר חוסן חלק בתסריט. זה יכול להיות שהמשימה משהה בחצי הדרך לעדכן את מערכת בקרת עבודה, אז בודקים את מספר הרשומות בעבודה ואת מספר התוצאות שנשמרו חזרה למערכת הבקרה העבודה תהיה צעד נבון.
בנוסף, בעוד זה מדגים כיצד ניתן לבחור עבודות והצליח ממסגרת SQL, השאילתה אתה צריך באמת להיות הפשטה מלאה העבודה שלך, כך שאם אתם מחליטים לעבור באמצעות שירות אינטרנט, מערכת קבצים המבוססת על XML , או אחרת מספר מערכות זה לא ישפיע על קוד מעליה.
תצורת העבודה
ההיבט הבא הוא לשקול גודל העבודה ותצורה. על ידי משחק עם הגדרות התפקיד ניתן על איזון מעולה בין מהירות, שכפול התהליך, ואמינות. קח כמה תרחישים of הזוג:
- משרות לקחת 1 כל יום לרוץ: משמעות הדבר היא כי העובדים שלך צריך 15 ימים כדי לעבד את כל העבודה (זוכרים 10% מכוח עבור 2/3rds של זמן). זה בבירור לא תצורה חכם, גודל התפקיד שלך הוא גדול מדי! זה היה לוקח לפחות כפול זמן כדי לקבל את העבודה מעובד לעובד הראשוני צריך ללכת נפקד (זמן להרים את זה כי לא חזר התוצאה בתוספת הזמן עיבוד מחדש). באידיאל שיהיה לך לפחות 1 משרה מלאה פינה בקלות עד סוף כל תקופה המתנה ארוכה, כך אתה שומר את העבודות מתקתקות על ובמקרה הרע במקרה העבודה היה לוקח יומיים לתהליך 1 צריך ללכת חסר.
- משרות לקחת 1 דקה לרוץ: משמעות הדבר היא כי העובדים שלך לוקח בערך 15 דקות כדי להפעיל את כל העבודה. בעוד בתחילה זה עשוי להיראות אידיאלי, אתה מקבל עיבוד עבודה נוספת במהלך זמן ארוחת הצהריים, הפסקות קפה, פגישות, וכו 'בתרחיש זה מכניס למתח על תחומים אחרים של המערכת ומציג בעיות משלה. לדוגמה, ראשית יחס התקנה / עיבוד שלך הזמן הוא הולך ישר, ולכן מאבד את יעילות המערכת. הרשת יהיה מידע כל הזמן זרימת עבודה לצוות עובדים שונים מתסכל שהם דונג יום שלהם לעבודת יום. אתה גם הולך לשים את הלחץ יותר על השרת שלך עבודה עיבוד כפי שהוא צריך לחלק אוכל המון המון חתיכות קטנות של עבודה על בסיס קבוע. Lastly, in this situation if your job server goes down you're going to create a huge back log of uncompleted work whereas bigger jobs could of continued processing blissfully unaware that the job server was experiencing difficulties.
In reality there will be no one ideal configuration for your grid setup, much depends on the available resources, types of job, job turnaround time requirements, network capability, and so on. However some guidelines would be:
- Size jobs so that each worker can get through at least 3-4 jobs in a period of 15 hours (the longest likely idle time period)
- Play with the job size so that setup time becomes fairly insignificant compared to the processing time (bearing in mind the above point).
- If a job doesn't complete in double the amount of time (maybe less) you expect it to complete it assume that its gone AWOL and start processing it with another worker. This means you may have to wait up to three times the normal length of a job for it to complete (possibly longer if the subsequent job fails). You may want to reduce this time, but be careful not to reduce it too much as you may start duplicating processing tasks on a regular basis.
- Jobs should be independent of outside requirements as much as possible. The job server, for example, should only be contacted at the start and end of every job.
- Don't saturate your network, this will have two negative effects, your daytime staff will find using the network frustrating and problems may be experienced with connections timing out a problem that will only get worse as you scale your grid.
- Ensure jobs can run on your workers. If jobs become too memory intensive or disk space intensive jobs will start aborting and the only thing you'll notice is a drop in number of jobs processed with no real reason why.
Submitting Results of a Job
When submitting the results of a job it is important to check that results have not been submitted by another worker, especially if the current worker has been dormant for some time.
When results are submitted ensure that the number of results matches the number of records within the job.
As stated previously, and can not be over emphasised, build fault tolerance into job retrieval and results submission. The workers can (and most likely will) go into suspend mode at the most inconvenient of times and this needs to be catered for. Also once again abstracting away your results submission will help cater for future changes to your job control system much easier to deal with.
תקציר
In this section we have looked at what a job control server needs to do and how to get a very basic system set up. We discussed how to retrieve a job from the control system and how best to configure jobs to get the most our of your office grid system. To finish, a paragraph or two on submitting results back to the job control server was presented.
- A job control server manages jobs and ensures that all work units are completed
- By abstracting your job select/results submission we can change the technology of the control server without much problems
- Configure your jobs to ensure that they are run quickly and efficiently without putting too much pressure on your network infrastructure, and without duplicating processing tasks on a regular basis.
- Ensure that you build fault tolerance and error checking into your routines, workers can suspend and resume and the most inconvenient of times. Remember to check if results have already been submitted by another worker.
Next time
In part 3 we'll create our virtual processing machine and set up our windows machines to become idle-time workers.