Post tag: Bash

Office Grid computing gamit Virtual kapaligiran - Part 4

, Biyernes 4th Disyembre 2009 11:59 pm

Pagpapakilala

Magtrabaho ako sa isang kumpanya kung saan tumakbo namin ang maraming mga batch trabaho na pagproseso ng mga milyon-milyong ng mga talaan ng data sa bawat araw at ako ay iniisip kamakailan tungkol sa lahat ng mga machine na umupo sa paligid ng bawat at bawat araw paggawa ng wala para sa mga ilang oras. Hindi magiging mahusay na kung maaari naming gamitin ang mga machine sa magbolster ang pagproseso ng kapangyarihan ng aming mga system? Sa hanay ng mga artikulo na ako pagpunta sa tumingin sa mga potensyal na benepisyo ng employing ng isang tanggapan grid na gamit ang virtualised kapaligiran.

Sa bahagi 3 nilikha namin ang aming mga virtual machine sa processing at i-set up window machine na maging idle-time na mga manggagawa.

Pagpapatakbo ng pinakabagong code

Karaniwan na sa pagkatapos ng paglikha ng iyong mga manggagawa sa negosyo lohika ay magbabago, bug ay natagpuan, mas mabilis mas mahusay na code ay ginawa sa gayon Aalis ang iyong mga manggagawa Sab paligid pagproseso ng data gamit ang lumang nangangamoy code . Paano pagkatapos naming masiguro na palagi naming ginagamit ang pinakabagong at pinakadakilang bersyon ng aming mga script sa pagpoproseso?

May mga ilang napakadaling simpleng paraan na maaari naming gawin ito, pagdaya, gayunpaman, ay upang mabawasan ang pagproseso ng kapangyarihan at trapiko sa network sa pagkamit ng ito. Hinahayaan magsimula sa ang pinakasimpleng ng mga solusyon at mapabuti ang mga ito nang dahan-dahan sa loob ng isang ilang ng iterations.

Ang unang paraan ay sa lamang kumonekta sa kontrol ng aming trabaho sa server (sa pamamagitan ng samba, FTP, o katulad) at hilahin pababa ang pinakabagong bersyon ng code. Hindi masyadong mahusay, ngunit ito ay gawin ang trabaho. Hinahayaan mapabuti sa na medyo, kung paano ang tungkol sa paglikha ng isang ng rsync script at gamit na ang bawat oras sa halip? Bilang kahalili, kung ano ang tungkol sa paglagay aming pinakabagong processing script sa pagbabagsak check ang code sa simula at pagkatapos lamang pag-update ng aming code sa bawat run ( svn update )?

Sa dulo namin tapusin sa isang Bash script (na tinatawag sa pamamagitan ng cron bawat 10 minuto) na mukhang bilang simpleng bilang na ito:

  #! / Bin / SH
 kung PS palakol | grep-v grep | grep php > / dev / null
 pagkatapos
     echo "Job ay kasalukuyang pinoproseso, lumabas"
 iba
     umalingawngaw ang "Job ay hindi tumatakbo, simulan ngayon"
     cd / landas / / nagtatrabaho / kopya
     svn update
     php yourJobProcessingScript.php
 Fi 

Ngayon ay maaari naming siguraduhin na sa bawat run sa tiyak na kami ay tumatakbo ang pinakabagong code. Kami ay ang pagtiyak na ito sa pamamagitan ng pag-update ng aming code base sa bawat at bawat oras na magsagawa kami ng isang run at pagbabawas ng trapiko sa network sa pamamagitan ng lamang sa paglilipat ng mga pagkakaiba ng file sa kabuuan ng aming network.

Sa aking pagpapakita setup, ginawa ko nang eksakto tulad ng sa itaas. Pagbabagsak ay naka-install sa aking server sa pagproseso ng trabaho at pulled ko lamang ang pinakabagong code mula sa isang sangay ng 'manggagawa' gamit ang 'svn update'. Din ako nagdagdag ng isang tag ng numero ng bersyon sa aking processing script na ibinalik sa database bilang bahagi ng pagbabalik ng mga resulta. Sa ganitong paraan maaari ko bang makita ang aking code ay ina-update sa bawat oras na kinopya ko ang aking baul sa ang ibig sabihin ng sangay ng manggagawa na tiyak ko ay tumatakbo ang pinakabagong script processing.

Gamit ang pinakabagong data

Kung ang iyong trabaho processing gumagawa ng paggamit ng mga pinagkukunan ng data sa ilang mga punto ang mga ito ay pagpunta sa ma-update masyado. Maliban kung tawagan mo ang iyong mga mapagkukunan ng data sa isang madalang batayan mo ay pagpunta sa baha ang iyong network na may trapiko sa lalong madaling bilang iyong manggagawa magsimulang tumakbo ang nagdadala ng lahat sa isang pagtigil. Para sa aking mga solusyon ko nagpasya na Gusto ko upang ilipat ang aking mga pinagmumulan ng data sa paligid sa aking VMs.

Hold ikaw horse doon! Paano kung ang aking mga pinagkukunan ng data ay malaking? Well ito talaga ay isang kaso ng kung magkano ang data ay namin ang pakikipag-usap? Ito ay maaaring maging mas epektibong gastos upang i-install ng isang karagdagang mas malaking hard drive sa bawat machine kaysa sa bumili ng isang karagdagang pagproseso ng server. Ito ay isang katanungan ng badyet at ay hanggang sa negosyo upang magpasya. Ito siguro na ang iyong mga mapagkukunan ng data ay kaya malaki na ang lamang unfeasible upang panatilihing na halaga ng data sa iyong mga machine ng manggagawa. Sa kasong iyon kung ano ang gusto mong gawin? Rin namin maaaring tumingin sa pagtawag ng isang lokal na server data, ngunit ito ay maaaring maging sanhi ng mga isyu sa network. Sa kasong ito ang isang grid system tulad ng ito ay maaaring maging unrealistic upang isama sa iyong opisina ng kapaligiran. Maaari din ito na maaari mong hanapin sa mga kahaliling tumatakbo diskarte, halimbawa lamang pagtawag sa iyong mga manggagawa 8:00-6:00 bawat gabi at / o throttling data pinagmulan kahilingan.

Paglipat sa hinahayaan ang sinasabi ng aming mga data mga pinagkukunan halaga sa 100Gb ng data. Well yes na ang lubos na isang bit ng data upang ilipat sa paligid ng network sa isang update. Paano namin matiyak na mayroon kaming ang pinakabagong kopya ng data sa kasong ito? Rsync ay isang posibilidad, ngunit personal na tingin ko sa pamamagitan ng pagpapatakbo ng iyong pinakabagong data pinagmulan sa iyong server sa pagproseso ng trabaho at ang setting na ito bilang isang master sa pagtitiklop (na may isang magandang mahaba bin log) ay maaaring ang paraan upang pumunta:

pagtitiklop Sa pamamagitan ng pagtatakda ng bawat ng iyong mga manggagawa bilang isang alipin sa trabaho update sa server ng kontrol sa iyong mga mapagkukunan ng data ay tumagas down na mabuti sa iyong mga manggagawa na walang isang malaking pagtaas sa aktibidad ng network (na maliban kung nagsagawa ka ng isang malaking update data at lahat ng iyong manggagawa sipa sa sabay-sabay). Ito ay may pakinabang sa paglipas ng rsync sa na hindi mo nais makakuha ng isang mahabang pause bago bawat trabaho; bilang ng mga update ng database, ang MySQL demonyo sa iyong manggagawa ay patuloy na i-update ang data habang ang pagpoproseso ng patuloy.

Ito ay kung paano ko ise-set up ng aking pagpapakita server. Upang i-set up ang pagtitiklop ko sinunod ang gabay sa ang MySQL site ( Pagse-set up pagtitiklop ) at sa loob ng 20 minuto ko ay aking inital manggagawa Kinokopya ang trabaho ng control server dataset. Para sa bawat karagdagang manggagawa ang mga setting ng pagtitiklop at proseso ay nagtrabaho sa bawat oras na kapag VM ay kinopya.

Buod

Sa seksyong ito ng mga artikulo na namin tumingin sa kung paano madali at hindi masakit ito ay upang panatilihin ang iyong code sa pagproseso ng hanggang sa petsa ng using rsync o subverion (SVN) upang gawin ang trabaho at mabawasan ang trapiko sa network sa parehong time. tinalakay din namin kung paano upang panatilihin ang iyong data ng impormasyon sa pinagmulan up-to-date sa pamamagitan ng nagpapahintulot sa mga ito sa tulo pababa sa bawat ng iyong mga manggagawa. Kaya namin lugar sa pagtiyak na hindi namin panatilihin up sa mga lohika ng negosyo at impormasyon sa aming system ng grid ng opisina. May malinaw naman ay ang hindi mabilang na mga alternatibo sa pagganap ng mga gawain, ngunit dito ay dalawang simpleng halimbawa upang ipakita kung gaano kadali ang solusyon ay dumating sa pamamagitan ng.

Susunod na

Sa huling bahagi ng serye na ito, aptly pinangalanan Bahagi 5 , kami ay talakayin ang paganahin ng system na ito para. Kukunin ko magbuod kung ano ay natutunan at kung ano ako pinamamahalaang upang lumikha ng.

Office Grid computing gamit Virtual kapaligiran - Bahagi 5

, mga Biyernes 4th Disyembre 2009 11:03

Pagpapakilala

Magtrabaho ako sa isang kumpanya kung saan tumakbo namin ang maraming mga batch trabaho na pagproseso ng mga milyon-milyong ng mga talaan ng data sa bawat araw at ako ay iniisip kamakailan tungkol sa lahat ng mga machine na umupo sa paligid ng bawat at bawat araw paggawa ng wala para sa mga ilang oras. Hindi magiging mahusay na kung maaari naming gamitin ang mga machine sa magbolster ang pagproseso ng kapangyarihan ng aming mga system? Sa hanay ng mga artikulo na ako pagpunta sa tumingin sa mga potensyal na benepisyo ng employing ng isang tanggapan grid na gamit ang virtualised kapaligiran.

Sa Bahagi 4 namin tumingin sa gamit ang mga tool upang masiguro na kami ay tumatakbo sa pinakabagong bersyon ng mga pinagkukunan ng code at data upang makuha resulta ay laging up-to-date sa pinakabagong impormasyon sa negosyo at lohika.

Pre-deployment

Bago paganahin ang iyong mga sistema ng grid kung mayroong isang bagay na gagawin mo at isang bagay lamang ang benchmark iyong kasalukuyang system! Walang bagay na kung ano ang sabihin sa iyo ang mga kasamahan tungkol sa kung magkano ang dagdag na trabaho ang iyong system ay pagpunta sa gawin maliban kung mayroon kang mga numero ito i-back up ang iyong mga garantiya ay walang. Kaya,

  • kung gaano karaming mga tala maaari mong proseso ang kasalukuyang? Bawat Araw? Bawat oras?
  • Gaano katagal ang karaniwang tumagal upang i-sa paligid ng isang trabaho?
  • Magkano higit kapasidad ang mayroon ka?

Mayroon ding mga karagdagang katanungan:

  • Kung ang iyong processing server (o isa ng iyong mga server sa pagproseso) napupunta down kung paano ito makakaapekto sa iyong kakayahan, ikaw ay lumpo?
  • Ano ang pakinabang ang inaasahan mo / asahan upang makakuha ng mula sa isang sistema ng grid?
  • Sigurado sa iyong opisina ng machine kaya ng tumakbo ang mga trabaho?
  • Ay iyong (o maaari mong trabaho iko-convert) sa wrok sa ito estilo ng tumatakbo?

Ang huling mga pangunahing punto ay upang dalhin ang iyong oras sa anumang mga pangunahing pagbabago tulad nito. I-update ang iyong code sa pagpoproseso upang gumana gamit ang bagong pamamaraan, benchmark muli. Posibleng set up ang iyong processing server upang magpatakbo ng isang virtual machine, matapos ang lahat ng pagpoproseso ng iyong server ay lamang ng isa pang manggagawa (isang napaka-makapangyarihang isang relatibong). Payagan ang bagong proseso upang manirahan.

Paglawak

Ang aking mungkahi ay magiging mag-pop sa linggo sa opisina isa isagawa ang lahat ng mga gusali at setup. Gawin ito bago ang holiday ng dalawang linggo at umalis kaya iba pang mahihirap na pagputok-putok sa makitungo sa mga sa mga kahihinatnan ... maaaring hindi ...

Deployment para sa isang sistema tulad nito ay kailangan na maging mabagal. Sa kabila nito relatibong simpleng mag-set up ang system na ito ay makakaapekto sa iyong buong opisina imprastraktura (na rin ang digital). Una, igulong sa isang pares ng mga machine sa isang oras, monitor ng network ng trapiko, kung paano ang mga host manggagawa gumanap sa isang pang-araw-araw na batayan. Maaaring kailanganin mong baguhin ang configuration ng iyong trabaho sa pag-tugon sa iyong mga natuklasan.

Kapag ang sistema ay palagian na may ilang mga machine (nagbibigay-daan sa sabihin 10% ng lahat ng machine office, ie 5) mapanatili ang trapiko sa network ng pagmamanman at host machine performance. Susunod na benchmark muli, dapat mong ngayon ay pinoproseso 33% na higit pang mga trabaho sa iyong unang benchmarks. Suriin na ito ay kaya, o na ikaw ay hindi bababa sa halos katumbas na ito. Kung hindi, siyasatin kung ano ang pagpunta sa bago lumipat sa. Ulitin ang cycle hanggang ka maligaya na ang lahat ng mga opisina ng mga machine na tumatakbo nang walang pagpatay ng performance ng indibidwal na machine o paggiling ng iyong network sa isang pagtigil.

Sa lahat ng oras panatilihin ang benchmarking, kahit na matapos ang lahat ng mga deployments ay ginawa. Suriin kung paano makakaapekto ang mga update ng bagong code sa bilis ng iyong system, suriin ang lahat ng mga manggagawa ay pag-uulat sa at pagproseso ng mga trabaho. Dahan-dahan (masyadong mabagal) pagdagdag sa configuration ng iyong trabaho upang makuha ang pinakamahusay mula sa iyong mga manggagawa at network.

Itigil!

Paano kung gusto mong ihinto ang iyong mga manggagawa mula sa pagtakbo sa ilang oras? Sila ay ang lahat out doon tumatakbo, regenerating, at sinusubukan ang kanilang mga pinakamahusay na-proseso ang data tulad ng gutom na mga insekto. Ang sagot ay maaaring mukhang halata ngunit nito nagkakahalaga ng pagdaragdag lamang sa kaso nito overlooked. I-edit lamang ang iyong mga script sa pagproseso sa isang exit (0) o mamatay () o ilang iba pang mga pahayag sa pumatay ng iyong trabaho sa pagproseso. Isang mahalagang dahilan bakit lagi naming subukang i-update ang pinakabagong script ng processing bago anumang run!

Pagpapakita System

Upang isulat ang hanay na ito ng mga maikling artikulo nilikha ko ang isang maliit na grid upang ipakita ang mga teknolohiya at methodologies. Ako basahin ang maraming ng mga artikulo, mga tutorial, at ginagamit ng iba't-ibang mga kasangkapan sa setup at subaybayan kung ano ang pagpunta sa. Sa pamamagitan ng walang paraan na ako ay nawala at puspos ng isang buong opisina sa trapiko at hindi rin ako ay may access sa isang regular na PC miyembro ng kawani upang makita kung paano ang host pagganap ay apektado.

Aking pagpapakita system ay napaka-abang talaga. Ginamit ko ang aking regular na desktop na-set up bilang isang server ng kontrol ng trabaho. Sa ito ako ay naka-install MySQL server install-set up bilang isang master sa pagtitiklop, PHP , A at ng SVN link sa pamamagitan ng Apache (para sa access sa pamamagitan ng manggagawa VM).

Pagkatapos ko nilikha ang isang centOS manggagawa machine sa VirtualBox sa isang 6 na taong gulang windows XP laptop. Ko-setup ng mga naka-iskedyul na mga gawain tulad ng tinukoy matapos kopyahin ang VM papunta sa machine at ipaalam sa ito pumunta.

Ang virtual machine-set up gamit ang PHP, pagkawasak, at MySQL. Check out ako ng isang sangay na pinangalanang 'manggagawa' mula sa mga server ng aking trabaho repositoryo control at ginawa bang maaari itong ma-update gamit ang 'svn update'. Susunod ako ng setup MySQL bilang isang alipin at check ang data na iyon ay Kinokopya mula sa MySQL sa server ng kontrol ng trabaho pababa sa VM manggagawa. Matapos ang lahat ng ito ko setup ang Bash script at ang cron trabaho.

Aking processing script talaga nagpunta kasama ang mga linya na ito (napaka-simpleng mga bagay-bagay):

  • Basahin ang sa ang pangalan ng patlang
  • Binibilang ang bilang ng mga katulad na pangalan sa isang table mula sa data ng pinagmulan na gaganapin sa ang VM
  • Binibilang ang bilang ng mga pangalan bilang sa itaas ngunit malakas ang pangalan ng mga puwang (ie pinangalanan, gitna, apelyido)
  • Paulit-ulit na ang prosesong ito 1,000 ulit

Trabaho bawat kinuha ng humigit-kumulang 20 minuto upang tumakbo. Sa isang punto ko ay binuksan ng ilang mga kopya ng mga manggagawa ang VM sa laptop bintana at pinapanood ang mga trabaho ay naka-check-off sa pamamagitan ng bawat isa ng ang manggagawa IP address. Sa puntong ito nakumpirma ko rin na awtomatikong-restart ang pagtitiklop.

Aalis ang laptop sa idle nagresulta sa isang manggagawa na nagsisimula upang iproseso ang mga trabaho mula sa server ng kontrol ng trabaho. Kapag ipagpatuloy laptop paggamit nagkaroon ng pagkaantala ng 30-60 segundo, ito ay isang makatarungang halaga ng oras at kawani ay kailangang gawin ng kamalayan na ang kanilang machine ay maaaring i-pause para sa isang maikling habang kapag bumabalik sa ang makina. Mas bagong machine ay hindi maaaring magkaroon ng isang i-pause ng mga ito mahaba. Ang mga benepisyo ng ang halaga ng pagproseso na gumanap ng mga machine habang idle panahon ay higit na malamangan ng mga miyembro ng kawani na kinakailangang maghintay ng isang maikling panahon (sabihin ang 1 minuto) sa pagdating sa kanilang mga machine ng isang umaga (madalas ko maghintay na na ito para sa isang Windows defender i-update upang kumuha ng lugar) na ibinigay sila ay ginawa ng kamalayan na ito (kapaki-pakinabang na oras upang makakuha isang umaga kape!).

Pangkalahatang Pakiramdam ko ay tiwala na ako ay ipinapakita ang mga teknolohiya na maaaring magamit upang lumikha ng tulad ng isang sistema. Ipinakita ko na ang ganitong sistema ay gumagana sa sa isang (masyadong) maliit na sukat at sa ilang mga higit pa eksperimento ma-scale gamitin ang mga mapagkukunan ng mga machine ng isang opisina. Kung hindi ko makuha ang punto ng paggawa nito Gusto ko masyadong interesadong malaman / makita kapag may ibang tao ang.

Konklusyon / Pagsusuri

Ang susunod na halata na hakbang ay upang aktwal na makakuha ng isang tunay na halimbawa ng mundo at simulan upang lumawak ang isang sistema tulad ng mga ito sa loob ng isang opisina ng kapaligiran at tingnan kung ano ang mangyayari. Humihiling ng isang negosyo na gumawa na ito nang walang isang bulaos ng kumpanya na nagliliyab upang patunayan ang teknolohiya at pagiging epektibo ay maaaring maliit na mahirap. Grid / ipinamamahagi computing ay napaka-tanyag ay ang ilang mga bilog at may ilang mga malalaking mga aplikasyon (BIONC, SETI @ Home, ang Folding @ home, atbp). Hindi ko, gayunpaman, makahanap ng isang mas maliit na sukat at simpleng sistema tulad nito sa aking mga paghahanap na maaaring lulon sa loob ng isang opisina ng kapaligiran.

Nilikha ko talaga libreng sistema na gumagamit ng halos open source software at mga kasangkapan na magagamit sa halos anumang opisina. Ang mga teknolohiya ay talaga ipinapakita at ipakita upang gawin at gumagana tulad ng inaasahan. Sana mayroon akong ipakita na may hindi magkano ang trabaho at sa isang napaka-simpleng setup maaari mong lumawak isang opisina grid computing system na malakas, murang, A at nasusukat ang lahat sa parehong oras.

Kapag sistema ay up at tumatakbo doon ay halos walang katapusan sa ang halaga ng pagpapasadya at pagpapabuti maaari mong gawin. Para sa statistics ng halimbawa / benchmarking ay madaling idinagdag na nagpapakita ng halaga ng mga tulad ng isang sistema araw-araw. Bagong machine maaaring idagdag mabilis at madaling bilang at kapag dumating sila sa mga upgrade sa mga umiiral na hardware bolstering iyong processing kapangyarihan.

Umaasa ako Nasiyahan pagbabasa na ito serye ng mga artikulo at ang nagbigay sa iyo ng pagkain para sa pag-iisip sa pagpapatakbo ng isang sistema ng grid ng opisina. Ang solusyon na ipinakita dito ay hindi kinakailangang gumagana sa lahat ng mga sitwasyon ngunit dapat ay madaling ibagay upang payagan ka upang makakuha ng iyong mga data processing tapos gamit ang iyong sariling mga solusyon.

Mangyaring huwag mag-atubiling ipadala sa akin ang anumang mga puna, pagwawasto, o mga pagpapabuti at kong gawin ang aking pinakamahusay na upang mapanatili ang artikulong ito na-update upang tumugma sa.













Panorama Tema sa pamamagitan ng Themocracy

6 mga bisita sa online ngayon
3 mga bisita, 3 bot, 0 miyembro
Max mga bisita ngayon: 20 sa 04:29 am UTC
Sa buwang ito: 26 sa 2012/04/04 10:27 pm UTC
Ito taon: 69 sa 27-02-2012 09:56 am UTC
Lahat ng oras: 130 sa 28-03-2011 10:40 pm UTC