Post tag: svn

Office Grid computing gamit Virtual kapaligiran - Part 4

, Biyernes 4th Disyembre 2009 11:59 pm

Pagpapakilala

Magtrabaho ako sa isang kumpanya kung saan tumakbo namin ang maraming mga batch trabaho na pagproseso ng mga milyon-milyong ng mga talaan ng data sa bawat araw at ako ay iniisip kamakailan tungkol sa lahat ng mga machine na umupo sa paligid ng bawat at bawat araw paggawa ng wala para sa mga ilang oras. Hindi magiging mahusay na kung maaari naming gamitin ang mga machine sa magbolster ang pagproseso ng kapangyarihan ng aming mga system? Sa hanay ng mga artikulo na ako pagpunta sa tumingin sa mga potensyal na benepisyo ng employing ng isang tanggapan grid na gamit ang virtualised kapaligiran.

Sa bahagi 3 nilikha namin ang aming mga virtual machine sa processing at i-set up window machine na maging idle-time na mga manggagawa.

Pagpapatakbo ng pinakabagong code

Karaniwan na sa pagkatapos ng paglikha ng iyong mga manggagawa sa negosyo lohika ay magbabago, bug ay natagpuan, mas mabilis mas mahusay na code ay ginawa sa gayon Aalis ang iyong mga manggagawa Sab paligid pagproseso ng data gamit ang lumang nangangamoy code . Paano pagkatapos naming masiguro na palagi naming ginagamit ang pinakabagong at pinakadakilang bersyon ng aming mga script sa pagpoproseso?

May mga ilang napakadaling simpleng paraan na maaari naming gawin ito, pagdaya, gayunpaman, ay upang mabawasan ang pagproseso ng kapangyarihan at trapiko sa network sa pagkamit ng ito. Hinahayaan magsimula sa ang pinakasimpleng ng mga solusyon at mapabuti ang mga ito nang dahan-dahan sa loob ng isang ilang ng iterations.

Ang unang paraan ay sa lamang kumonekta sa kontrol ng aming trabaho sa server (sa pamamagitan ng samba, FTP, o katulad) at hilahin pababa ang pinakabagong bersyon ng code. Hindi masyadong mahusay, ngunit ito ay gawin ang trabaho. Hinahayaan mapabuti sa na medyo, kung paano ang tungkol sa paglikha ng isang ng rsync script at gamit na ang bawat oras sa halip? Bilang kahalili, kung ano ang tungkol sa paglagay aming pinakabagong processing script sa pagbabagsak check ang code sa simula at pagkatapos lamang pag-update ng aming code sa bawat run ( svn update )?

Sa dulo namin tapusin sa isang Bash script (na tinatawag sa pamamagitan ng cron bawat 10 minuto) na mukhang bilang simpleng bilang na ito:

  #! / Bin / SH
 kung PS palakol | grep-v grep | grep php > / dev / null
 pagkatapos
     echo "Job ay kasalukuyang pinoproseso, lumabas"
 iba
     umalingawngaw ang "Job ay hindi tumatakbo, simulan ngayon"
     cd / landas / / nagtatrabaho / kopya
     svn update
     php yourJobProcessingScript.php
 Fi 

Ngayon ay maaari naming siguraduhin na sa bawat run sa tiyak na kami ay tumatakbo ang pinakabagong code. Kami ay ang pagtiyak na ito sa pamamagitan ng pag-update ng aming code base sa bawat at bawat oras na magsagawa kami ng isang run at pagbabawas ng trapiko sa network sa pamamagitan ng lamang sa paglilipat ng mga pagkakaiba ng file sa kabuuan ng aming network.

Sa aking pagpapakita setup, ginawa ko nang eksakto tulad ng sa itaas. Pagbabagsak ay naka-install sa aking server sa pagproseso ng trabaho at pulled ko lamang ang pinakabagong code mula sa isang sangay ng 'manggagawa' gamit ang 'svn update'. Din ako nagdagdag ng isang tag ng numero ng bersyon sa aking processing script na ibinalik sa database bilang bahagi ng pagbabalik ng mga resulta. Sa ganitong paraan maaari ko bang makita ang aking code ay ina-update sa bawat oras na kinopya ko ang aking baul sa ang ibig sabihin ng sangay ng manggagawa na tiyak ko ay tumatakbo ang pinakabagong script processing.

Gamit ang pinakabagong data

Kung ang iyong trabaho processing gumagawa ng paggamit ng mga pinagkukunan ng data sa ilang mga punto ang mga ito ay pagpunta sa ma-update masyado. Maliban kung tawagan mo ang iyong mga mapagkukunan ng data sa isang madalang batayan mo ay pagpunta sa baha ang iyong network na may trapiko sa lalong madaling bilang iyong manggagawa magsimulang tumakbo ang nagdadala ng lahat sa isang pagtigil. Para sa aking mga solusyon ko nagpasya na Gusto ko upang ilipat ang aking mga pinagmumulan ng data sa paligid sa aking VMs.

Hold ikaw horse doon! Paano kung ang aking mga pinagkukunan ng data ay malaking? Well ito talaga ay isang kaso ng kung magkano ang data ay namin ang pakikipag-usap? Ito ay maaaring maging mas epektibong gastos upang i-install ng isang karagdagang mas malaking hard drive sa bawat machine kaysa sa bumili ng isang karagdagang pagproseso ng server. Ito ay isang katanungan ng badyet at ay hanggang sa negosyo upang magpasya. Ito siguro na ang iyong mga mapagkukunan ng data ay kaya malaki na ang lamang unfeasible upang panatilihing na halaga ng data sa iyong mga machine ng manggagawa. Sa kasong iyon kung ano ang gusto mong gawin? Rin namin maaaring tumingin sa pagtawag ng isang lokal na server data, ngunit ito ay maaaring maging sanhi ng mga isyu sa network. Sa kasong ito ang isang grid system tulad ng ito ay maaaring maging unrealistic upang isama sa iyong opisina ng kapaligiran. Maaari din ito na maaari mong hanapin sa mga kahaliling tumatakbo diskarte, halimbawa lamang pagtawag sa iyong mga manggagawa 8:00-6:00 bawat gabi at / o throttling data pinagmulan kahilingan.

Paglipat sa hinahayaan ang sinasabi ng aming mga data mga pinagkukunan halaga sa 100Gb ng data. Well yes na ang lubos na isang bit ng data upang ilipat sa paligid ng network sa isang update. Paano namin matiyak na mayroon kaming ang pinakabagong kopya ng data sa kasong ito? Rsync ay isang posibilidad, ngunit personal na tingin ko sa pamamagitan ng pagpapatakbo ng iyong pinakabagong data pinagmulan sa iyong server sa pagproseso ng trabaho at ang setting na ito bilang isang master sa pagtitiklop (na may isang magandang mahaba bin log) ay maaaring ang paraan upang pumunta:

pagtitiklop Sa pamamagitan ng pagtatakda ng bawat ng iyong mga manggagawa bilang isang alipin sa trabaho update sa server ng kontrol sa iyong mga mapagkukunan ng data ay tumagas down na mabuti sa iyong mga manggagawa na walang isang malaking pagtaas sa aktibidad ng network (na maliban kung nagsagawa ka ng isang malaking update data at lahat ng iyong manggagawa sipa sa sabay-sabay). Ito ay may pakinabang sa paglipas ng rsync sa na hindi mo nais makakuha ng isang mahabang pause bago bawat trabaho; bilang ng mga update ng database, ang MySQL demonyo sa iyong manggagawa ay patuloy na i-update ang data habang ang pagpoproseso ng patuloy.

Ito ay kung paano ko ise-set up ng aking pagpapakita server. Upang i-set up ang pagtitiklop ko sinunod ang gabay sa ang MySQL site ( Pagse-set up pagtitiklop ) at sa loob ng 20 minuto ko ay aking inital manggagawa Kinokopya ang trabaho ng control server dataset. Para sa bawat karagdagang manggagawa ang mga setting ng pagtitiklop at proseso ay nagtrabaho sa bawat oras na kapag VM ay kinopya.

Buod

Sa seksyong ito ng mga artikulo na namin tumingin sa kung paano madali at hindi masakit ito ay upang panatilihin ang iyong code sa pagproseso ng hanggang sa petsa ng using rsync o subverion (SVN) upang gawin ang trabaho at mabawasan ang trapiko sa network sa parehong time. tinalakay din namin kung paano upang panatilihin ang iyong data ng impormasyon sa pinagmulan up-to-date sa pamamagitan ng nagpapahintulot sa mga ito sa tulo pababa sa bawat ng iyong mga manggagawa. Kaya namin lugar sa pagtiyak na hindi namin panatilihin up sa mga lohika ng negosyo at impormasyon sa aming system ng grid ng opisina. May malinaw naman ay ang hindi mabilang na mga alternatibo sa pagganap ng mga gawain, ngunit dito ay dalawang simpleng halimbawa upang ipakita kung gaano kadali ang solusyon ay dumating sa pamamagitan ng.

Susunod na

Sa huling bahagi ng serye na ito, aptly pinangalanan Bahagi 5 , kami ay talakayin ang paganahin ng system na ito para. Kukunin ko magbuod kung ano ay natutunan at kung ano ako pinamamahalaang upang lumikha ng.

Office Grid computing gamit Virtual kapaligiran - Part 1

, mga Biyernes 4th Disyembre 2009 11:23

Pagpapakilala

Magtrabaho ako sa isang kumpanya kung saan tumakbo namin ang maraming mga batch trabaho na pagproseso ng mga milyon-milyong ng mga talaan ng data sa bawat araw at ako ay iniisip kamakailan tungkol sa lahat ng mga machine na umupo sa paligid ng bawat at bawat araw paggawa ng wala para sa mga ilang oras. Hindi magiging mahusay na kung maaari naming gamitin ang mga machine sa magbolster ang pagproseso ng kapangyarihan ng aming mga system? Sa hanay ng mga artikulo na ako pagpunta sa tumingin sa mga potensyal na benepisyo ng employing ng isang tanggapan grid na gamit ang virtualised kapaligiran.

Bilang isang PHP developer ako pagpunta sa gamitin ang mga tool na ginagamit ko sa bawat araw katulad, Linux, MySQL , PHP, VirtualBox at pagbabagsak (SVN). Gayunpaman Umaasa ako gabay na ito ay iangkop sa iba pang mga wika at teknolohiya lamang pati na rin.

Ang solusyon na magbigay ako ay masyadong maluwag batay sa uri ng pagproseso gusto namin kailangan upang makamit gayunpaman ito ay maaaring hindi tunay na sa pamamagitan ng buong artikulo tulad ng kukunin ko na baguhin ang mga bagay na simple, o upang makabuo ng mas kawili-wiling pangyayari paggamit.

Ang mga virtualised kapaligiran ay tumakbo sa windows machine dahil ito ay kung ano ang karamihan ng mga tanggapan na tumakbo. Ang processing na ang mga opisina machine gawin ay hindi dapat makagambala sa staff gamit ng mga mga machine, dapat na nangangailangan ng walang maintenance sa machine, at madaling deployable sa bagong machine bilang maging sila magagamit. Gayundin, ang mga bagong virtual machine ay hindi dapat nangangailangan ng anumang karagdagang mga configuration na ito lubos na binabawasan ang kakayahang sumukat at kadalian na kung saan ang grid system ay maaaring pinalawak.

Bakit lumawak isang Grid computing Office?

Una maaari kang iniisip, bakit hindi lamang gamitin ang isang ulap computing mapagkukunan tulad ng EC2 Amazon platform ? Na rin ang mga dahilan ay maaaring maraming, halimbawa:

  • Hindi mo pagkatiwalaan ilang mga data sa isang ulap computing kapaligiran
  • Ikaw ay hindi maaring ilagay ang ilang mga data sa isang ulap computing kapaligiran para sa legal na dahilan (eg data na umaalis sa bansa), potensyal na para sa mga legal na dahilan, gaya ng NHS talaan.
  • Gusto mong panatilihin ang iyong mga yunit ng processing isara at magkaroon ng buong kontrol ng hardware masyadong
  • Hindi mo na kailangang ang mga pondo ng proyekto upang patakbuhin ang mga pagkakataon ng ulap
  • Iyong opisina ay hindi magkaroon ng isang koneksyon sa internet at samakatuwid nito hindi posible na gumamit ng isang mapagkukunan ng ulap
  • Hindi mo gusto ng ulan, ang mga ulap iminumungkahi ulan, kaya mo rin panatilihin ang layo

Ako ba ang listahan ay maaaring magpatuloy, ngunit tingin ko na sapat para sa ngayon.

Pakinabang ng isang Grid computing Office

Well, ay nagbibigay-daan sa gawin ang ilang mga matematika (at sa totoo pisika estilo ay nagbibigay-daan sa gumawa ng ilang mga malawak na pagpapalagay). Isipin mo na may malaking malakas processing server na tumatakbo ng 100 mga trabaho bawat araw. Sa iyong opisina mayroon ka ng 50 machine na idle 16 oras sa isang araw, ang bawat isa sa mga machine ay 10% bilang malakas na bilang iyong malakas processing maputol. (Bilugan ang lahat ng mga resulta sa dito sa pangmamata ang pagtaas ng pagganap).

Kaya, ang 1 machine * 10% ng kapangyarihan * 2/3 oras = 0.067 is 1 desktop processing sa idle time maproseso ng 6 buong trabaho bawat araw.

Kung ngayon ka masukat ito hanggang ito ay tumatagal ng 15 idle desktop upang iproseso ng maraming trabaho bawat araw bilang ang iyong pangunahing server ng ​​processing.

Kaya sa aming magpanggap opisina ng 50 machine namin ma-dagdagan ang aming pagproseso ng kapangyarihan mula sa 1 server up sa 4 buong server processing, o namin ang pagproseso ng 400 mga trabaho bawat araw sa halip ng 100.

Paunawa, para sa walang pamumuhunan sa bagong hardware ang iyong kumpanya lamang nadagdagan ang kapasidad ng batch processing 4 na beses! Potensyal na kayo ay pagpunta sa dagdagan ang iyong paggamit ng kapangyarihan ngunit mula sa pinaka-kapaligiran opisina ko na sa machine ay karaniwang naiwan sa magdamag pa rin, kaya maaari mong makita ito bilang isang berdeng hakbangin.

Iba pang mga pakinabang ay ibig sabihin na pamumuhunan sa bagong (o na-update) processing server ay maaaring maantala kung ang iyong mga opisina machine ay sapat at na bilang mo mapagbuti ang kapangyarihan ng iyong mga machine sa opisina ng iyong opisina grid nagiging mas malakas na awtomatikong.

Teknolohiya

Ano ang kailangan mo? (O mas tama kung ano ang ko bang gamitin):

  • Idle opisina machine (sa aking kaso ng isang ekstrang lumang windows XP laptop)
  • VirtualBox (o isa pang client ng software ng virtualisation)
  • Ang isang virtual machine sa PHP, MySQL running pagpapatakbo ng isang cut down na OS, ako pagtawag ito ang aking mga malata server :)
  • Trabaho upang tumakbo
  • Job server (ay maaaring maging isa pang virtual machine sa lugar)

Karaniwang Trabaho

Ang mga uri ng mga trabaho na ang sistema na ito ay dinisenyo upang tumakbo bilang mga sumusunod:

  • Ang sistema na natatanggap ng isang listahan ng mga data na kung saan na kailangan namin upang tumugma sa at ibalik ang mga resulta
  • Pagtutugma nagsasangkot check / naghahanap ilang (medyo static) mapagkukunan ng data
  • Mga resulta mula sa mga pinagkukunan ng data ay maaaring mangailangan ng karagdagang pagpapatunay, pinagsasama, pagsuri ng karagdagang mapagkukunan ng data bilang tugon sa mga resulta
  • Nagbalik ang data ay sa pagtutugma ng mga tala, ganap na napatunayan at maproseso
  • Ang bawat record sa loob ng isang trabaho ay malayang ng ang natitirang

Kaya talaga namin hinahanap sa pagtakbo ng mga trabaho na nangangailangan ng isang timpla ng database lookups at ilang mga numero crunching, isang pantay karaniwang sitwasyon sa isang kapaligiran ng negosyo.

Mga Grid solusyon ay hindi lamang ang kapaki-pakinabang para sa pagproseso ng mga trabaho ng ganitong uri. Talaga, anumang proseso na maaaring nahati sa mga independiyenteng mga yunit ay maaaring magpatakbo ng kahanay. Tingnan ang Wikipedia para sa mga halimbawa at karagdagang impormasyon: Grid computing , ngunit isang pares ng mga tanyag na halimbawa ay Seti @ Home at BIONC . May mga frameworks para sa pagpapatakbo ng mga grids computing, at ito ay mahusay nagkakahalaga naghahanap sa.

Ano ang kami ay makamit?

Sa pamamagitan ng dulo ng mga artikulo na Umaasa ako upang ipakita na ang paganahin ng isang grid ng opisina hindi kailangan maging hugely mahal o oras na gugulin. Ako pagpunta upang talakayin:

  • Pagse-set up ang kontrol ng sistema ng trabaho, trabaho configuration
  • Paglikha ng isang naaangkop na na processing virtual machine
  • Kung paano i-setup ang sistema sa isang makina ng bintana
  • Tinitiyak ikaw ay gumagamit ng mga pinakabagong code at data
  • Deployment at benchmarking
  • Naghahanap ng maaga

Kukunin ko ang gusali (ok na binuo ko, sinulat ito) ang isang halimbawa ng application upang subukan ang mga konsepto sa isang lokal na machine na gamit ang mga bintana XP at aking 'GridMachine na' virtual machine. Ang aking trabaho control server ay aking pangunahing makina na nagpapatakbo ng Fedora 11 .

Ito ay sa walang paraan ay nilayon upang ipakita ang isang ganap na gumagana ng malakas na sistema, ang ibig sabihin higit pa sa pagpapakita at tatalakayin na ipinapakita na ang mga bagay na ito ay maaaring nakakamit sa isang makatwirang maikling puwang ng oras at sa maliit na gastos. Mangyaring huwag mag-atubiling ipadala sa akin ang anumang mga puna, pagwawasto, o mga pagpapabuti at kong gawin ang aking pinakamahusay na upang mapanatili ang artikulong ito na-update upang tumugma sa.

Susunod na

Sa bahagi 2 ay ako magsisimula sa pamamagitan ng pagtingin sa sistema ng kontrol ng trabaho, at tumingin sa kung paano ang mga trabaho ay dapat na-configure upang makamit ang pinakamalaking halaga ng pagproseso habang tinitiyak na ang bawat trabaho ay naproseso walang sablay.













Panorama Tema sa pamamagitan ng Themocracy

7 mga bisita sa online ngayon
5 mga bisita, 2 bot, 0 miyembro
Max mga bisita ngayon: 12 sa 01:24 am UTC
Sa buwang ito: 26 sa 2012/04/04 10:27 pm UTC
Ito taon: 69 sa 27-02-2012 09:56 am UTC
Lahat ng oras: 130 sa 28-03-2011 10:40 pm UTC