Dynamisk legge til sider Zend_Navigation container under kjøring

Av , torsdag 07.01.2010 22:50

I en fortsettelse på mitt siste innlegg om Zend_Navigation og Route forespørsler om sitemap.xml til tilpasset controller / handling , er dette innlegget om dymnamically legge til sider til en Zend_Navigation container ved runtime / script kjøring.

Dens vel og bra angi dine sider i en ini-eller xml -fil, men på et tidspunkt er du nødt til å ha bytte side på nettstedet ditt som du ønsker som en del av en meny, sitemap, eller å bli inkludert i registreringen sti. Derfor hva vi trenger å gjøre er å legge sider i vår Zend_Navigation beholder under kjøring. Eksempler på dette ville være i å legge nyheter, blogginnlegg eller side kommentarer osv.

Fortsett å lese 'dynamisk legge til sider Zend_Navigation container under kjøring' »

Route forespørsler om sitemap.xml til custom controller / handling

Av , Onsdag 6. januar 2010 12:13 am

For å direkte forespørsler om / sitemap.xml til en tilpasset kontroller og handling i Zend Framework -programmet er å legge til følgende i din application.ini eller alternativ config-filen (f.eks jeg bruk navigation.ini):

 resources.router.routes.sitemap.route = "sitemap.xml"
 resources.router.routes.sitemap.defaults.controller = index
 resources.router.routes.sitemap.defaults.action = sitemap

Eksempel kode for gi ut kan sees ved å opprette en handling i den aktuelle kontrolleren (f.eks min sitemap ligger i indeksen kontrolleren, sitemap handling):

 < php
 klasse IndexController
     strekker Zend_Controller_Action
 {
     / **
      * Renders et nettkart basert på Zend_Navigation oppsett
      * /
     offentlig funksjon sitemapAction ()
     {
    	 echo $ this-> Vis-> navigasjon () -> sidekart ();
    	 $ This-> Vis-> layout () -> disableLayout ();
    	 $ This-> _helper-> viewRenderer-> setNoRender (true);
     }
 }

Sitemaps kan raskt og enkelt lages ved hjelp Zend_Navigation , en flott rask tutorial (og generelt svært nyttig for Zend Framework tutorials) er Zend kastene - dynamisk oppretter en meny et områdekart og brødsmuler .

Zend Framework Per-modul baserte innstillinger

Av , fredag ​​01.01.2010 22:40

Jeg har laget en oppfølger til dette innlegget som krever mindre konfigurasjon, se modulbasert Layout - Zend Framework .

Når du bruker Zend Framework med moduler, dens åpenbare at hvis du kjører forskjellige (sub-) områder av samme applikasjonen du ikke nødvendigvis vil ha de samme tegnsett for hver del. Jeg bestemte meg for å gå med følgende nettsted struktur:

  / Application
     / Kontrollere
         ...
     / Modeller
     / Moduler
         / Default
             / Kontrollere
             / Layout
                 / Scripts
             / Visninger
                 / Scripts
         / AnotherModule
             ...
     / Scripts

Problemet ble å sette opp og tegnsett på en per-modul basis. Svaret kom gjennom ved hjelp av en Handling Helper. Sette opp oppsettene på en per-modul basis involverer tre trinn:

  1. Application.ini (eller lignende konfigurasjonsoppsettet):
      admin.resources.layout.layoutPath = APPLICATION_PATH "/ modules / admin / oppsett / scripts"
     default.resources.layout.layoutPath = APPLICATION_PATH "/ modules / default / oppsett / scripts"
     member.resources.layout.layoutPath = APPLICATION_PATH "/ modules / medlem / oppsett / scripts"
     affiliate.resources.layout.layoutPath = APPLICATION_PATH "/ modules / agent / oppsett / scripts" 
  2. Lag din Handling Helper:
      <? Php
     / **
      * Setter layout banen på en per-modul basis
      *
      * @ Author Lloyd Watkin <lloyd@evilprofessor.co.uk>
      * @ Siden 2010-01-01
      * /
     klasse Pro_Controller_Action_Helper_SetLayoutPath
         strekker Zend_Controller_Action_Helper_Abstract
     {
         / **
          * Stiller layout sti basert på modul
          * /
         offentlig funksjon preDispatch ()
         {
        	 $ Modul = $ this-> GetRequest () -> getModuleName ();
    
    	     if ($ bootstrap = $ this-> getActionController ()
    	                        -> GetInvokeArg ('bootstrap')) {
    
    	         $ Config = $ bootstrap-> getOptions ();
    
    	         if (isset ($ config [$ modul] ['ressurser'] ['layout'] ['layoutPath'])) {
    	             $ LayoutPath =
    	                  $ Config [$ modul] ['ressurser'] ['layout'] ['layoutPath'];
    	             $ This-> getActionController ()
    	                  -> GetHelper ('layout')
    	                  -> SetLayoutPath ($ layoutPath);
    	         }
        	 }
         }
     } 
  3. Og til slutt boostrap handlingen hjelperen:
      ...
         / **
          * Setter opp layout skript på en per-modul basis
          * /
         beskyttet funksjon _initLayoutHelper ()
    	 {
    	     $ This-> bootstrap ('frontController');
    	     $ Layout = Zend_Controller_Action_HelperBroker :: addHelper (
    	         ny Pro_Controller_Action_Helper_SetLayoutPath ());
    	 }
     ... 

Lære: DATETIME standard NÅ ()

Av , 30. Onsdag desember 2009 18:30

Jeg har slitt med å sette opp et databaseskjema for en ny Zend Framework prosjekt. Jeg er hjelp prøver å bruke Lære ORM for min database modeller. Jeg trenger å sette opp skjemaet, slik at det tillot meg å sette en standard dato og tid for en `datetime` kolonne, f.eks når du legger en ny melding jeg får den gjeldende tidsstempel. Etter mye leting og eksperimentering fant jeg løsningen, så jeg deler den.

I din skjema YAML fil bare gjøre følgende:

 Melding:
   Actas:
     Timestampable:
       opprettet:
         navn: created_at
         Type: timestamp
         format: Ymd H: i: s
       oppdatert:
         navn: last_updated
         Type: timestamp
         format: Ymd H: i: s
   kolonner:
     id:
       Type: heltall
       primær: true
       autoincrement: true
     navn: string (255)
     email: string (300)
     melding: string (2000)

Hvis derimot du ikke vil en `updated_at` kolonne kan du bruke følgende:

 Melding:
   Actas:
     Timestampable:
       opprettet:
         navn: created_at
         Type: timestamp
         format: Ymd H: i: s
       oppdatert:
         funksjonshemmede: true
   kolonner:
     id:
       Type: heltall
       primær: true
       autoincrement: true
     navn: string (255)
     email: string (300)
     melding: string (2000)

PHP Design Patterns - Observer Pattern

Av , tirsdag 29 desember 2009 22:02

Jeg har lest Head First Design Patterns nylig og har besluttet å skrive noen av mønstrene som PHP eksempler for min egen fordel. Den første som jeg har bestemt meg for å kode er opp Observer Pattern . Den formelle definisjonen av Observer Mønster er:

Observatøren mønster (en undergruppe av den asynkrone publisere / abonnere mønster ) er en software design mønster der en objekt , kalt faget, vedlikeholder en liste over sine pårørende, kalt observatører, og varsler dem automatisk om eventuelle statlige endringer, vanligvis ved å ringe en av deres metoder . Det er i hovedsak brukt til å implementere distribuerte event håndtering systemer.

Som systemer blir mer løst koplet å sørge for at når en hendelse skjer alle systemer som krever kunnskap om disse oppdateringene blir informert. For eksempel, et blogginnlegg, etter lagring et innlegg kan vi trenger å oppdatere en søkemotor (f.eks Lucene), oppdatere våre sitemap, koder, e-post abonnerer brukere osv. Observatøren mønster tillater utviklere å legge til flere lyttere uten å redigere deres observerbare objekt . Ved å injisere observatører (dvs. en søkemotor oppdatering observatør, en sitemap generator, etc) inn i et fag (dvs. blogginnlegget redigering system) kan vi tillate at det å utføre alle de nødvendige oppdateringene uten noen endringer.

Fortsett å lese 'PHP Design Patterns - Observer Pattern' »

Kontor Grid Computing ved hjelp av virtuelle miljøer - Del 4

Av , fredag ​​04.12.2009 11:59

Innledning

Jeg jobber i et selskap der vi kjøre mange satsvise jobber behandle millioner av plater med data hver dag og jeg har tenkt nylig om alle maskinene som sitter rundt hver eneste dag gjør ingenting for flere timer. Ville ikke det være bra om vi kunne bruke disse maskinene til å styrke behandlingskapasiteten til våre systemer? I dette settet med artikler jeg kommer til å se på de potensielle fordelene ved å ansette et kontor rutenett med virtualiserte miljøer.

I del 3 har vi opprettet vår virtuelle behandling maskin og konfigurere Windows-maskiner skal bli inaktiv-time arbeidere.

Kjører den nyeste koden

Uunngåelig etter at du opprettet arbeidere forretningslogikk vil forandre, vil bugs bli funnet, vil raskere mer effektiv kode skal produseres dermed forlate dine arbeidere satt rundt behandling av data ved hjelp av gammel stinkende kode . Hvordan da sikrer vi at vi alltid bruker den nyeste versjonen av vår behandling skript?

Det finnes noen svært enkle enkle måter vi kan gjøre dette, det trikset, er imidlertid å redusere prosessorkraft og nettverkstrafikk i å oppnå dette. Lar starte med de enkleste løsningene og forbedre den sakte over et par gjentakelser.

Den første metoden ville være å bare koble til vår jobb kontroll server (via samba, FTP eller lignende) og trekk ned den nyeste versjonen av koden. Ikke veldig effektiv, men det vil gjøre jobben. Lar forbedre det litt, hvordan om å skape en rsync skript og bruker den hver gang i stedet? Alternativt hva om å sette vårt nyeste behandling skriptet inn i subversion sjekke ut koden først, og så bare oppdaterer vår kode på hver kjøring ( svn update )?

Til slutt kunne vi ende opp med et bash script (kalt av cron hvert 10. minutt), som ser så enkelt som dette:

  #! / Bin / sh
 hvis ps ax | grep-v grep | grep php > / dev / null
 da
     echo "Job er for tiden behandler, exit"
 ellers
     echo "Job ikke kjører, starter nå"
     cd / sti / til / jobbe / kopi
     svn update
     php yourJobProcessingScript.php
 fi 

Nå kan vi være sikker på at med hvert løp er vi definitivt kjører den nyeste koden. Vi er sikret dette ved å oppdatere vår kodebasen hver gang vi utfører en løpetur og redusere nettverkstrafikken ved bare å overføre filen forskjeller på tvers av nettverket vårt.

I min demonstrasjon oppsett, gjorde jeg akkurat som ovenfor. Subversion ble installert på min jobb behandling server og jeg bare dro den siste koden fra en "arbeidstaker" gren med «svn update». Jeg har også lagt til en versjonsnummer tag til min behandling script som ble returnert til databasen som en del av resultatene retur. På denne måten kunne jeg se at koden min ble oppdatert hver gang jeg kopierte min stammen til arbeideren grenen dvs at jeg var definitivt kjører den nyeste prosessering skriptet.

Bruker de nyeste dataene

Hvis jobben din behandling gjør bruk av datakilder og på et tidspunkt disse kommer til å bli oppdatert også. Med mindre du kaller dine datakilder på en veldig sjelden grunnlag du kommer til å oversvømme nettverket med trafikk så snart de ansatte begynne å bringe alt til en stillstand. For løsning mitt bestemte jeg at jeg vil flytte mine datakilder rundt med mine VMer.

Hold du er hester der! Hva om mine datakilder er STOR? Vel, dette er virkelig et tilfelle av hvor mye data snakker vi? Det kan være mer kostnadseffektivt å installere en ekstra større harddisk til hver maskin enn å kjøpe en ekstra behandling server. Dette er et spørsmål om budsjett og er opp til virksomheten å bestemme. Det kanskje at datakildene er så stor at bare gjennomførbare for å holde den datamengden i dine ansattes maskiner. I så fall hva ville du gjøre? Vel vi kunne se på ringer en lokal data server, men dette kan føre til problemer med nettverket. I dette tilfellet et rutenett som dette kan bli urealistisk å inkludere i kontormiljøet. Det kan også være at du kan se på alternative kjører strategier, for eksempel bare å ringe dine arbeidere mellom 20:00 og 6am hver natt og / eller strupeventiler datakildefiler forespørsler.

Flytte på kan si våre datakilder beløp til 100GB data. Vel ja det er ganske mye data å flytte rundt på nettet på en oppdatering. Hvordan ville vi sikre at vi har den siste kopien av dataene i dette tilfellet? Rsync er en mulighet, men personlig synes jeg ved å kjøre den siste datakilden på jobb prosessering server og sette dette opp som en mester i replikering (med en fin lang bin log) kan være veien å gå:

replikering Ved å sette hver av dine ansatte opp som en slave til de jobbkontrollknapper server oppdateringer til datakilder vil risle ned pent til dine arbeidere uten en enorm økning i nettverksaktivitet (som er mindre du utfører en stor data oppdateringen og alle de ansatte sparke i samtidig). Dette har fordeler over rsync på at du ikke ville få en lang pause før hver jobb, som databasen oppdateringene, den MySQL vil nissen på arbeideren din kontinuerlig oppdatere sine data mens behandlingen fortsetter.

Dette er hvordan jeg setter opp min demonstrasjon server. Slik setter du opp replikering Jeg fulgte guiden på mySQL hotellet ( Sette opp replikering ) og innen 20 minutter hadde jeg min inital arbeideren replikere jobbkontroll servere datasettet. For hvert ekstra arbeidstaker replikering innstillinger og prosess jobbet hver gang da VM ble kopiert.

Oppsummering

I denne delen av artikkelen har vi sett på hvor enkelt og smertefritt det er å holde behandling koden oppdatert ved using rsync eller subverion (SVN) for å gjøre arbeidet og redusere nettverkstrafikken på samme time. Vi diskuterte også hvordan å holde datakildeinformasjon up-to-date ved at det å sildre ned til hver av dine ansatte. Derfor vi område at vi holder tritt med forretningslogikk og informasjon i vårt kontor bæresystem. Det vil åpenbart være utallige alternativer til å utføre disse oppgavene, men her var det to enkle eksempler for å vise hvor lett en løsning er å komme med.

Neste gang

I den siste delen av denne serien, treffende navn Del 5 vil vi diskutere distribuerer dette systemet for. Jeg skal oppsummere hva som har blitt lært og hva jeg klarte å lage.

Kontor Grid Computing ved hjelp av virtuelle miljøer - Del 3

Av , fredag ​​04.12.2009 23:37

Innledning

Jeg jobber i et selskap der vi kjøre mange satsvise jobber behandle millioner av plater med data hver dag og jeg har tenkt nylig om alle maskinene som sitter rundt hver eneste dag gjør ingenting for flere timer. Ville ikke det være bra om vi kunne bruke disse maskinene til å styrke behandlingskapasiteten til våre systemer? I dette settet med artikler jeg kommer til å se på de potensielle fordelene ved å ansette et kontor rutenett med virtualiserte miljøer.

I del 2 ser vi på de jobbene en server vil kjøre, og hvordan jobber skal være konfigurert for å oppnå mest mulig behandling og sikrer at hver jobb er behandlet uten å lykkes.

Sette opp arbeidstaker - eller Limp server

Det neste trinnet i prosessen er å sette opp dine virtuelle arbeidere. For dette kommer jeg til å bruke en installasjon av CentOS bruker VirtualBox. Jeg skal installere mySQL og PHP på serveren, også kjent som en Limp (Li Nux, m ySQL, P HP) Servera (jeg har kanskje gjort at navnet opp).

  • Installer VirtualBox på Windows maskinen (følg link)
  • Last ned og installer CentOS (nåværende versjon 5.3) innenfor et skapt virtuell maskin

Det er ingen vits meg å gå til denne er det sannsynligvis 1000 er av store tutorials der ute (ok, her er en: Lage og Managing CentOS virtuelle maskinen under VirtualBox ). Det viktige å merke jeg antar er at jeg ringte min virtuelle maskin GridMachine.

Såvidt mitt valg av virtualisering klient og operativsystem går det ikke stort overbevisende grunn for hvert valg. VirtualBox er noe jeg bruker på min telefonsvarer og blir støttet av de tre store operativsystemene. Jeg valgte CentOS som sin en god stabil OS og jeg bruker det på min egen webserver. Jeg er en stor tro på de riktige verktøyene for jobben (selv om jeg søker 'bruk den raskeste og enkleste for deg' mentalitet her), så hvis operativsystem X kjører koden din raskere og mer effektivt bruke dette i stedet :)

Viktigere sørge for at VM bruker DHCP, ellers for hver ny virtuell maskin ville må konfigureres separat som er noe vi ikke want.By bruker DHCP vi trenger ikke å konfigurere nettverksinnstillinger individuelt for arbeidstakernes maskiner, vil DHCP overlevere ut IP-er for deg. Derfor kan du kopiere den virtuelle maskinen om kontoret uten å bekymre deg sette hver og en opp (dette forbedrer skalerbarhet og reduserer arbeideren administrasjon).

Prosessen du bør sikte på å oppnå ville være å få en ny fysisk maskin, installerer VirtualBox, og deretter ganske mye distribuere virtuelt bilde uten mye annet. Det kan være lurt å sette opp alle dine arbeidere på et annet subnett, slik at du kan minst se hvor mange maskiner kjører. Du må også sette opp dine maskiner på en lang leieavtale eller ubegrenset lease DHCP.

Slik kjører Jobs på arbeideren

Dette er et interessant område, og det er mange gode metoder for å behandle jobber på arbeideren. Her skal jeg bare diskutere de to mest åpenbare:

  • Stadig kjører skriptet: Et skript, det være seg et skall skript eller en PHP script kjøres en gang på arbeideren og løper som en del av en uendelig løkke. Jeg har diskontert denne metoden som en krasj av skriptet og potensielt dine arbeidstakere vil slutte å kjøre uten noen form for intervensjon.
  • Cron baserte script execution: hvert X minutt cron daemon starter en samtale til skriptet for å få ting i gang. Uten noen sjekker dette kan føre til mange mange kopier av arbeideren skript.

Min beslutning var å gå med cron som starter et skall-skript hver 10 minutes. Min skallskript utfører følgende oppgaver:

  1. Få en prosess liste og grep dette for 'PHP ". Hvis ikke funnet da fortsette.
  2. Ring din jobb koden, i mitt tilfelle dette skulle være noe PHP basert
  3. Worker script fullfører sin run
  4. Klar til å gå igjen på neste aktuelle samtalen

Min bash script ser omtrent slik:

  #! / Bin / sh
 hvis ps ax | grep-v grep | grep php> / dev / null
 da
     echo "Job er for tiden behandler, exit"
 ellers
     echo "Job ikke kjører, starter nå"
     php yourJobProcessingScript.php
 fi 

Merk: echo 'er nesten helt meningsløs, men kan bidra til den neste personen som kommer sammen for å prøve og redigere dem.

Det konkluderer oppsett av arbeideren virtuell maskin, raskt, enkelt og lett å kopiere til hver ny maskinvare som er mottatt. The 'klokskap' av bæresystemet er egentlig ikke i visualisert OS, alt å gjøre med koden opprettet for å behandle jobber, jobben konfigurasjon og i å sørge for at jobben går når det passer (dvs. når verten er inaktiv ).

Sette opp Windows til å initialisere Workers

Den første oppgaven er å trene kommandoen kreves for å kjøre den virtuelle maskinen fra Windows kommandolinje. Hvis du har installert VirtualBox i standard plassering og du har gitt arbeidstakeren GridMachine deretter kommandoen som kreves for å laste opp din arbeideren er:

  "C: \ Programfiler \ sø \ VirtualBox \ VBoxManage.exe" startvm GridMachine 

Men å kjøre skriptet i en "hodeløs" state vi trenger å bruke:

  "C: \ Programfiler \ sø \ VirtualBox \ VBoxHeadless.exe"-startvm GridMachine - vrdp = off 

Dette vil starte den virtuelle maskinen uten GUI og la den for å spare staten grasiøst. Det andre argumentet slår av RDP så det ikke kommer i konflikt med vinduer RDP, eller gi deg en beskjed om å lytte på port 3389. Den virtuelle maskinen navn er store og små bokstaver!

Deretter må vi sette vinduer opp til kick off vår medarbeider VM når maskinen har vært inaktiv. For å gjøre dette (på Windows XP) du trenger for å gå på Start -> Alle programmer -> Tilbehør -> Systemverktøy -> Planlagte oppgaver som nedenfor:

planlagte oppgaver

Neste klikk på "Legg til planlagt oppgave" etterfulgt av bla å legge til et egendefinert program. Naviger til din VBoxManage script og klikk ok. Planlegg din oppgave for noen av alternativene (vi kommer til å endre dette i ett minutt) og fortsette. Etter å hoppe over neste skjermbilde vinduene vil spørre deg hvem du vil kjøre denne oppgaven, vil jeg foreslå enten "Administrator" eller lage en ny privilegert bruker. Husk vi ønsker ikke å forstyrre den standard personalet konto på maskinen på noe punkt. Klikk Neste og sjekk viser avanserte alternativer for denne oppgaven.

Til slutten av kjøringen tekstboksen legge vår "startvm GridMachine" streng og sikre at run bare når du er innlogget er igjen merket av. Besøk tidsplanen oppgaven neste og endre planen falle ned til alternativet 'når idle', velge hvor mye tid du vil at maskinen skal være inaktiv før du går videre til neste kategori.

Endelig fjern merket det alternativet som sier stoppe oppgaven hvis den har kjørt X mengde tid, men merk muligheten til å stoppe oppgaven dersom maskinen er ikke lenger ledig.

planlegge

Det er det da for vinduene vert oppsett!

Oppsummering

I denne delen har vi satt opp en virtuell maskin til å fungere som en arbeidstaker, samt måten vi ringe og gjennomføre våre ledige behandling skript (for meg en PHP script). Herfra ser vi på hvordan du setter opp våre kopier av Windows for å starte opp den virtuelle maskinen i hodeløse modus når datamaskinen blir inaktiv, og lagre tilstanden når brukeren gjenopptar bruken av maskinen. Forhåpentligvis på dette punktet er du ser hvor enkelt det er å sette opp et slikt system, og er spent på å få noen eksperimenter gang selv!

Neste gang

I del 4 skal vi se på bruk av verktøy for å sikre at du kjører den nyeste versjonen av koden og data kilder slik at oppnådde resultater er alltid up-to-date med den nyeste forretningsinformasjon og logikk.

Kontor Grid Computing ved hjelp av virtuelle miljøer - Del 1

Av , fredag ​​04.12.2009 11:23

Innledning

Jeg jobber i et selskap der vi kjøre mange satsvise jobber behandle millioner av plater med data hver dag og jeg har tenkt nylig om alle maskinene som sitter rundt hver eneste dag gjør ingenting for flere timer. Ville ikke det være bra om vi kunne bruke disse maskinene til å styrke behandlingskapasiteten til våre systemer? I dette settet med artikler jeg kommer til å se på de potensielle fordelene ved å ansette et kontor rutenett med virtualiserte miljøer.

Som en PHP utvikler jeg kommer til å bruke verktøy som jeg bruker hver dag nemlig, Linux, mySQL , PHP, VirtualBox og Subversion (SVN). Men jeg håper denne guiden vil tilpasse seg andre språk og teknologier like bra.

Den løsningen jeg gir blir veldig løst basert på den type behandling vi ville trenge for å oppnå, men dette kan ikke være sant gjennom hele artikkelen som jeg skal forandre ting for enkelhet, eller å produsere mer interessante bruksscenarioer.

Disse virtualiserte miljøer som vil kjøre på Windows-maskiner siden dette er hva de fleste kontorer kjører. Behandlingen at kontormaskiner gjøre bør ikke forstyrre personalet bruker disse maskinene, bør kreve noe vedlikehold på maskinen, og være lett deployerbare til nye maskiner som de blir tilgjengelige. I tillegg bør nye virtuelle maskiner ikke krever noen ekstra konfigurasjon som dette i stor grad reduserer skalerbarhet og enkelhet hvor bæresystemet kan utvides.

Hvorfor Distribuer en Office Computing Grid?

For det første du kan tenke, hvorfor ikke bare bruke en cloud computing ressurs som Amazons EC2-plattform ? Vel grunnene kan være flere, for eksempel:

  • Du vil ikke overlate visse data til en cloud computing miljø
  • Du kan ikke sette visse data i en cloud computing miljø juridiske årsaker (f.eks data forlate landet), potensielt for juridiske grunner, f.eks NHS poster.
  • Du ønsker å holde processing units lukke og har full kontroll over maskinvaren også
  • Du har ikke prosjektmidlene til å kjøre sky forekomster
  • Kontoret ikke har en tilkobling til internett og derfor det ikke mulig å bruke en sky ressurs
  • At du ikke liker regn, skyer foreslår regn, derfor du holde god avstand

Jeg er sikker på listen kunne fortsette, men jeg tror det er nok for nå.

Fordeler med en Office Computing Grid

Vel, kan gjøre noen matte (og i ekte fysikk stil lar gjøre noen sveipende forutsetninger). Tenk deg at du har stor beefy prosessering server som kjører 100 jobber per dag. På kontoret har du 50 maskiner som er inaktiv 16 timer i døgnet, er hver av disse maskinene 10% så kraftig som din beefy behandling Sever. (Alle resultater her er avrundet til undervurdere ytelse økning).

Så, en maskin * 10% strøm * 2/3 gang = 0,067 dvs. en desktop behandling i dødtiden kunne behandle 6 fulle jobber per dag.

Hvis du nå skalere dette opp tar det 15 ledige skrivebordene å behandle så mange jobber per dag som din viktigste behandling serveren gjør.

Så i vår late kontor på 50 maskiner kunne vi øke vår prosesseringskraft fra en server til opptil 4 full prosessering servere, eller vi kan behandle 400 jobber per dag istedenfor 100.

Innkalling, for ingen investering i ny maskinvare firmaet har bare økt sin gruppebehandling kapasitet 4 ganger! Potensielt du kommer til å øke strømforbruket, men fra de fleste kontormiljøer har jeg vært til maskiner er generelt igjen på natten uansett, så du kunne se dette som en grønn initiativ.

Andre fordeler også bety at investeringer i ny (eller oppdatert) prosessering servere kan bli forsinket hvis kontormaskiner er tilstrekkelig og at når du forbedre ytelsen til kontormaskiner kontoret rutenettet blir kraftigere automatisk.

Technologies

Hva trenger du? (Eller mer korrekt hva gjorde jeg bruker):

  • Idle kontormaskiner (i mitt tilfelle en reserve gamle Windows XP laptop)
  • VirtualBox (eller en annen virtualisering klientprogramvaren)
  • En virtuell maskin med PHP, MySQL running kjører et kutt ned OS, jeg ringer disse mine halte serverne :)
  • Jobber for å kjøre
  • Job server (kan være en annen virtuell maskin sted)

Typiske jobber

Hvilke typer jobber som dette systemet er laget for å kjøre er som følger:

  • System mottar en liste over data hvorpå vi må matche og returnere resultater
  • Matchende innebærer kontroll / søker flere (ganske statisk) datakilder
  • Resultater fra datakilder kan kreve ytterligere validering, sammenslåing, kontroll av ytterligere datakilder i respons til resultater
  • Data er tilbake med matchende poster, fullt validert og behandlet
  • Hver post innenfor en jobb er uavhengig av resten

Så i utgangspunktet vi ser på kjører jobber som krever en blanding av database oppslag og noen tallknusing, et ganske typisk scenario i et bedriftsmiljø.

Grid-løsninger er ikke bare en fordel for behandling oppdrag av denne typen. I utgangspunktet kan enhver prosess som kan deles inn i selvstendige enheter kjøres parallelt. Se denne Wikipedia for eksempler og mer informasjon: Grid Computing , men et par kjente eksempler er SETI @ home og BIONC . Det er rammer for å kjøre databehandling rutenett, og disse er vel verdt å se nærmere på.

Hva vil vi oppnå?

Ved slutten av disse artiklene håper jeg å vise at distribusjon av et kontor grid trenger ikke være veldig dyrt eller tidkrevende. Jeg kommer til å diskutere:

  • Sette opp jobben styresystem, jobb konfigurasjon
  • Opprette en passende behandling virtuell maskin
  • Hvordan sette opp systemet på en windows maskin
  • Sikre du bruker den nyeste koden og data
  • Distribusjon og benchmarking
  • Ser fremover

Jeg skal være bygning (ok jeg bygget, så skrev dette) et eksempel søknad for å teste konsepter på en lokal maskin med Windows XP og min "GridMachine" virtuell maskin. Min jobb kontroll serveren vil være min viktigste maskin som kjører Fedora 11 .

Dette er på ingen måte ment å demonstrere en fullt fungerende robust system, betydde det mer en demonstrasjon og diskutere viser at disse tingene kan oppnås på en rimelig kort tid og til lave kostnader. Ta gjerne sende meg noen kommentarer, rettelser, eller forbedringer, og jeg skal gjøre mitt beste for å holde denne artikkelen oppdatert å matche.

Neste gang

I del to vil jeg starte med å se på jobb-kontroll system, og se på hvordan jobbene skal være konfigurert for å oppnå mest mulig behandling og sikrer at hver jobb er behandlet uten å lykkes.

Kontor Grid Computing ved hjelp av virtuelle miljøer - Del 2

Av , fredag ​​04.12.2009 11:23

Innledning

I work in a company where we run many batch jobs processing millions of records of data each day and I've been thinking recently about all the machines that sit around each and every day doing nothing for several hours. Wouldn't it be good if we could use those machines to bolster the processing power of our systems? In this set of articles I'm going to look at the potential benefits of employing an office grid using virtualised environments.

In Part 1 I gave an overview of the system and technologies I will be using as well as discussed some of the potential reasons why you would want to create an office grid.

Job Control

If you're going to be running jobs then you're going to need some way to manage them. Your job control system (on your job server) needs to be really well thought out before even attempting to run an office grid. So firstly, what are the tasks for a job control system:

  • Hand out jobs upon request from workers
  • Tell workers what type of jobs to run
  • Track jobs
  • Ensure that jobs are only run once
  • Provide job data to workers, or at least tell them where to get it

The system also needs to be extensible, a solution that works for now in a single case may be extended to run several types of jobs as the business sees the worth in a grid solution. For example, jobs may gain priorities, more than one job type may exist (ie several code bases), eventually you may even run several different worker machines that are optimised for each type of job (although that does move away from the 'generic worker' idea). Always try to think about the future when developing systems, a short term vision can lead to longer term frustration and increased development time.

Job Server

We're going to need somewhere to control our jobs from, this should be the only system in your grid that has a fixed resource locator, be that an IP address, host name, URL (using internal DNS), etc. This is because the workers need to know where to look for jobs, workers need to find the job control system (not the job control system find the workers).

The job server itself doesn't really have a complicated task (in a basic system anyhow), it needs to store a list of jobs, hand out jobs, receive results, and subsequently store them for later retrieval. How these parts (such as 'hand out jobs') are defined can be very basic. Later on we can extend the system to include an administration interface to add, edit, delete, suspend jobs but this is beyond this exercise.

There is no reason whatsoever then that your job server could not be a virtual machine running within your main processing server provided it doesn't drain too many resources from it. The job server however does need high availability, if it goes down on a Friday evening you're going to lose a whole weekend of processing, potentially costing you a couple of weeks worth of processing time (when compared to your main processing server alone). You may want to consider putting your job server on a load balanced environment for high availability.

Basic Setup

The basic setup for our job server will consist of what I'm calling one of my LiMP servers (that is Li nux, m ySql, P HP). The code running on the workers will actually work out what jobs it can run by interacting with with job control system databases. Later on we could create a web service and actually hand out jobs rather than having the workers do the hard work themselves, but for now we'll continue using the KISS principle (Keep it Simple, Stupid!).

So, lets create three mySQL tables to deal with jobs. These will be `jobs`, `jobRecords`, and `jobResults`.

jobs table Here I'm using SQL Buddy a great little alternative to phpMyAdmin just because its easier to install on centOS (for others see: 10 Great alternatives to phpMyAdmin )

This table consists of 5 simple fields,

  • id: Uniquely identify the job
  • name: Could be a client reference, or any number of other identifiers
  • Status: You need to know where the job is at, eg
    • 0: Not started
    • 1: Picked up
    • 2: Completed
  • started_by: Who's started doing the job? This isn't entirely required but is a nice to have. I'd suggest tracking workers by their IP address on your network
  • started_at: When did the worker start the job? By tracking jobs that have not completed within X amount of time we know we need to pick up the job once again and start processing by another worker. Workers could stop processing/go offline for any number of reasons, power failure, crash, network loss, etc.

It is easy how this table could be extended with a few additional fields to allow for statistics tracking, a finish time column to see how long the job took, a counter to see how many workers picked up the job (obviously this needs to tend to 1), job priority, the list can go on and on. In more complex job scenarios it would be possible to specify how much memory the worker would need access to (and therefore only use suitable workers), or even what type of worker would be required.

Lets add a few example jobs:

example jobs

The next table again is quite simple to understand, these are our job records. They are linked to the main jobs table by a column `jobs_id`. The make up of this table very much depends on the data that you need to supply to your workers, lets make a very simple example where we have four columns:

  • id: ID of the record
  • name: Person's name
  • address: Person's address
  • jobs_id: The job ID that this record is linked to

The third and final table consists of a results table, it has much the same make up as our records table, and with the addition of some columns could be part of the records table:

  • job_record_id: Link the result to the job table
  • result: The result data

…and that's all you need for job control! (albeit at a very basic level) In my case I'm pointed to another table where my data to process was located, but this could just as easily been a file, parameters to run simulation code, you name it.

Selecting a job

As stated previously, the workers will do our job management for us for now, so all we need to really do is find a job that needs processing and get the information. How would we do this? Well pick our job selection criteria and look for jobs, in SQL I did the following:

  1. Take any jobs that are not marked as complete but from our worker and reset them (substitute __ME__ with an identifier, easiest would be IP address):
     UPDATE `jobs` SET `status` = 0 WHERE `status` = 1 AND `started_by` = __ME__; 
  2. Using our job selection criteria, select a job and tell the control system that this worker is dealing with it:
     UPDATE `jobs` SET `status` = 1, `started_by` = __ME__, `started_at` = NOW() WHERE `status` = 0 OR
    (`status` = 1 AND `started_at` > DATE_SUB(NOW(), INTERVAL X HOUR)) ORDER BY `id` ASC; 

    By grabbing jobs that haven't returned results in X amount of time we ensure that all jobs are run in the event of a worker crashing or going AWOL.

  3. Next grab the jobs details followed by the records themselves:
     SELECT * FROM `jobs` WHERE `started_by` = __ME__ LIMIT 1;
    SELECT * FROM `job_records` WHERE `id` = __JOBID__; 

Upon completion of the job we insert our result records and mark the job as complete. Remember as jobs can suspend/resume at any time allow for some robustness in your script. It might be that the task suspends half way through updating the job control system, so checking the number of records in a job and the number of results saved back to the job control system would be a wise move.

In addition, whilst this demonstrates how jobs can be selected and managed from an SQL-query frame you should really be abstracting your job control so that if you decide to switch to using a web service, a file based system, XML , or any other number of systems it will not affect the code above it.

Job Configuration

The next aspect to consider is job size and configuration. By playing with job configuration we can strike an excellent balance between speed, process replication, and reliability. Take a couple of scenarios:

  1. Jobs take 1 day each to run: This means that your workers need 15 days to process each job (remember 10% of the power for 2/3rds of the time). This is clearly not a wise configuration, your job size is way too big! It would take at least double the time to get a job processed should the initial worker go AWOL (time to pick up that it hasn't returned a result plus reprocessing time). In an ideal you'd have at least one full job easily cleared by the end of each long idle period, that way you keep the jobs ticking over and at worst case a job would take two days to process should the first go missing.
  2. Jobb tar 1 minutt å kjøre: Det betyr at de ansatte tar ca 15 minutter å kjøre hver jobb. Mens dette kan i utgangspunktet virke perfekt, vil du få merarbeid behandling under lunsj tid, kaffepauser, møter, etc dette scenariet legger press på andre områder av systemet og introduserer sine egne problemer. For eksempel, for det første oppsettet / saksbehandlingstid forholdet kommer til å gå rett ned, derfor miste effektivitet. Nettverket kommer til å være konstant streaming jobb informasjonen til ulike arbeidere frustrerende personale som er dong sitt daglige arbeid. Du også kommer til å legge mer press på jobben din behandling server som det har å dele ut masse små biter av arbeid på en regelmessig basis. Til slutt i denne situasjonen hvis jobben din server går ned kommer du til å lage en stor rygg logg over gjenstående arbeid mens større jobber kan av fortsatt behandling uvitende om at jobben serveren ble opplever vanskeligheter.

I realiteten vil det ikke være en ideell konfigurasjon for din grid oppsett, mye avhenger av de tilgjengelige ressursene, typer jobb, jobb behandlingstid krav, nettverksmulighet, og så videre. Men noen retningslinjer vil være:

  • Størrelse jobber slik at hver enkelt arbeidstaker kan komme gjennom minst 3-4 arbeidsplasser i en periode på 15 timer (den lengste sannsynlig uvirksom tidsperiode)
  • Play with the job size so that setup time becomes fairly insignificant compared to the processing time (bearing in mind the above point).
  • If a job doesn't complete in double the amount of time (maybe less) you expect it to complete it assume that its gone AWOL and start processing it with another worker. This means you may have to wait up to three times the normal length of a job for it to complete (possibly longer if the subsequent job fails). You may want to reduce this time, but be careful not to reduce it too much as you may start duplicating processing tasks on a regular basis.
  • Jobs should be independent of outside requirements as much as possible. The job server, for example, should only be contacted at the start and end of every job.
  • Don't saturate your network, this will have two negative effects, your daytime staff will find using the network frustrating and problems may be experienced with connections timing out a problem that will only get worse as you scale your grid.
  • Ensure jobs can run on your workers. If jobs become too memory intensive or disk space intensive jobs will start aborting and the only thing you'll notice is a drop in number of jobs processed with no real reason why.

Submitting Results of a Job

When submitting the results of a job it is important to check that results have not been submitted by another worker, especially if the current worker has been dormant for some time.

When results are submitted ensure that the number of results matches the number of records within the job.

As stated previously, and can not be over emphasised, build fault tolerance into job retrieval and results submission. The workers can (and most likely will) go into suspend mode at the most inconvenient of times and this needs to be catered for. Also once again abstracting away your results submission will help cater for future changes to your job control system much easier to deal with.

Oppsummering

In this section we have looked at what a job control server needs to do and how to get a very basic system set up. We discussed how to retrieve a job from the control system and how best to configure jobs to get the most our of your office grid system. To finish, a paragraph or two on submitting results back to the job control server was presented.

  • A job control server manages jobs and ensures that all work units are completed
  • By abstracting your job select/results submission we can change the technology of the control server without much problems
  • Configure your jobs to ensure that they are run quickly and efficiently without putting too much pressure on your network infrastructure, and without duplicating processing tasks on a regular basis.
  • Ensure that you build fault tolerance and error checking into your routines, workers can suspend and resume and the most inconvenient of times. Remember to check if results have already been submitted by another worker.

Next time

In part 3 we'll create our virtual processing machine and set up our windows machines to become idle-time workers.

Kontor Grid Computing ved hjelp av virtuelle miljøer - Del 5

Av , fredag ​​04.12.2009 11:03

Innledning

I work in a company where we run many batch jobs processing millions of records of data each day and I've been thinking recently about all the machines that sit around each and every day doing nothing for several hours. Wouldn't it be good if we could use those machines to bolster the processing power of our systems? In this set of articles I'm going to look at the potential benefits of employing an office grid using virtualised environments.

In Part 4 we looked at using tools to ensure that we're running the latest version of the code and data sources so that obtained results are always up-to-date with the latest business information and logic.

Pre-Deployment

Before deploying your grid system if there's one thing you do and one thing alone it's benchmark your current system ! No matter what you tell colleagues about how much extra work your system is going to do unless you have numbers to back this up your guarantees are nothing. So,

  • how many records can you process currently? Per Day? Per Hour?
  • How long does it typically take to turn around a job?
  • How much more capacity do you have?

There's also additional questions:

  • If your processing server (or one of your processing servers) goes down how will this affect your capabilities, will you be crippled?
  • What advantages do you hope/expect to get from a grid system?
  • Are your office machines capable of running the jobs?
  • Are your (or can you jobs be converted) to wrok in this style of running?

The last major point is to take your time on any major change like this. Update your processing code to work using the new methodology, benchmark again. Possibly set up your processing server to run a virtual machine, after all your processing server will just be another worker (just a very powerful one relatively). Allow the new process to settle.

Deployment

My suggestion would be to pop into the office one weekend perform all the installations and setup. Do this just before a fortnight's holiday and leave so other poor chap to deal with the consequences… maybe not…

Deployment for a system like this needs to be slow. Despite it being relatively simple to set up this system will affect your entire office infrastructure (well the digital one). Firstly, roll out to a couple of machines at a time, monitor network traffic, how the worker hosts perform on a day-to-day basis. You may need to alter your job configuration in response to your findings.

Once the system has settled with a few machines (lets say 10% of all office machines, ie 5) keep monitoring network traffic and host machine performance. Next benchmark again, you should now be processing 33% more jobs than your first benchmarks. Check this is so, or that you're at least in this ballpark. If not, investigate what is going on before moving on. Repeat this cycle until you happily have all office machines running without killing individual machine performance or grinding your network to a standstill.

At all times keep benchmarking, even after all deployments are made. Check how new code updates affect speed of your system, check all workers are reporting in and processing jobs. Slowly (very slowly) increment your job configuration to get the best from your workers and network.

Stopp!

What if you want to stop your workers from running at some time? They are all out there running, regenerating, and trying their best to process data like hungry insects. The answer may seem obvious but its worth adding just in case its overlooked. Simply edit your processing script with an exit(0) or die() or some other statement to kill your processing job. An important reason why we always try to update to the latest processing script before any run!

Demonstration System

In order to write this set of short articles I created a very small grid to demonstrate the technologies and methodologies. I read lots of articles, tutorials, and used various tools to setup and monitor what was going on. By no means have I gone out and saturated a whole office with traffic and nor have I had access to a regular staff members PC to see how host performance was affected.

My demonstration system was very humble indeed. I used my regular desktop set up as a job control server. On this I had installed mySQL server installed set up as a master in replication, PHP , and SVN linked through apache (for access via worker VM).

I then created a centOS worker machine on VirtualBox on a 6 year old windows XP laptop. I setup scheduled tasks as specified after copying the VM onto the machine and let it go.

The virtual machine was set up with PHP, subversion, and mySQL. I checked out a branch named 'worker' from my job control servers repository and made sure it could be updated using 'svn update'. Next I setup mySQL as a slave and checked that data was replicating from mySQL on the job control server down to the worker VM. After all this I setup the bash script and the cron job.

My processing script basically went along the lines of this (very simple stuff):

  • Read in the name field
  • Counted the number of similar names in a table from the data source held on the VM
  • Counted the number of names as above but splitting the name by spaces (ie forename, middle, surname)
  • Repeated this process 1,000 times

Each job took approximately 20 minutes to run. At one point I opened several copies of the worker VM on the windows laptop and watched the jobs be checked off by each of the worker IP addresses. At this point I also confirmed that replication automatically restarted.

Leaving the laptop to idle resulted in a worker starting to process jobs from the job control server. When resuming laptop usage there was a delay of about 30-60 seconds, this is a fair amount of time and staff would need to be made aware that their machine may pause for a short while when returning to the machine. Newer machines may not have a pause of this long. The benefit of the amount of processing performed by these machines during idle periods would more that outweigh staff members having to wait a short period (say 1 minute) on arriving at their machines of a morning (I frequently wait longer that this for a Windows Defender update to take place) provided they were made aware of this (useful time to grab a morning coffee!).

Overall I feel confident that I have demonstrated the technologies that could be used to create such a system. I have shown that such a system does work on a (very) small scale and with some more experimenting could be scaled up utilise the resources of an office's machines. If I don't get to the point of doing this I would be very interested to know/see when someone else does.

Conclusions / Evaluation

The next obvious step would be to actually get a real world example and start to deploy a system such as this within an office environment and see what happens. Asking a business to commit to this without a trail blazing company to prove the technology and effectiveness may be a little difficult. Grid/Distributed computing is very popular is some circles and has some large applications (BIONC, SETI@Home, Folding@Home, etc). I did not, however, find a smaller scale and simple system like this in my searches that could be rolled out within an office environment.

I created a basically free system using mostly open source software and tools available in almost any office. The technologies were basically demonstrated and show to perform and work as expected. Hopefully I have show that with not much work and with a very simple setup you can deploy an office grid computing system that is powerful, cheap, and scalable all at the same time.

Once a system is up and running there is almost no end to the amount of customisation and improvements you can make. For example statistics / benchmarking can easily be added showing the worth of such a system every day. New machines can be added quickly and easily as and when they arrive with upgrades to existing hardware bolstering your processing power.

I hope you've enjoyed reading this series of articles and its given you food for thought on running an office grid system. The solution presented here won't necessarily work in all situations but should be adaptable to allow you to get your data processing done using your own solution.

Please feel free to send me any comments, corrections, or improvements and I'll do my best to keep this article updated to match.













Panorama Theme by Themocracy

11 visitors online now
6 guests, 5 bots, 0 members
Maks besøkende i dag: 20 kl 04:29 am UTC
Denne måneden: 26 kl 04-04-2012 10:27 UTC
I år: 69 kl 27-02-2012 09:56 am UTC
All time: 130 på 28-03-2011 10:40 UTC