Posts tagged: svn

Office Computing Reixa utilización de ambientes virtuais - Parte 4

Por , venres 04 de decembro de 2009 11:59

Introdución

Eu traballo nunha empresa na que corremos moitas traballos en lote procesar millóns de rexistros de datos de cada día e eu estiven a pensar recentemente sobre todas as máquinas que se sentan ao redor de cada día sen facer nada durante varias horas. Non sería bo se puidésemos utilizar esas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou ollar para os potenciais beneficios da contratación dunha oficina de reixa utilización de ambientes virtualizados.

Na parte 3 , creamos a nosa máquina de procesamento virtual e configurar o Windows para facer máquinas de tempo ocioso dos traballadores.

Executando o código máis recente

Inevitablemente, despois de crear a súa lóxica de negocio traballadores vai cambiar, erros serán atopados, código máis rápido máis eficiente será producido deixando os seus traballadores sentados ao redor de procesamento de datos usando código smelly vello . Como entón asegurar que estamos sempre a través da versión máis recente e maior dos nosos scripts de procesamento?

Hai algúns moi fáciles formas simples que poderiamos facelo, o truco, con todo, é reducir o poder de procesamento e tráfico de rede para alcanzar isto. Imos comezar a máis simple das solucións e melloralas lo lentamente ao longo dun par de iteracións.

O primeiro método sería simplemente conectar co noso servidor de control de traballo (vía samba, FTP, ou similar) e tire abaixo a versión de código. Non é moi eficiente, pero vai facer o traballo. Permite mellorar iso un pouco, como sobre a creación dun guión rsync e utilizar ese tempo cada vez? Alternativamente o que sobre a colocación do noso script última transformación en subversión comprobar o código inicialmente e despois é só actualizar o noso código en cada run ( svn update )?

Ao final, pode acabar cun guión bash (chamado polo cron cada 10 minutos), o que parece tan sinxelo coma isto:

  #! / Bin / sh
 se ps ax | grep-v grep | grep php > / dev / null
 entón
     echo "Job está a procesar, de saída"
 outro
     echo "O traballo non está en execución, comezar agora"
     cd / ruta / a / traballo / copia
     svn update
     php yourJobProcessingScript.php
 fi 

Agora podemos estar seguro de que cada rolda estamos sempre en execución o código máis recente. Estamos garantindo que a actualizar a nosa base de código cada vez que facemos unha carreira e reducir o tráfico da rede por trasladar só as diferenzas de arquivo en toda a nosa rede.

Na miña configuración de demostración, eu fixen exactamente como descrito anteriormente. Subversion foi instalado no meu servidor de procesamento de traballo e eu simplemente tirou o último código dun "traballador" filial usando 'svn update'. Eu tamén engade unha etiqueta número de versión para o meu programa de procesamento que foi devolto á base de datos como parte do retorno de resultados. Desta forma, puiden ver que o meu código estaba sendo actualizado cada vez que eu copiei o meu tronco no ie sector de traballo que eu estaba sempre executar o script máis recente de procesamento.

Empregando os datos máis recentes

O procesamento do traballo fai uso de fontes de datos, a continuación, nalgún momento estes van ser actualizados. A menos que chamar as súas fontes de datos en unha base moi frecuente vai inundar a rede con tráfico así que os traballadores comezan a correr levando todo a un impasse. Para a miña solución, decidín que me gustaría pasar miñas fontes de datos de todo coas miñas VMS.

Manteña vostede cabalos alí! E se as miñas fontes de datos son enormes? Ben este é realmente un caso de que a cantidade de datos que estamos a falar? Pode ser máis rendible para instalar un maior disco duro adicional en cada máquina que mercar un servidor de procesamento adicional. Esta é unha cuestión de orzamento e ata a empresa para decidir. Poida que sexa a que as súas fontes de datos son tan grandes que non é máis inviábel para manter esa cantidade de datos nas súas máquinas de traballo. Nese caso o que faría? Así, poderiamos mirar para chamar a un servidor de datos local, pero iso pode causar problemas coa rede. Neste caso un sistema de rede, como iso se pode facer irrealista para incluír no seu ambiente de escritorio. Pode ser tamén que podes ollar para estratexias alternativas de execución, por exemplo, só chamar seus traballadores oito horas - seis horas cada noite e / ou optimización de solicitudes de datos de orixe.

Seguindo adiante, imos dicir os nosos datos cantidade de fontes de 100GB de datos. Ben, si que é un pouco de datos para se desprazar na rede nunha actualización. Como é seguro que temos a copia máis recente dos datos neste caso? Rsync é unha posibilidade, pero persoalmente eu penso que, executando o seu último fonte de datos no servidor de procesamento de traballo e como facer esa configuración como un mestre na replicación (cun ​​rexistro bin bo tempo) pode ser o camiño a seguir:

replicación Ao definir cada un dos seus traballadores como un escravo para o traballo actualizacións do servidor de control das súas fontes de datos pode escorrer ben aos seus traballadores, sen gran aumento na actividade da rede (que é a menos que executar unha actualización de datos enorme e os seus traballadores entran en acción dunha vez). Isto ten vantaxes sobre rsync en que non ía estar unha longa pausa antes de cada traballo, como as actualizacións da base de datos, o mysql servizo no seu traballo continuamente actualizar os seus datos, o procesamento continúa.

Isto é como eu configurar o meu servidor de demostración. Para configurar a replicação seguín a guía no sitio web de MySQL ( Configurar replicación ) e en 20 minutos eu tiña o meu traballo inital replicar o traballo de control conxunto de datos servidores. Para cada traballador adicional a configuración de replicación e proceso de traballo cada vez que a máquina virtual foi copiado.

Resumo

Nesta sección do artigo vimos como é doado e indolor e para manter o seu código de procesamento ata a data por using rsync ou subverion (SVN) para facer o traballo e reducir o tráfico de rede no mesmo time. Tamén discutir como para manter as súas informacións de fonte de datos up-to-date, permitíndolles a escorrer para cada un dos seus traballadores. Así, área que garanta a manter-se coa lóxica de negocio e información no noso sistema de rede da oficina. Non será, obviamente, moitas alternativas para a execución destas tarefas, pero aquí foron dous exemplos sinxelos para mostrar como é fácil solución está por vir.

Próxima vez

Na parte final desta serie, apropiadamente chamado Parte 5 , imos discutir a implantación deste sistema para. Vou resumir o que foi aprendido eo que eu puiden crear.

Office Computing Reixa utilización de ambientes virtuais - Parte 1

Por , venres 04 de decembro de 2009 11:23

Introdución

Eu traballo nunha empresa na que corremos moitos traballos en lote procesar millóns de rexistros de datos de cada día e eu estiven a pensar recentemente sobre as máquinas que se sentan ao redor de cada día sen facer nada durante varias horas. Non sería bo se puidésemos utilizar esas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou ollar para os potenciais beneficios da contratación dunha oficina de reixa utilización de ambientes virtualizados.

Como PHP desenvolvedor vou usar as ferramentas que eu uso todos os días, ou sexa, Linux, MySQL , PHP, VirtualBox e Subversion (SVN). Con todo, eu espero que esta guía pode adaptarse a outras linguaxes e tecnoloxías tamén.

A solución que fornecer serán moi vagamente baseado no tipo de procesamento que sería necesario para conseguir, pode non ser verdade través de todo o artigo como eu vou cambiar as cousas para a simplicidade, ou para producir escenarios de uso máis interesantes.

Estes ambientes virtualizados serán executados en máquinas Windows porque é o que a maioría das oficinas executado. O tratamento que as máquinas de oficina non debe interferir co persoal utilizando esas máquinas, deben non necesitan de mantemento na máquina, e ser facilmente salientable para novas máquinas que estean dispoñibles. Ademais, novas máquinas virtuais non debe esixir calquera configuración adicional, xa que reduce a módulos ea facilidade con que o sistema de rede pode ser prorrogado.

Por que implantar un Grid Computing Office?

En primeiro lugar, pode estar a pensar, por que non usar un recurso de computación en nube como plataforma EC2 de Amazon ? Ben, as razóns poden ser varias, por exemplo:

  • Non vai confiar certos datos para un ambiente de computación en nube
  • Non podes poñer algúns datos nun entorno de cloud computing, por motivos legais (por exemplo, datos de deixar o país), potencialmente, por razóns legais, por exemplo, os rexistros do SNS.
  • Vostede quere manter as súas unidades de procesamento de pechar e ten control total sobre o hardware tamén
  • Non ten os fondos do proxecto de execución de instancias de nubes
  • Súa oficina non ten unha conexión a internet e, por tanto, que non é posible utilizar un recurso de nube
  • Non gusta de choiva, nubes de chuvia suxiren, polo tanto, a manter moi lonxe

Estou seguro que a lista podería continuar, pero eu creo que é suficiente polo de agora.

Vantaxes dun Grid Computing Oficina

Ben, imos facer algunha matemática (e ao grande física realidade imos facer algunhas suposicións ampla). Imaxina que ten de procesamento do servidor gran executando beefy 100 postos de traballo ao día. No seu despacho, ten 50 máquinas que están ociosos 16 horas ao día, cada unha destas máquinas é do 10% tan poderoso como o seu Sever procesamento robusto. (Todos os resultados aquí son redondeados a subestimar aumento de rendemento).

Así, unha máquina de poder do * 10% * 2/3 do tempo = 0,067 é dicir, procesamento escritorio 1 o tempo ocioso pode procesar 6 prazas de emprego completas por día.

Se agora escalar isto leva 15 escritorios ociosos para procesar traballos como moitos por día como o seu servidor de procesamento principal fai.

Así, na nosa oficina finxir de 50 máquinas, poderíamos aumentar o noso poder de procesamento a partir do 1 servidor ata 4 servidores de procesamento pleno, ou poderiamos estar procesar 400 empregos ao día en vez de 100.

Aviso previo, por ningún investimento en hardware novo a súa empresa acaba de ampliar a súa capacidade de procesamento en lote 4 veces! Potencialmente vai aumentar o seu consumo de enerxía, senón da maioría dos ambientes de escritorio que estiveron en máquinas son xeralmente deixadas pola noite de calquera xeito, así que podería ver isto como unha iniciativa verde.

Outras vantaxes tamén significa que o investimento en novas (ou actualizado) servidores de procesamento pode ser adiada se as máquinas da súa oficina son suficientes e que, como mellorar o poder das súas máquinas de oficina a súa reixa oficina faise máis poderosa automaticamente.

Tecnoloxías

O que precisa? (Ou máis correctamente o que eu uso):

  • Ociosos de máquinas de oficina (no meu caso un libre de idade fiestras portátil XP)
  • VirtualBox (ou outro software de virtualización de cliente)
  • Unha máquina virtual con PHP, MySQL running executando un corte OS, eu estou chamando eses servidor meus Limp :)
  • Traballos para seren executados
  • Servidor Job (pode ser outra máquina virtual nalgún lugar)

Empregos típicos

Tipo de emprego que este sistema está deseñado para executar é o seguinte:

  • Sistema recibe unha lista de datos sobre a que necesitamos para responder e devolver resultados
  • Correspondencia implica comprobar / buscar varias fontes (bastante fixa) de datos
  • Resultados das fontes de datos poden requirir unha validación adicional, fusión, comprobación de fontes de datos adicionais en resposta aos resultados
  • Os datos son devoltos con rexistros correspondentes debidamente validados e procesados
  • Cada rexistro dentro dun traballo é independente do resto

Entón, basicamente, estamos mirando para realizar traballos que requiren unha mestura de investigacións da base de datos e algún procesamento de números, un escenario bastante común en un ambiente de negocios.

Solucións de redes non só son vantaxosos para procesar os traballos deste tipo. Basicamente, calquera proceso que pode ser dividida en unidades independentes poden ser executados en paralelo. Vexa esta wikipedia exemplos e máis información: Grid Computing , pero un par de exemplos famosos son Seti @ Home e BIONC . Hai cadros para a execución de redes de computación, e estes valen a pena ollar en.

O que imos conseguir?

Ao final destes artigos, espero mostrar que a implantación dunha reixa de oficina non precisa estar consumindo moi caros ou de tempo. Estou indo para discutir:

  • Configurar o sistema de control de traballo, configuración de traballo
  • Creando unha máquina de procesamento virtual axeitada
  • Como configurar o sistema nunha máquina Windows
  • Garantir que está a usar o código máis recente e os datos
  • Implantación e avaliación do desempeño
  • Mirando cara o futuro

Eu estarei de construción (ok eu constrúe, entón escribín iso) unha aplicación de exemplo para probar os conceptos nunha máquina local usando o Windows XP e miña máquina GridMachine 'virtual. O meu servidor de control de traballo será a miña máquina principal, que corre o Fedora 11 .

Isto é así sentido para demostrar un sistema totalmente funcional robusto, o seu significado máis dunha demostración e discusión mostrando que estas cousas pode ser conseguida nun período de tempo razoablemente curto e con custos relativamente reducidos. Sinto-se libre para me enviar os comentarios, correccións ou melloras e eu vou facer o meu mellor para manter este artigo actualizado para corresponden.

Próxima vez

Na parte 2 vou comezar por ollar para o sistema de control de traballo, e ollar en como os traballos deberán ser configurados para acadar maior cantidade de procesamento, garantindo que cada traballo é procesado, sen fallar.













Tema por Panorama Themocracy

5 visitantes en liña agora
3 persoas, 2 bots, 0 membros
Max visitantes hoxe: 19 ás 05:00 am UTC
Este mes: 26 en 2012/04/04 10:27 UTC
Este ano: 69 en 27-02-2012 09:56 pm UTC
Todas as horas: 130 en 28-03-2011 10:40 UTC