Categoría: Linux

Office Grid Computing utilización de ambientes virtuais - Parte 4

Por Watkin Steven Lloyd , venres 04 decembro 2009 11:59

Introdución

Eu traballo nunha empresa onde realizar traballos de procesamento por lotes moitos millóns de rexistros de datos de cada día e eu teño pensado recentemente sobre todas as máquinas que se senten ao redor de cada día sen facer nada por varias horas. Non sería bo se puidésemos utilizar estas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou mirar para os potenciais beneficios da contratación dunha oficina da rede usando ambientes virtualizados.

Na parte 3 , creamos a nosa máquina de procesamento virtual e configurar o Windows para facer máquinas de traballadores a tempo ocioso.

Executando o código máis recente

Inevitablemente, despois de crear a lóxica de negocio traballadores vai cambiar, os erros se atopan, máis eficiente código máis rápido serán producidas deixando así os seus traballadores se sentaron arredor de procesamento de datos usando o código antigo fedorento . Como entón é seguro que estamos sempre usar a versión máis recente e dos nosos scripts de procesamento?

Existen algunhas formas simples moi doado nós poderíamos facer iso, o truco, con todo, é reducir o poder de procesamento e tráfico de rede para acadar isto. Imos comezar a máis simple das solucións e mellora-lo lentamente, ao longo dun par de iteracións.

O primeiro método sería simplemente conectarse ao noso servidor de control de traballo (vía samba, FTP ou similar) e tire abaixo a versión máis recente de código. Non é moi eficiente, pero só pode facer o traballo. Imos mellorar un pouco, como sobre a creación dun script con rsync e que cada vez en vez? Tamén podes Que tal poñer o noso último programa de procesamento en subversión checo o código inicialmente e despois só actualizar o noso código en cada execución ( svn update )?

Ao final, pode acabar un script (chamado polo cron cada 10 minutos), que parece tan sinxelo coma isto:

  #! / Bin / sh
 se ps ax | grep-v grep | grep php > / dev / null
 a continuación,
     echo "O traballo está a procesar actualmente, con saída
 máis
     echo "O traballo non está en execución, comezar agora"
     cd / camiño / a / de traballo / copia
     svn update
     yourJobProcessingScript.php php
 fi 

Agora podemos estar seguro de que cada rolda estamos sempre executando o código máis recente. Estamos garantindo a este, a actualizar a nosa base de código cada vez que facemos unha carreira e reducindo o tráfico da rede, transferindo só as diferenzas de ficheiros a través da nosa rede.

Na miña configuración de demostración, eu fixen exactamente como descrito anteriormente. Subversion foi instalado no meu servidor de procesamento de traballo e eu simplemente tirou o último código dunha rama 'traballador' usando 'svn update ". Eu tamén engade unha etiqueta número de versión para o meu programa de transformación que foi devolto á base de datos como parte do retorno de resultados. Así puiden ver que o meu código estaba a ser actualizado cada vez que eu copiar o meu baúl é dicir, ramo de traballo que estaba definitivamente a execución do script máis recente transformación.

Empregando os datos máis recentes

Se o procesamento do traballo fai uso de fontes de datos, a continuación, nalgún momento estes van ser actualizados. A menos que chamar súas fontes de datos en unha base moi raros que está indo a inundar a rede con tráfico así que os traballadores comezan a funcionar levando todo a un impasse. Para a miña solución Eu decidir que quere pasar miñas fontes de datos en todo cos meus VMS.

Manteña está cabalos alí! E se os datos das miñas fontes son enormes? Ben, este é realmente un caso de cantos datos que estamos falando? Pode ser máis rendible para instalar un disco duro adicional unidade maior en cada máquina que mercar un servidor de procesamento adicional. Esta é unha cuestión de orzamento e ata a empresa decidir. É quizais a que as súas fontes de datos son tan grandes que é só inviable manter esa cantidade de datos nas súas máquinas de traballo. Nese caso, o que faría? Así, poderíamos mirar para chamar a un servidor de datos locais, pero isto pode causar problemas coa rede. Neste caso, un sistema de rede como esta pode converterse en irrealista para incluir no seu ambiente de escritorio. Pode ser tamén que vostede pode ver estratexias alternativas de execución, por exemplo, só chamando os traballadores 20:00-06:00 cada noite e / ou fonte de datos solicitudes de iguais.

Pasando permite dicir que o noso volume de datos de fontes de 100GB de datos. Ben, si que é un pouco de datos para cambiar na rede nunha actualización. Como seguro que temos a copia máis recente dos datos neste caso? Rsync é unha posibilidade, pero persoalmente creo que executando o seu último fonte de datos no servidor de procesamento de emprego e como facer esa configuración como un mestre na replicación (cun ​​rexistro de bin longa e agradable) pode ser o camiño a seguir:

replicación Ao establecer cada un dos seus traballadores como un escravo para o traballo de actualizacións do servidor de control para as fontes de datos vai pingar moi ben no seu traballo sen un gran aumento na actividade da rede (que é menos que realizar unha actualización de datos enorme e todos os seus traballadores patada no ao mesmo tempo). Isto ten vantaxes sobre o rsync en que non ía estar dunha longa pausa antes de cada traballo, como as actualizacións da base de datos, o mysql servizo no seu traballo continuamente actualizar os seus datos, o procesamento continúa.

Isto é como eu configurar meu servidor de demostración. Para configurar a replicación seguín a guía na páxina web de MySQL ( Configurar replicación ) e en 20 minutos tiña o meu traballo inital replicar o traballo conxunto de datos de control servidores. Para cada traballador adicional a configuración de replicación e proceso de traballo, cada vez que a máquina virtual foi copiado.

Resumo

Nesta sección do artigo, vimos como é fácil e indolora, é manter o seu código de procesamento ata a data por rsync using ou subverion (SVN) para facer o traballo e reducir o tráfico da rede no mesmo time. Tamén discutir como para manter a súa información de fonte de datos up-to-date, permítelle escorrem para cada un dos seus traballadores. Así, zona que garanta a manter-se coa lóxica de negocio e información no noso sistema de rede de oficina. Non será, obviamente, moitas alternativas para a execución destas tarefas, pero aquí foron dous exemplos simples para amosar como é doado unha solución está por vir.

A próxima vez

Na parte final desta serie, apropiadamente chamado Parte 5 , imos discutir a implantación deste sistema para. Vou resumir o que foi aprendido eo que eu puiden crear.

Office Grid Computing utilización de ambientes virtuais - Parte 3

Por Watkin Steven Lloyd , venres 04 decembro 2009 23:37

Introdución

Eu traballo nunha empresa onde realizar traballos de procesamento por lotes moitos millóns de rexistros de datos de cada día e eu teño pensado recentemente sobre todas as máquinas que se senten ao redor de cada día sen facer nada por varias horas. Non sería bo se puidésemos utilizar estas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou mirar para os potenciais beneficios da contratación dunha oficina da rede usando ambientes virtualizados.

Na parte 2 nós miramos os traballos serán executados nun servidor, e cantos empregos deberían configurarse para acadar maior cantidade de procesamento, mentres que cada traballo é procesado sen falla.

Configurar o traballador - ou servidor limpa

O paso seguinte no proceso é a creación dos seus traballadores virtuais. Polo que eu vou usar unha instalación do Center usando o VirtualBox. Eu estou indo a instalar MySQL e PHP no servidor, tamén coñecido como un coxo (Li nux, m ySQL, P HP) Server (Talvez teña feito este nome).

  • Instalar VirtualBox na súa máquina Windows (sigan o enlace)
  • Fai a descargar e instalar o Center (última revisión 5.3) dentro dunha máquina virtual creada

Non adianta ir para ese probablemente hai 1,000 's de tutoriais por aí (ok, aquí vai un: Creando e Managing máquina virtual no VirtualBox Center ). O punto importante a nota que eu supoño que é o que eu chamei meu GridMachine máquina virtual.

No que se refire as miñas opcións do cliente e virtualización do sistema operativo non hai razón convincente para cada gran opción. VirtualBox é algo que eu uso na miña máquina na casa e é apoiada polos tres principais sistemas operativos. Eu escollín Center como un bo sistema operativo estable e eu uso o meu propio servidor web. Son un gran crente nas ferramentas certas para o traballo (aínda que eu estou aplicando "utilización máis rápido e sinxelo para ti" mentalidade aquí), entón se sistema operativo OS X é executado o código máis rápido e máis eficiente utilización que, en vez:)

É importante asegurarse de que a VM usa DHCP, se non, para cada nova máquina virtual que ten que ser configurado por separado, que é algo que non want.By usando DHCP non precisamos configurar as definicións de rede para as máquinas individualmente traballador, DHCP man fóra IPs para ti. Polo tanto, pode copiar a máquina virtual sobre o escritorio sen preocuparse definición de cada un para arriba (é dicir mellora a módulos e reduce a administración do traballador).

O proceso que debe ter como obxectivo sería obter unha nova máquina física, instalar o VirtualBox, e despois practicamente implantar a imaxe virtual, sen moito máis. Pode ser sabio para instalación todos os seus traballadores nunha sub-rede diferente para que poida polo menos ver cantas máquinas están funcionando. Tamén cómpre configurar as súas máquinas nun arrendamento a longo ou ilimitado DHCP.

Como realizar traballos sobre o traballador

Esta é unha área interesante e existen varios métodos válidos para os traballos de procesamento do traballador. Aquí vou discutir os dous máis obvios:

  • Perpetuamente executar o script: Un script, sexa un shell script ou un script PHP é executado xa sobre o traballador e é executado como parte dun loop infinito. Eu descontado ese método como un fallo do guión e, potencialmente, os traballadores deixarán de funcionar sen algún tipo de intervención.
  • Cron execución do script en base a: cada X minutos o cron servizo inicia unha chamada para a escritura para facer as cousas andaren. Sen algunhas probas este podería conducir a moitas moitas copias do seu guión de traballo en execución.

A miña decisión foi de ir co cron que comeza un script cada 10 minutes. meu script realiza as seguintes tarefas:

  1. Faga unha lista de procesos e grep isto para 'php'. Se non está, desde logo continuar.
  2. Chamar seu código de traballo, no meu caso iso sería algo baseado en PHP
  3. script traballador completa súa execución
  4. Preparado para ir de novo na seguinte chamada adecuado

Meu script bash é algo así como o seguinte:

  #! / Bin / sh
 se ps ax | grep grep-v |> php grep / dev / null
 a continuación,
     echo "O traballo está a procesar actualmente, con saída
 máis
     echo "O traballo non está en execución, comezar agora"
     yourJobProcessingScript.php php
 fi 

Nota: o de eco son case completamente inútil, pero pode axudar a seguinte persoa que vén para tratar de editalos.

Isto conclúe a configuración da máquina virtual traballador, rápido, sinxelo e fácil de copiar a cada nova peza de hardware que se recibe. A "experta" do sistema de rede realmente non é visto no sistema operativo, é todo que ver co código creado para o emprego de proceso, a configuración do traballo, e en garantir que o traballo é executado cando (ou sexa, axeitada cando a máquina está ociosa ).

Configurar Windows para arrincar Traballadores

A primeira tarefa é elaborar a orde necesario para realizar a máquina virtual dende a liña de comandos de Windows. Se instalou o VirtualBox no lugar estándar e nomeou o seu GridMachine traballador, entón o comando necesario para cargar o teu traballo é:

  "C: \ Program Files \ Sun \ VirtualBox \ VBoxManage.exe" GridMachine startvm 

Con todo, para executar o script nun estado "sen cabeza", temos que usar:

  "C: \ Program Files \ Sun \ VirtualBox \ VBoxHeadless.exe" GridMachine startvm - VRDP = off 

Isto pode iniciar a máquina virtual sen a interface gráfica e permitir que salva o estado correctamente. O segundo argumento desactiva RDP polo que non entra en conflito con Windows RDP, ou darlle unha mensaxe sobre a escoita no porto 3389. O nome da máquina virtual é sensible caso!

A continuación, precisamos establecer fiestras ata comezar a nosa VM traballador cando a máquina estea ociosa. Para iso (en Windows XP) ten que ir a Inicio -> Programas -> Accesorios -> Ferramentas do Sistema -> Tarefas programadas conforme a continuación:

tarefas programadas

A continuación preme en "engadir tarefa programada 'seguido por ver a engadir un programa personalizado. Navega ata o script VBoxManage e prema en Aceptar. Programa a súa tarefa para calquera das opcións (imos cambiar isto nun minuto) e continuar. Despois de saltar as fiestras seguinte pantalla pode pedir que quere realizar esta tarefa, eu suxiro que sexa Administrador, ou crear un novo usuario privilexiado. Lembre que non queremos interferir coa conta persoal estándar na máquina en calquera punto. Prema ao lado e amosar opcións avanzadas de selección para esta tarefa.

Para a fin do TextBox executar engadir 'startvm' GridMachine cadea noso e garantir que só funcionan cando conectado queda desmarcada. Visita a tarefa próxima programación e cambiar o calendario drop down a opción "cando ausente", seleccione a cantidade de tempo que lle gustaría que a máquina estar ociosa antes de pasar á seguinte guía.

Finalmente, desmarque a opción que afirma parar a tarefa se foi correndo X cantidade de tempo, pero non marca a opción de deixar a tarefa a máquina non está ociosa.

programa

É iso aí, a continuación, para a configuración do servidor windows!

Resumo

Nesta parte temos un conxunto dunha máquina virtual para actuar como un traballador, así como a forma en que chamamos e comunicar os nosos scripts de procesamento de traballo (para min un script PHP). A partir de aquí, veremos como configurar o noso copias de Windows para iniciar a máquina virtual en modo Headless cando o ordenador está ausente, e salvar o seu estado cando o usuario retomar o uso da máquina. Esperamos que neste momento está a ver como é simple crear un tal sistema e están ansiosos para comezar algunhas experiencias van-se!

A próxima vez

Na parte 4 , imos estar a ollar a utilizar ferramentas para asegurar que está a empregar a versión máis recente de código e as fontes de datos para que os resultados obtidos son sempre actualizados coas últimas información de empresas e da lóxica.

Office Grid Computing utilización de ambientes virtuais - Parte 1

Por Watkin Steven Lloyd , venres 04 decembro 2009 11:23

Introdución

Eu traballo nunha empresa onde realizar traballos de procesamento por lotes moitos millóns de rexistros de datos de cada día e eu teño pensado recentemente sobre todas as máquinas que se senten ao redor de cada día sen facer nada por varias horas. Non sería bo se puidésemos utilizar estas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou mirar para os potenciais beneficios de empregar unha oficina reixa utilización de medios virtualizados.

Como PHP desenvolvedor vou utilizar as ferramentas que eu uso cada día é dicir, Linux, MySQL , PHP, VirtualBox e Subversion (SVN). Con todo espero que esta guía pode adaptarse a outras linguaxes e tecnoloxías tan ben.

A solución que fornecen será moi vagamente baseado no tipo de tratamento que necesitamos para acadar, isto pode non ser verdade o artigo íntegro como eu vou cambiar as cousas para a sinxeleza, ou para producir escenarios de uso máis interesante.

Estes ambientes virtualizados serán executados en máquinas Windows pois é iso que a maioría das oficinas de execución. O tratamento que as máquinas de oficina non debe interferir co persoal utilizando estes aparellos, deben non necesitan de mantemento na máquina, e ser facilmente salientables para novas máquinas que estean dispoñibles. Ademais, novas máquinas virtuais non require ningún configuración adicional que esta reduce a módulos ea facilidade con que o sistema de rede pode ser prorrogado.

Por que implantar un Grid Computing Office?

Nun principio, pode estar pensando, porque non pode utilizar un recurso de computación en nube como o EC2 de Amazon plataforma ? Ben, as razóns poden ser varias, como por exemplo:

  • Non vai entregar os datos correctos para un ambiente de computación en nube
  • Non podes publicar certos datos nun ambiente de computación en nube, por motivos legais (por exemplo, os datos que saen do país), posiblemente por razóns legais, por exemplo, rexistros do SNS.
  • Quere manter as súas unidades de procesamento de preto e ten control total sobre o hardware tamén
  • Non ten os fondos do proxecto a executar instancias nube
  • Súa oficina non ten unha conexión a internet e, polo tanto, que non se pode utilizar un recurso nube
  • Non gusta de choiva, as nubes de choiva suxiren, polo tanto, a manter ben lonxe

Estou seguro que a lista podería seguir, pero eu creo que é suficiente de momento.

Vantaxes dun Grid Computing Office

Ben, imos facer algunha matemáticas (e ao grande verdadeira física permite facer algunhas suposicións varrer). Imaxina que tes un servidor de procesamento de grandes beefy execución de 100 empregos ao día. No seu despacho, ten 50 máquinas que están ociosas 16 horas ao día, cada unha destas máquinas é do 10% tan potente como o seu procesamento robusto Sever. (Todos os resultados aquí son redondeados para aumentar o rendemento subestimar).

Así, unha máquina * 10% * de enerxía 2 / 3 = 0,067 é dicir, o tempo de procesamento de escritorio nun tempo ocioso se puido procesar a 6 total de empregos ao día.

Se agora escala isto leva 15 escritorios ocioso para procesar tantos postos de traballo ó día que o servidor principal de procesamento fai.

Así, na nosa oficina finxir de 50 máquinas, puidemos ampliar o poder de procesamento do servidor a partir de 1 até 4 servidores de procesamento completo, ou ben sexa o procesamento de 400 empregos ao día en lugar de 100.

Repare, por ningún investimento en novo hardware da súa empresa acaba de ampliar a súa capacidade de procesamento en solar 4 veces! Potencialmente, vai aumentar o seu consumo de enerxía, pero a maioría dos ambientes de escritorio que eu teño de máquinas son xeralmente deixadas pola noite mesmo, entón podería ver isto como unha iniciativa verde.

Outras vantaxes tamén significa que o investimento en novos (ou actualizado), servidores de procesamento pode ser adiada se as máquinas da súa oficina son suficientes e que, ao mellorar o poder das súas máquinas de oficina da súa rexa de oficina faise máis poderosa automaticamente.

Tecnoloxías

O que precisa? (Ou máis correctamente o que eu uso):

  • máquinas de oficina Idle (no meu caso un portátil Windows XP reposición de idade)
  • VirtualBox (ou software de virtualización de cliente)
  • Unha máquina virtual con PHP, MySQL rodando running cortar unha OS, eu estou chamando estes limpa meus servidores:)
  • Traballo para realizar
  • Traballo de servidor (pode ser outra máquina virtual en algún lugar)

Emprego típica

Tipo de empregos que este sistema está deseñado para ser executado é o seguinte:

  • Sistema recibe unha lista de datos sobre a que necesitamos para atender e devolver resultados
  • Correspondencia implica comprobar / buscar diversas fontes (bastante estática) de datos
  • Resultados das fontes de datos pode esixir unha validación adicional, que se funden, comprobación de fontes de datos adicionais en resposta aos resultados
  • Os datos obtidos con rexistros correspondentes, debidamente validados e procesados
  • Cada rexistro nun traballo é independente do resto

Entón, basicamente estamos mirando para realizar tarefas que requiren unha mestura de investigacións de base de datos e algunhas procesamento de números, un escenario moi común en un ambiente de negocios.

Grid solucións non son só vantaxes para o procesamento de traballos deste tipo. Basicamente, calquera proceso que está dividida en unidades independentes poden ser executados en paralelo. Vexa esta wikipedia exemplos e máis información: Grid Computing , pero un par de exemplos famosos son Seti @ Home e BIONC . Hai cadros para a execución de redes de computación, e estes valen a pena ollar.

O que imos conseguir?

Ao final destes artigos, espero mostrar que a implantación dunha rede de oficina non precisan ser moi cara ou demorada. Eu estou indo a discutir:

  • Configurar o sistema de control de traballo, configuración de traballo
  • Creando unha máquina para procesamento virtual apropiado
  • Como configurar o sistema nunha máquina Windows
  • Garantir que está a usar o último código e datos
  • Implantación e Benchmarking
  • Mirando cara o futuro

Vou ser a construción (ok eu constrúe, entón escribiu isto) un exemplo de aplicación para probar os conceptos nunha máquina local usando o Windows XP e miña máquina virtual 'GridMachine. Meu servidor de control de traballo será a miña principal da máquina que roda o Fedora 11 .

Iso non é de forma significaba para demostrar un sistema totalmente funcional robusto, o seu significado máis unha demostración e discusión mostrando que estas cousas poden ser realizados nun espazo relativamente curto de tempo ea custos reducidos. Síntase libre de me enviar comentarios, correccións ou melloras e vou facer o meu mellor para manter este artigo actualizado para corresponden.

A próxima vez

Na parte 2 vou comezar por mirar para o sistema de control de traballo, e ollar como os traballos deben ser configurados para acadar maior cantidade de procesamento, mentres que cada traballo é procesado sen falla.

Office Grid Computing utilización de ambientes virtuais - Parte 2

Por Watkin Steven Lloyd , venres 04 decembro 2009 11:23

Introdución

Eu traballo nunha empresa onde realizar traballos de procesamento por lotes moitos millóns de rexistros de datos de cada día e eu teño pensado recentemente sobre todas as máquinas que se senten ao redor de cada día sen facer nada por varias horas. Non sería bo se puidésemos utilizar estas máquinas para reforzar o poder de procesamento dos nosos sistemas? Neste conxunto de artigos que eu vou mirar para os potenciais beneficios da contratación dunha oficina da rede usando ambientes virtualizados.

Na parte 1 eu dei unha visión xeral do sistema e as tecnoloxías que vai utilizar, así como discutidos algúns dos posibles motivos polos que desexa crear unha rede de oficina.

Job Control

Se indo para ser executado emprego, entón vai ter algunha maneira para administra-los. O seu sistema de control do traballo (no seu servidor de traballo) ten que ser moi ben pensada antes de intentar realizar unha rede de oficina. Polo tanto, en primeiro lugar, cales son as tarefas de un sistema de control do traballo:

  • Distribúe tarefas, a petición dos traballadores
  • Diga traballadores que tipo de traballos para seren executados
  • emprego Track
  • Asegúrese de que os traballos só son executados unha vez
  • Proporcionar datos de emprego aos traballadores, ou, polo menos, dicirlles onde obtelo

O sistema tamén debe ser extensible, unha solución que funciona de momento nun único caso pode ser prorrogado para executar varios tipos de traballos que a empresa ve o valor nunha solución de rede. Por exemplo, os traballos poden gañar prioridades, máis de un tipo de traballo pode haber (ou sexa, varias bases de código), eventualmente pode incluso realizar varias máquinas de traballo diferentes que están optimizados para cada tipo de traballo (aínda que isto non se afastar do "traballador xenérico 'idea). Sempre intento pensar no futuro cando os sistemas en desenvolvemento, unha visión a curto prazo pode levar á frustración a longo prazo e tempo de desenvolvemento aumentou.

Traballo de servidor

Imos ter que un lugar para o noso traballo de control, este debe ser o único sistema na súa rede que ten un localizador de recursos fixos, sexa un enderezo IP, nome do servidor da URL (mediante DNS interno), etc Isto é porque os traballadores teñen que saber onde buscar emprego, os traballadores necesitan atopar o sistema de control de traballo (non o sistema de control do traballo atopar os traballadores).

O servidor de traballo en si non ten realmente unha tarefa complicada (nun sistema básico de calquera maneira), el que almacenar unha lista de postos de traballo, distribuír tarefas, recibir os resultados, e posteriormente gardalas para a súa posterior recuperación. Como estas pezas (como "man de emprego") son definidos pode ser moi básico. Máis tarde, podemos estender o sistema para incluír unha interface de administración para engadir, editar, borrar, suspender os traballos, pero iso está alén deste exercicio.

Non hai ningunha razón, entón, que o teu servidor de emprego non podería ser unha máquina virtual rodando dentro do seu servidor de procesamento principal, sempre que non drena moitos recursos del. O servidor de traballo pero non necesitan de alta dispoñibilidade, se vai para abaixo unha noite de venres vai perder toda unha semana de tratamento, pode custa-lle un par de semanas por valor de tempo de procesamento (en comparación co seu servidor de procesamento principal só) . Pode querer poñer o seu servidor de traballo nun ambiente de balance de carga para alta dispoñibilidade.

Configuración básica

A configuración básica para o noso servidor de traballo estará composto por que eu estou chamando unha de Limp meus servidores (que é Li nux, ySql m, P HP). O código execución traballadores Thea vai realmente traballar para fóra o traballo que pode realizar, interactuar con bases de datos co traballo do sistema de control. Posteriormente, poderiamos crear un web service e realmente a entrega dos traballos en vez de ter os traballadores fan o traballo duro en si, senón por agora imos seguir usando o principio KISS (Keep it Simple, Stupid!).

Entón, imos crear tres MySQL táboas para xestionar os traballos. Estes serán «emprego», «jobRecords`, e `jobResults».

táboa de empregos Aquí está a usar o SQL Buddy un pouco grande alternativa ao phpMyAdmin só porque é máis fácil de instalar no Center (para os outros, ver: 10 grandes alternativas ao phpMyAdmin )

Esta táboa está composta de 5 campos simple,

  • ID: Identificar o traballo
  • Nome: Podería ser unha referencia de cliente, ou calquera número de outros identificadores
  • Estado: Debe saber que o traballo está, por exemplo,
    • 0: Non iniciado
    • 1: Peguei
    • 2: Rematada
  • started_by: Quen empezou a facer o traballo? Isto non é totalmente necesario, pero é bo ter. Eu suxiro seguimento dos traballadores polo seu enderezo IP na rede
  • started_at: Cando o traballador iniciar o traballo? Ao seguir os traballos que non teñan completado no prazo de X cantidade de tempo que sabemos que cómpre tomar o traballo, unha vez máis e comezar a procesar por outro traballador. Traballadores poden deixar o procesamento / go off-line para calquer número de razóns, falta de enerxía, accidente, perda de rede, etc

É doado coma este cadro podería ser estendido con algúns campos adicionais para permitir estatísticas de seguimento, unha columna horario de finalización para ver canto tempo o traballo tomou, un contador para ver cantos traballadores colleu o traballo (obviamente iso precisa tenden a 1), a prioridade dos traballos, a lista pode ir sobre e sobre. En escenarios máis complexa tarefa sería posible especificar a cantidade de memoria que o traballador terá acceso ó (e, polo tanto, utilizar só os traballadores máis axeitados), ou mesmo o tipo de traballo sería necesario.

Permite engadir un exemplo de algúns traballos:

emprego exemplo

A seguinte táboa de novo é ben sinxela de entender, estes son datos que o noso traballo. Están ligados á mesa de traballo por medio dunha columna `jobs_id». A composición desta táboa depende moito dos datos que cómpre proporcionar aos seus traballadores, imos facer un exemplo moi sinxelo, onde temos catro columnas:

  • gravar o id: identificación do
  • nome: é o nome da persoa
  • enderezo: o enderezo Persoa
  • jobs_id: O traballo de identificación de que este rexistro é ligada á

A táboa a terceira e última consiste nunha táboa de resultados, ten case a mesma cousa compoñen a nosa táboa de rexistros, e coa adición de algunhas columnas poderían ser parte da táboa de rexistros:

  • mesa de traballo job_record_id: Ligazón ao resultado do
  • Resultado: os datos do resultado

... E iso é todo o que precisa para o control de traballo! (Aínda que a un nivel moi básico) No meu caso estou vinculado a outra mesa onde os meus datos para procesar foi localizado, pero isto pode só como facilmente ser un ficheiro, os parámetros para executar o código de simulación, o seu nome.

Seleccionando un emprego

As stated previously, the workers will do our job management for us for now, so all we need to really do is find a job that needs processing and get the information. How would we do this? Well pick our job selection criteria and look for jobs, in SQL I did the following:

  1. Take any jobs that are not marked as complete but from our worker and reset them (substitute __ME__ with an identifier, easiest would be IP address):
     UPDATE `jobs` SET `status` = 0 WHERE `status` = 1 AND `started_by` = __ME__; 
  2. Using our job selection criteria, select a job and tell the control system that this worker is dealing with it:
     UPDATE `jobs` SET `status` = 1, `started_by` = __ME__, `started_at` = NOW() WHERE `status` = 0 OR
    (`status` = 1 AND `started_at` > DATE_SUB(NOW(), INTERVAL X HOUR)) ORDER BY `id` ASC; 

    By grabbing jobs that haven't returned results in X amount of time we ensure that all jobs are run in the event of a worker crashing or going AWOL.

  3. Next grab the jobs details followed by the records themselves:
     SELECT * FROM `jobs` WHERE `started_by` = __ME__ LIMIT 1;
    SELECT * FROM `job_records` WHERE `id` = __JOBID__; 

Upon completion of the job we insert our result records and mark the job as complete. Remember as jobs can suspend/resume at any time allow for some robustness in your script. It might be that the task suspends half way through updating the job control system, so checking the number of records in a job and the number of results saved back to the job control system would be a wise move.

In addition, whilst this demonstrates how jobs can be selected and managed from an SQL-query frame you should really be abstracting your job control so that if you decide to switch to using a web service, a file based system, XML , or any other number of systems it will not affect the code above it.

Job Configuration

The next aspect to consider is job size and configuration. By playing with job configuration we can strike an excellent balance between speed, process replication, and reliability. Take a couple of scenarios:

  1. Jobs take 1 day each to run: This means that your workers need 15 days to process each job (remember 10% of the power for 2/3rds of the time). This is clearly not a wise configuration, your job size is way too big! It would take at least double the time to get a job processed should the initial worker go AWOL (time to pick up that it hasn't returned a result plus reprocessing time). In an ideal you'd have at least one full job easily cleared by the end of each long idle period, that way you keep the jobs ticking over and at worst case a job would take two days to process should the first go missing.
  2. Jobs take 1 minute to run: This means that your workers take about 15 minutes to run each job. Whilst this may initially seem ideal, you gain additional work processing during lunch time, coffee breaks, meetings, etc this scenario puts strain on other areas of your system and introduces its own problems. For example, firstly your setup/processing time ratio is going to go right down, therefore losing system efficiency. Your network is going to be constantly streaming job information to the various workers frustrating staff who are dong their day to day work. You're also going to put more strain on your job processing server as it has to dish out lots and lots of small pieces of work on a regular basis. Lastly, in this situation if your job server goes down you're going to create a huge back log of uncompleted work whereas bigger jobs could of continued processing blissfully unaware that the job server was experiencing difficulties.

En realidade non haberá unha configuración ideal para a súa configuración de rede, depende moito dos recursos dispoñibles, tipo de traballo, as esixencias da función tempo de resposta, a capacidade de rede, e así por diante. Con todo, algunhas orientacións serían:

  • traballos en tamaño de modo que cada traballador pode pasar por polo menos 3-4 postos de traballo nun período de 15 horas (o máis longo período de tempo probable idle)
  • Xogar coa dimensión do traballo a fin de que o tempo de configuración tórnase moi insignificante cando se compara co tempo de procesamento (tendo en conta o punto anterior).
  • Un traballo non é concluído o dobre a cantidade de tempo (quizais menos), espera que completa ela asumir que AWOL seu pasado e comezar a proceso-lo con outro traballador. Isto significa que pode ter que agardar a tres veces o tamaño normal dun traballo para a conclusión (posiblemente máis, se o traballo subseguinte falla). Pode querer reducir este tempo, pero teña coidado de non reduci-lo moito como podes comezar a duplicación de tarefas de procesamento nunha base regular.
  • Traballos deben ser independentes das necesidades de fóra, na medida do posible. O servidor de emprego, por exemplo, só debe ser contacto no inicio e ao final de cada traballo.
  • Non saturado súa rede, terá dous efectos negativos, o seu equipo vai atopar durante o día utilizando a rede frustrante e problemas poden ser probados con conexións tempo de espera un problema que só vai peor a medida que a escala do grid.
  • Asegúrese de traballos poden ser executados nos seus traballadores. Os traballos de facerse demasiado espazo de memoria traballos intensivos ou intensivos de disco comezará a abortar eo único que vai notar un descenso no número de traballos procesados, sen motivo real.

Entregaren os resultados dun traballo

Ao presentar os resultados dun traballo é importante comprobar que os resultados non foron presentados por outro traballador, especialmente se o traballador actual estivo durminte por algún tempo.

Cando os resultados son presentados garantir que o número de resultados corresponde ao número de rexistros dentro do traballo.

Como dito anteriormente, e non pode ser subestimado, construír tolerancia a fallos en recuperación de traballos e presentación dos resultados. Os traballadores poden (e que seguramente) entrar no modo de suspensión no inconveniente a maioría das veces e iso ten que ser atendidas. Ademais, unha vez abstrair súa submisión resultados axudar a atender a futuras cambios no seu sistema de control de traballo moito máis fácil de manexar.

Resumo

Neste section nós miramos o que é un servidor de control de traballo ten que facer e como obter un sistema moi básico configurado. Discutir como recuperar un traballo dende o sistema de control ea mellor forma de configurar tarefas para obter o máximo do noso sistema de reixa de oficina. Para finalizar, un parágrafo ou dous sobre a presentación dos resultados ao seu servidor de control de traballo era presentado.

  • Un servidor de control de traballo xestiona emprego e asegura que todas as unidades de traballo son concluídas
  • Ao abstrair o traballo de seleccionar / submisión resultados podemos cambiar a tecnoloxía do control de servidor sen grandes problemas
  • Configure o seu traballo para garantir que sexan executados con rapidez e eficiencia, sen poñer demasiada presión sobre a infraestructura de rede, e sen duplicar tarefas de procesamento nunha base regular.
  • Asegúrese de construír a tolerancia a fallos e checking erro nas súas rutinas, os traballadores poden suspender e retomar o inconveniente e na maioría das veces. Lembre-se de comprobar que os resultados xa foron presentados por outro traballador.

A próxima vez

Na parte 3 , imos crear o noso procesamento de máquina virtual e configurar o Windows para facer as nosas máquinas de traballadores a tempo ocioso.

Office Grid Computing utilización de ambientes virtuais - Parte 5

Por Watkin Steven Lloyd , venres 04 decembro 2009 11:03

Introdución

I work in a company where we run many batch jobs processing millions of records of data each day and I've been thinking recently about all the machines that sit around each and every day doing nothing for several hours. Wouldn't it be good if we could use those machines to bolster the processing power of our systems? In this set of articles I'm going to look at the potential benefits of employing an office grid using virtualised environments.

In Part 4 we looked at using tools to ensure that we're running the latest version of the code and data sources so that obtained results are always up-to-date with the latest business information and logic.

Pre-Deployment

Before deploying your grid system if there's one thing you do and one thing alone it's benchmark your current system ! No matter what you tell colleagues about how much extra work your system is going to do unless you have numbers to back this up your guarantees are nothing. So,

  • how many records can you process currently? Per Day? Per Hour?
  • How long does it typically take to turn around a job?
  • How much more capacity do you have?

There's also additional questions:

  • If your processing server (or one of your processing servers) goes down how will this affect your capabilities, will you be crippled?
  • What advantages do you hope/expect to get from a grid system?
  • Are your office machines capable of running the jobs?
  • Are your (or can you jobs be converted) to wrok in this style of running?

The last major point is to take your time on any major change like this. Update your processing code to work using the new methodology, benchmark again. Possibly set up your processing server to run a virtual machine, after all your processing server will just be another worker (just a very powerful one relatively). Allow the new process to settle.

Deployment

My suggestion would be to pop into the office one weekend perform all the installations and setup. Do this just before a fortnight's holiday and leave so other poor chap to deal with the consequences… maybe not…

Deployment for a system like this needs to be slow. Despite it being relatively simple to set up this system will affect your entire office infrastructure (well the digital one). Firstly, roll out to a couple of machines at a time, monitor network traffic, how the worker hosts perform on a day-to-day basis. You may need to alter your job configuration in response to your findings.

Once the system has settled with a few machines (lets say 10% of all office machines, ie 5) keep monitoring network traffic and host machine performance. Next benchmark again, you should now be processing 33% more jobs than your first benchmarks. Check this is so, or that you're at least in this ballpark. If not, investigate what is going on before moving on. Repeat this cycle until you happily have all office machines running without killing individual machine performance or grinding your network to a standstill.

At all times keep benchmarking, even after all deployments are made. Check how new code updates affect speed of your system, check all workers are reporting in and processing jobs. Slowly (very slowly) increment your job configuration to get the best from your workers and network.

Stop!

What if you want to stop your workers from running at some time? They are all out there running, regenerating, and trying their best to process data like hungry insects. The answer may seem obvious but its worth adding just in case its overlooked. Simply edit your processing script with an exit(0) or die() or some other statement to kill your processing job. An important reason why we always try to update to the latest processing script before any run!

Demonstration System

In order to write this set of short articles I created a very small grid to demonstrate the technologies and methodologies. I read lots of articles, tutorials, and used various tools to setup and monitor what was going on. By no means have I gone out and saturated a whole office with traffic and nor have I had access to a regular staff members PC to see how host performance was affected.

My demonstration system was very humble indeed. I used my regular desktop set up as a job control server. On this I had installed mySQL server installed set up as a master in replication, PHP , and SVN linked through apache (for access via worker VM).

I then created a centOS worker machine on VirtualBox on a 6 year old windows XP laptop. I setup scheduled tasks as specified after copying the VM onto the machine and let it go.

The virtual machine was set up with PHP, subversion, and mySQL. I checked out a branch named 'worker' from my job control servers repository and made sure it could be updated using 'svn update'. Next I setup mySQL as a slave and checked that data was replicating from mySQL on the job control server down to the worker VM. After all this I setup the bash script and the cron job.

My processing script basically went along the lines of this (very simple stuff):

  • Read in the name field
  • Counted the number of similar names in a table from the data source held on the VM
  • Counted the number of names as above but splitting the name by spaces (ie forename, middle, surname)
  • Repeated this process 1,000 times

Each job took approximately 20 minutes to run. At one point I opened several copies of the worker VM on the windows laptop and watched the jobs be checked off by each of the worker IP addresses. At this point I also confirmed that replication automatically restarted.

Leaving the laptop to idle resulted in a worker starting to process jobs from the job control server. When resuming laptop usage there was a delay of about 30-60 seconds, this is a fair amount of time and staff would need to be made aware that their machine may pause for a short while when returning to the machine. Newer machines may not have a pause of this long. The benefit of the amount of processing performed by these machines during idle periods would more that outweigh staff members having to wait a short period (say 1 minute) on arriving at their machines of a morning (I frequently wait longer that this for a Windows Defender update to take place) provided they were made aware of this (useful time to grab a morning coffee!).

Overall I feel confident that I have demonstrated the technologies that could be used to create such a system. I have shown that such a system does work on a (very) small scale and with some more experimenting could be scaled up utilise the resources of an office's machines. If I don't get to the point of doing this I would be very interested to know/see when someone else does.

Conclusions / Evaluation

The next obvious step would be to actually get a real world example and start to deploy a system such as this within an office environment and see what happens. Asking a business to commit to this without a trail blazing company to prove the technology and effectiveness may be a little difficult. Grid/Distributed computing is very popular is some circles and has some large applications (BIONC, SETI@Home, Folding@Home, etc). I did not, however, find a smaller scale and simple system like this in my searches that could be rolled out within an office environment.

I created a basically free system using mostly open source software and tools available in almost any office. The technologies were basically demonstrated and show to perform and work as expected. Hopefully I have show that with not much work and with a very simple setup you can deploy an office grid computing system that is powerful, cheap, and scalable all at the same time.

Once a system is up and running there is almost no end to the amount of customisation and improvements you can make. For example statistics / benchmarking can easily be added showing the worth of such a system every day. New machines can be added quickly and easily as and when they arrive with upgrades to existing hardware bolstering your processing power.

I hope you've enjoyed reading this series of articles and its given you food for thought on running an office grid system. The solution presented here won't necessarily work in all situations but should be adaptable to allow you to get your data processing done using your own solution.

Please feel free to send me any comments, corrections, or improvements and I'll do my best to keep this article updated to match.

[Aviso] pid neno saír XXXX Fallo de segmentación do sinal (11)

Por Watkin Steven Lloyd , domingo 11 de outubro 2009 06:09

Se ten actualizado recentemente PHP ou Apache quizais esbarra contra a emisión de servidor web voltar páxinas en branco, e lanzando as mensaxes de erro nos seus rexistros con ningunha idea porque, aquí está un xeito posible para reparalos lo ...

I've had this problem a couple of times recently after upgrading Apache or PHP on a virtual machine. A primeira vez que entender o erro eu simplemente revertido para unha copia de seguridade das miñas VM pero na segunda vez podo entender que tería que analizar a cuestión.

A primeira vez que notei o problema algunhas das miñas páxinas web se servían como arquivos en branco, mentres que os outros traballaban absolutamente ben. Tras algunhas pescudas observei que o Apache foi escribindo a / var / log / http / error_log coa seguinte mensaxe repeatidly:

[Aviso] pid neno saír XXXX Fallo de segmentación do sinal (11)

There's not allot to go by on-line, and most of the pages about it trail off to nothing. That said, I narrowed down the issue to PHP crashing when trying to unneeded dynamic libraries.

Looking at my php.ini (/etc/php.ini) I commented out all of the dynamic libraries loaded planning on commenting them back in as required. Os dous eu tiven que sacar de onde pdo.so e mysql . así.

Xa que estas foron retiradas todas as miñas páxinas web se servían ben, así como antes da actualización do PHP / Apache.

Wireless en Acer 5002 WLMi en Linux (Fedora 11)

Por Watkin Steven Lloyd , sábado 11 de xullo de 2009 09:48

Como eu pase máis algunhas horas de hoxe sen acceso á internet eu penso mellor comezar este escrito, para que a próxima vez eu xogar meu portátil ata a información é doado de corrixir.

Basicamente, para obter os controladores sen fíos que traballan para un Acer 5002 WLMi teñas que utilizar fwcutter b43. As instrucións que se pode acceder en: Linux Wireless B43 .

Fácil xa que a información está situada.













Panorama Tema por Themocracy

10 convidados en liña agora
6 guests, 4 bots, 0 members
Max visitantes hoxe: 12 ás 07:57 UTC
Este mes: 22 en 2011/08/06 12:30 UTC
Este ano: 130 en 28-03-2011 22:40 UTC
Todas as horas: 130 en 28-03-2011 10:40 UTC