Kategori: Grid Computing

Kantor Grid Computing menggunakan lingkungan virtual - Bagian 4

Dengan , Jumat 4 Desember 2009 23:59

Pengenalan

Saya bekerja di sebuah perusahaan di mana kita menjalankan banyak pekerjaan batch pengolahan jutaan catatan data setiap hari dan saya sudah berpikir baru tentang semua mesin yang duduk di sekitar masing-masing dan setiap hari melakukan apa-apa selama beberapa jam. Bukankah itu baik jika kita bisa menggunakan mesin-mesin untuk meningkatkan kekuatan pemrosesan sistem kami? Dalam set artikel saya akan melihat potensi manfaat menggunakan kantor jaringan menggunakan lingkungan virtualised.

Di bagian 3 kita buat mesin pengolahan virtual kami dan mengatur jendela mesin menjadi idle-waktu pekerja.

Menjalankan kode terbaru

Tak pelak setelah membuat logika pekerja bisnis Anda akan berubah, bug akan ditemukan, kode lebih cepat lebih efisien akan diproduksi sehingga meninggalkan pekerja Anda duduk di sekitar pengolahan data menggunakan kode bau lama . Lalu bagaimana kita memastikan bahwa kami selalu menggunakan versi terbaru dan terbaik dari skrip pengolahan kami?

Ada beberapa cara sederhana yang sangat mudah kita bisa melakukan ini, trik, bagaimanapun, adalah untuk mengurangi kekuatan pemrosesan dan lalu lintas jaringan dalam mencapai hal ini. Mari kita mulai dengan sederhana solusi dan memperbaikinya perlahan-lahan selama beberapa iterasi.

Metode pertama akan hanya terhubung ke server kontrol pekerjaan kami (melalui samba, FTP, atau serupa) dan tarik ke bawah versi terbaru kode. Tidak sangat efisien, tetapi akan melakukan pekerjaan. Mari kita memperbaiki yang agak, bagaimana menciptakan sebuah script rsync dan menggunakan bahwa setiap kali bukan? Atau apa tentang menempatkan skrip processing mutakhir kita menjadi subversi memeriksa kode awalnya dan kemudian hanya memperbarui kode kita di masing-masing berjalan ( svn update )?

Pada akhirnya kita bisa berakhir dengan bash script (disebut oleh cron setiap 10 menit) yang tampak sederhana seperti ini:

  # / Bin! / Sh
 jika ps ax | grep-v grep | grep php > / dev / null
 kemudian
     echo "Ayub sedang diproses, keluar"
 lain
     echo "Ayub tidak berjalan, mulai sekarang"
     cd / path / ke / bekerja / copy
     svn update
     php yourJobProcessingScript.php
 fi 

Sekarang kita dapat yakin bahwa dengan menjalankan setiap kami pasti menjalankan kode terbaru. Kami memastikan ini dengan memperbarui basis kode kita setiap kali kita melakukan menjalankan dan mengurangi lalu lintas jaringan dengan hanya mentransfer perbedaan file di seluruh jaringan kami.

Dalam setup demonstrasi saya, saya melakukan persis seperti di atas. Subversi diinstal pada server pemrosesan pekerjaan saya dan saya hanya menarik kode terbaru dari cabang 'pekerja' menggunakan 'svn update'. Saya juga menambahkan tag nomor versi untuk script pengolahan saya yang dikembalikan ke database sebagai bagian dari hasil. Dengan cara ini aku bisa melihat bahwa kode saya sedang diperbarui setiap kali saya disalin bagasi ke cabang yaitu pekerja bahwa saya benar-benar menjalankan script processing mutakhir.

Menggunakan data terbaru

Jika pekerjaan Anda pengolahan yang menggunakan sumber data kemudian di beberapa titik ini akan diperbarui. Kecuali Anda menelepon data Anda sumber atas dasar yang sangat jarang terjadi Anda akan membanjiri jaringan dengan lalu lintas secepat pekerja Anda mulai berjalan membawa semuanya macet. Untuk solusi saya, saya memutuskan bahwa saya ingin memindahkan sumber data saya sekitar dengan VMs saya.

Tahan kau kuda di sana! Bagaimana jika sumber data saya BESAR? Nah ini benar-benar kasus seberapa banyak data yang kita bicarakan? Ini mungkin lebih hemat biaya untuk menginstal hard drive tambahan yang lebih besar ke setiap mesin daripada membeli server pengolahan tambahan. Ini adalah masalah anggaran dan hingga bisnis untuk memutuskan. Ini mungkin bahwa sumber data Anda yang begitu besar sehingga tidak layak yang hanya untuk menjaga jumlah data pada mesin pekerja Anda. Dalam hal bahwa apa yang akan Anda lakukan? Yah kita bisa melihat memanggil server data lokal, tapi ini mungkin menyebabkan masalah dengan jaringan. Dalam hal ini suatu sistem grid seperti ini dapat menjadi tidak realistis untuk memasukkan di lingkungan kantor Anda. Ini juga mungkin bahwa Anda dapat melihat ke dalam strategi berjalan alternatif, misalnya hanya memanggil pekerja Anda 20:00-06:00 setiap malam dan / atau data yang throttling permintaan sumber.

Pindah katakanlah data kami jumlah sumber untuk 100GB data. Nah ya itu sedikit data untuk bergerak di sekitar jaringan pada pembaruan. Bagaimana kita memastikan bahwa kita memiliki salinan terbaru dari data dalam kasus ini? Rsync adalah suatu kemungkinan, tapi secara pribadi saya pikir dengan menjalankan sumber data terbaru Anda pada server pemrosesan Anda kerja dan pengaturan ini sebagai master dalam replikasi (dengan log bin yang panjang dan bagus) mungkin cara untuk pergi:

replikasi Dengan menetapkan setiap pekerja Anda sebagai budak ke update pekerjaan kontrol server ke sumber data Anda akan menetes ke bawah baik untuk pekerja Anda tanpa peningkatan besar dalam aktivitas jaringan (yaitu kecuali jika Anda melakukan update data yang besar dan semua pekerja Anda menendang sekaligus). Ini memiliki keunggulan dibandingkan rsync dalam bahwa Anda tidak akan mendapatkan jeda lama sebelum setiap pekerjaan, seperti update database, mysql daemon pada pekerja Anda akan terus memperbarui data sementara pemrosesan berlanjut.

Ini adalah bagaimana saya menyiapkan server demonstrasi saya. Untuk mengatur replikasi Aku mengikuti panduan di situs mySQL ( Menyiapkan replikasi ) dan dalam 20 menit aku pekerja inital saya mereplikasi kontrol pekerjaan dataset server. Untuk setiap pekerja tambahan pengaturan replikasi dan proses bekerja setiap kali ketika VM disalin.

Ringkasan

Dalam bagian artikel kami telah melihat betapa mudah dan tidak menyakitkan itu adalah untuk menjaga kode pengolahan Anda up to date dengan using rsync atau subverion (SVN) untuk melakukan pekerjaan dan mengurangi lalu lintas jaringan di time. yang sama Kami juga membahas bagaimana untuk menyimpan data sumber Anda informasi yang up-to-date dengan memungkinkan untuk menetes ke bawah kepada setiap pekerja Anda. Jadi kita daerah memastikan bahwa kami mengikuti dengan logika bisnis dan informasi dalam sistem jaringan kantor kami. Ada jelas akan alternatif yang tak terhitung jumlahnya untuk melakukan tugas-tugas ini, tapi di sini dua contoh sederhana untuk menunjukkan betapa mudahnya solusi adalah untuk datang.

Berikutnya waktu

Pada bagian akhir dari seri ini, aptly bernama Bagian 5 , kita akan membahas sistem ini untuk menyebarkan. Aku akan meringkas apa yang telah dipelajari dan apa yang saya berhasil menciptakan.

Kantor Grid Computing menggunakan lingkungan virtual - Bagian 1

Dengan , Jumat 4 Desember 2009 11:23

Pengenalan

Saya bekerja di sebuah perusahaan di mana kita menjalankan banyak pekerjaan batch pengolahan jutaan catatan data setiap hari dan saya sudah berpikir baru tentang semua mesin yang duduk di sekitar masing-masing dan setiap hari melakukan apa-apa selama beberapa jam. Bukankah itu baik jika kita bisa menggunakan mesin-mesin untuk meningkatkan kekuatan pemrosesan sistem kami? Dalam set artikel saya akan melihat potensi manfaat menggunakan kantor jaringan menggunakan lingkungan virtualised.

Sebagai PHP pengembang Saya akan menggunakan alat-alat yang saya gunakan setiap hari yaitu, Linux, mySQL , PHP, VirtualBox dan subversi (SVN). Namun saya harap panduan ini akan beradaptasi dengan bahasa lain dan teknologi baik begitu.

Solusi yang saya berikan akan sangat longgar didasarkan pada jenis pengolahan kami perlu untuk mencapai namun hal ini tidak mungkin benar melalui seluruh artikel yang saya akan mengubah sesuatu untuk kesederhanaan, atau untuk menghasilkan skenario penggunaan lebih menarik.

Lingkungan ini virtualised akan berjalan di jendela mesin karena ini adalah apa yang mayoritas kantor berjalan. Pengolahan bahwa mesin kantor tidak boleh mengganggu dengan staf menggunakan mesin-mesin, seharusnya tidak memerlukan perawatan di mesin, dan mudah deployable untuk mesin baru mereka menjadi tersedia. Juga, baru mesin virtual seharusnya tidak memerlukan konfigurasi tambahan karena hal ini sangat mengurangi skalabilitas dan kemudahan di mana sistem grid dapat diperpanjang.

Mengapa Menyebarkan Grid Computing Kantor?

Pertama Anda mungkin berpikir, mengapa tidak hanya menggunakan sumber daya komputasi awan seperti Amazon EC2 Platform ? Nah alasan bisa beberapa, misalnya:

  • Anda tidak akan mempercayakan data-data tertentu ke lingkungan komputasi awan
  • Anda tidak dapat menempatkan data tertentu ke dalam lingkungan komputasi awan untuk alasan hukum (misalnya data meninggalkan negara), berpotensi untuk alasan hukum, misalnya NHS catatan.
  • Anda ingin menyimpan unit pengolahan Anda dekat dan memiliki kendali penuh atas perangkat keras terlalu
  • Anda tidak memiliki dana untuk menjalankan proyek contoh awan
  • Kantor Anda tidak memiliki koneksi ke internet dan karena itu yang tidak mungkin untuk menggunakan sumber daya awan
  • Anda tidak suka hujan, awan menunjukkan hujan, karena itu Anda tetap jauh

Aku yakin daftar bisa terus, tapi saya pikir itu cukup untuk saat ini.

Keuntungan dari Grid Computing Kantor

Nah, mari kita melakukan beberapa matematika (dan dalam gaya fisika yang benar memungkinkan membuat beberapa asumsi menyapu). Bayangkan Anda memiliki server pengolahan besar gemuk menjalankan 100 pekerjaan per hari. Di kantor Anda, Anda memiliki 50 mesin yang menganggur 16 jam sehari, masing-masing mesin adalah 10% sekuat memutuskan pengolahan gemuk Anda. (Semua hasil di sini adalah dibulatkan ke meremehkan meningkatkan kinerja).

Jadi, 1 mesin listrik * 10% * 2 / 3 waktu = 0,067 yaitu 1 pemrosesan desktop di waktu idle dapat memproses 6 pekerjaan penuh per hari.

Jika Anda sekarang skala ini dibutuhkan 15 desktop idle untuk memproses pekerjaan sebagai banyak per hari sebagai server pengolahan utama Anda tidak.

Jadi di kantor pura-pura kita 50 mesin kita dapat meningkatkan kekuatan pemrosesan kami dari 1 server sampai dengan 4 server pengolahan penuh, atau kita bisa memproses 400 pekerjaan per hari bukan 100.

Perhatikan, karena tidak ada investasi di hardware baru perusahaan Anda baru saja meningkatkan kapasitas pemrosesan batch nya 4 kali! Anda akan berpotensi untuk meningkatkan penggunaan kekuatan Anda tapi dari lingkungan kantor yang paling aku pernah berkunjung ke mesin umumnya dibiarkan menyala sepanjang malam, jadi Anda bisa melihat ini sebagai sebuah inisiatif hijau.

Keuntungan lain juga berarti bahwa investasi dalam baru (atau diperbarui) server pengolahan bisa ditunda jika mesin kantor Anda sudah cukup dan bahwa ketika Anda meningkatkan kekuatan mesin kantor Anda jaringan kantor Anda menjadi lebih kuat secara otomatis.

Teknologi

Apa yang Anda butuhkan? (Atau lebih tepatnya apa yang saya gunakan):

  • Menganggur mesin kantor (dalam kasus saya berumur cadang laptop windows XP)
  • VirtualBox (atau lain virtualisasi perangkat lunak klien)
  • Sebuah mesin virtual dengan PHP, mySQL running menjalankan menebang OS, aku menelepon server ini lemas saya:)
  • Pekerjaan untuk menjalankan
  • Ayub server (bisa mesin virtual lain di suatu tempat)

Khas Pekerjaan

Jenis pekerjaan bahwa sistem ini dirancang untuk menjalankan adalah sebagai berikut:

  • Sistem menerima data pada saat daftar yang kita butuhkan untuk mencocokkan dan memberikan hasil
  • Pencocokan melibatkan memeriksa / mencari beberapa (cukup statis) sumber data
  • Hasil dari sumber data mungkin membutuhkan validasi lebih lanjut, penggabungan, memeriksa sumber data tambahan dalam menanggapi hasil
  • Data dikembalikan dengan catatan pencocokan, sepenuhnya divalidasi dan diproses
  • Setiap record dalam pekerjaan adalah independen dari sisanya

Jadi pada dasarnya kita sedang melihat menjalankan pekerjaan yang memerlukan campuran lookup database dan beberapa angka-angka, skenario yang cukup khas dalam lingkungan bisnis.

Solusi grid tidak hanya menguntungkan untuk pengolahan pekerjaan jenis ini. Pada dasarnya, setiap proses yang dapat dipecah menjadi unit independen dapat dijalankan secara paralel. Lihat ini wikipedia untuk contoh dan informasi lebih lanjut: Grid Computing , namun beberapa contoh terkenal adalah Seti @ Home dan BIONC . Ada kerangka kerja untuk menjalankan komputasi grid, dan ini layak melihat ke dalam.

Apa yang akan kita capai?

Pada akhir artikel ini saya berharap untuk menunjukkan bahwa penggelaran jaringan kantor tidak perlu memakan sangat mahal atau waktu. Saya akan membahas:

  • Menyiapkan sistem kontrol pekerjaan, pekerjaan konfigurasi
  • Membuat mesin pengolahan yang tepat maya
  • Bagaimana men-setup sistem pada mesin windows
  • Memastikan Anda menggunakan kode terbaru dan data
  • Penyebaran dan pembandingan
  • Ke depan

Aku akan membangun (ok saya dibangun, kemudian menulis ini) contoh aplikasi untuk menguji konsep-konsep pada mesin lokal dengan menggunakan windows XP dan 'GridMachine' saya mesin virtual. Pekerjaan server DNS saya akan menjadi mesin utama saya yang menjalankan Fedora 11 .

Hal ini tidak dimaksudkan untuk menunjukkan sistem yang kuat yang bekerja penuh, yang berarti lebih dari demonstrasi dan mendiskusikan menunjukkan bahwa hal-hal dapat dicapai dalam ruang yang cukup singkat waktu dan dengan biaya sedikit. Silahkan kirim komentar, koreksi, atau perbaikan dan saya akan melakukan yang terbaik untuk menjaga artikel ini diperbarui untuk mencocokkan.

Berikutnya waktu

Dalam bagian 2 Aku akan mulai dengan melihat pada sistem kontrol pekerjaan, dan melihat ke dalam bagaimana pekerjaan harus dikonfigurasi untuk mencapai jumlah terbesar pengolahan sementara memastikan bahwa setiap pekerjaan diproses tanpa gagal.

Kantor Grid Computing menggunakan lingkungan virtual - Bagian 2

Dengan , Jumat 4 Desember 2009 11:23

Pengenalan

Saya bekerja di sebuah perusahaan di mana kita menjalankan banyak pekerjaan batch pengolahan jutaan catatan data setiap hari dan saya sudah berpikir baru tentang semua mesin yang duduk di sekitar masing-masing dan setiap hari melakukan apa-apa selama beberapa jam. Bukankah itu baik jika kita bisa menggunakan mesin-mesin untuk meningkatkan kekuatan pemrosesan sistem kami? Dalam set artikel saya akan melihat potensi manfaat menggunakan kantor jaringan menggunakan lingkungan virtualised.

Pada Bagian 1 saya berikan gambaran dari sistem dan teknologi saya akan menggunakan serta membahas beberapa kemungkinan alasan mengapa Anda ingin membuat jaringan kantor.

Kontrol Ayub

Jika Anda akan menjalankan pekerjaan maka Anda akan memerlukan beberapa cara untuk mengelolanya. Kontrol pekerjaan Anda sistem (pada server pekerjaan Anda) harus benar-benar dipikirkan dengan baik bahkan sebelum mencoba untuk menjalankan sebuah jaringan kantor. Jadi pertama, apa tugas untuk sistem kontrol pekerjaan:

  • Bagikan pekerjaan atas permintaan dari pekerja
  • Beritahu pekerja apa jenis pekerjaan untuk menjalankan
  • Melacak pekerjaan
  • Pastikan bahwa pekerjaan hanya berjalan sekali
  • Menyediakan data pekerjaan untuk pekerja, atau setidaknya memberitahu mereka di mana untuk mendapatkannya

Sistem ini juga harus diperluas, solusi yang bekerja untuk saat ini dalam kasus tunggal dapat diperpanjang untuk menjalankan beberapa jenis pekerjaan sebagai bisnis melihat nilai dalam larutan grid. Misalnya, pekerjaan dapat memperoleh prioritas, lebih dari satu jenis pekerjaan mungkin ada (yaitu beberapa basis kode), akhirnya Anda bahkan dapat menjalankan mesin beberapa pekerja yang berbeda yang dioptimalkan untuk setiap jenis pekerjaan (walaupun itu tidak bergerak jauh dari pekerja generik 'ide). Selalu mencoba untuk berpikir tentang masa depan ketika mengembangkan sistem, visi jangka pendek dapat menyebabkan frustrasi jangka panjang dan waktu pengembangan meningkat.

Ayub Server

Kita akan perlu tempat untuk mengendalikan pekerjaan kita dari, ini harus menjadi sistem hanya dalam grid Anda yang memiliki sumber daya locator tetap, bahwa alamat IP, nama host, URL (menggunakan DNS internal), dll Hal ini karena pekerja perlu tahu di mana untuk mencari pekerjaan, pekerja perlu menemukan sistem kontrol pekerjaan (bukan sistem kontrol pekerjaan menemukan kaum pekerja).

Server pekerjaan itu sendiri tidak benar-benar memiliki tugas yang rumit (dalam sistem dasar Anyhow), perlu untuk menyimpan daftar pekerjaan, tangan keluar pekerjaan, menerima hasil, dan kemudian menyimpannya untuk nanti pengambilan. Bagaimana bagian-bagian ini ('menyerahkan pekerjaan' seperti) didefinisikan bisa sangat dasar. Kemudian kita dapat memperpanjang sistem untuk mencakup antarmuka administrasi untuk menambah, mengedit, menghapus, menangguhkan pekerjaan tapi ini adalah di luar latihan ini.

Tidak ada alasan apapun maka pekerjaan Anda bahwa server tidak dapat mesin virtual yang berjalan dalam server pengolahan utama Anda asalkan tidak terlalu banyak menguras sumber daya dari itu. Namun pekerjaan server tidak perlu ketersediaan tinggi, jika turun pada Jumat malam Anda akan kehilangan seluruh akhir pekan pengolahan, berpotensi biaya Anda beberapa minggu senilai waktu pemrosesan (jika dibandingkan dengan server pengolahan utama Anda sendiri) . Anda mungkin ingin mempertimbangkan untuk meletakkan server yang pekerjaan Anda pada lingkungan seimbang beban untuk ketersediaan tinggi.

Dasar Pengaturan

Konfigurasi dasar untuk server pekerjaan kita akan terdiri dari apa yang saya memanggil salah satu server lemas saya (yang adalah Li nux, m ySql, P HP). Kode berjalan pada pekerja Thea benar-benar akan bekerja apa pekerjaan dapat berjalan dengan berinteraksi dengan dengan database sistem kontrol pekerjaan. Kemudian kita bisa membuat layanan web dan benar-benar tangan keluar pekerjaan daripada memiliki pekerja melakukan kerja keras sendiri, tetapi untuk sekarang kita akan terus menggunakan prinsip KISS (Keep it Simple, Stupid!).

Jadi, mari kita membuat tiga mySQL tabel untuk menangani pekerjaan. Ini akan `pekerjaan`, `jobRecords`, dan `jobResults`.

pekerjaan tabel Di sini aku menggunakan SQL Buddy alternatif kecil yang hebat untuk phpMyAdmin hanya karena lebih mudah untuk diinstal pada CentOS (untuk orang lain lihat: 10 alternatif Besar ke phpMyAdmin )

Tabel ini terdiri dari 5 bidang yang sederhana,

  • id: Uniknya mengidentifikasi pekerjaan
  • Nama: Bisa jadi referensi klien, atau jumlah pengenal lainnya
  • Status: Anda perlu tahu di mana pekerjaan di, misalnya
    • 0: Belum dimulai
    • 1: Dipetik up
    • 2: Selesai
  • started_by: Siapa yang mulai melakukan pekerjaan? Hal ini tidak sepenuhnya diperlukan, tetapi adalah baik untuk memiliki. Saya sarankan pekerja pelacakan melalui alamat IP pada jaringan Anda
  • started_at: Kapan pekerja memulai pekerjaan? Dengan pelacakan pekerjaan yang belum diselesaikan dalam jumlah X waktu kita tahu bahwa kita perlu untuk mengambil pekerjaan itu sekali lagi dan mulai memproses oleh pekerja lain. Pekerja dapat menghentikan pengolahan / offline untuk sejumlah alasan, kegagalan daya, kecelakaan, kehilangan jaringan, dll

Sangat mudah bagaimana tabel ini dapat diperpanjang dengan bidang tambahan beberapa untuk memungkinkan pelacakan statistik, waktu selesai kolom untuk melihat berapa lama pekerjaan mengambil, counter untuk melihat berapa banyak pekerja yang mengambil pekerjaan itu (jelas ini perlu cenderung 1), prioritas pekerjaan, daftar dapat terus dan terus. Dalam skenario pekerjaan yang lebih kompleks akan mungkin untuk menentukan berapa banyak memori pekerja akan membutuhkan akses ke (dan karenanya hanya menggunakan pekerja yang sesuai), atau bahkan apa tipe pekerja akan diperlukan.

Mari menambahkan beberapa contoh pekerjaan:

contoh pekerjaan

Tabel berikutnya lagi adalah cukup sederhana untuk memahami, ini adalah catatan pekerjaan kita. Mereka terkait dengan tabel pekerjaan utama dengan kolom `jobs_id`. Make up tabel ini sangat tergantung pada data yang Anda butuhkan untuk memasok ke pekerja Anda, memungkinkan membuat contoh yang sangat sederhana di mana kita memiliki empat kolom:

  • id: ID catatan
  • Nama: Nama Orang yang
  • Alamat: alamat Orang yang
  • jobs_id: ID catatan ini pekerjaan yang terkait dengan

Tabel ketiga dan terakhir terdiri dari tabel hasil, telah banyak yang sama membuat catatan kami sebagai meja, dan dengan penambahan beberapa kolom bisa menjadi bagian dari tabel catatan:

  • job_record_id: Link hasilnya ke meja kerja
  • Hasilnya: Data Hasil

... Dan itu semua Anda butuhkan untuk kontrol pekerjaan! (Walaupun pada tingkat yang sangat dasar) Dalam kasus saya, saya menunjuk ke meja lain di mana data saya untuk memproses berada, tapi ini bisa saja dengan mudah menjadi sebuah file, parameter untuk menjalankan kode simulasi, Anda nama itu.

Memilih pekerjaan

Seperti yang dinyatakan sebelumnya, para pekerja akan melakukan manajemen tugas kita untuk kita untuk saat ini, sehingga semua kita harus benar-benar lakukan adalah menemukan pekerjaan yang membutuhkan pengolahan dan mendapatkan informasi. Bagaimana kita melakukan ini? Nah tugas kita memilih kriteria seleksi dan mencari pekerjaan, di SQL saya melakukan hal berikut:

  1. Mengambil pekerjaan yang tidak ditandai sebagai lengkap tetapi dari pekerja kami dan ulang mereka (gantikan __ME__ dengan identifier, termudah akan alamat IP):
      UPDATE `pekerjaan` SET `status` = 0 WHERE `status` = 1 AND `started_by` = __ME__; 
  2. Menggunakan pekerjaan kita kriteria seleksi, pilih pekerjaan dan memberitahu sistem kontrol yang pekerja ini berurusan dengan itu:
      UPDATE `pekerjaan` SET `status` = 1, `started_by` = __ME__, `started_at` = NOW () WHERE `status` = 0 ATAU
     (`Status` = 1 AND `started_at`> DATE_SUB (NOW (), INTERVAL X JAM)) ORDER BY `id` ASC; 

    Dengan meraih pekerjaan yang belum kembali hasil dalam jumlah X waktu kami memastikan bahwa semua pekerjaan yang dijalankan dalam hal seorang pekerja menabrak atau pergi AWOL.

  3. Selanjutnya ambil rincian pekerjaan diikuti oleh catatan sendiri:
      SELECT * FROM `pekerjaan` WHERE `started_by` LIMIT 1 = __ME__;
     SELECT * FROM `job_records` WHERE `id` = __JOBID__; 

Setelah menyelesaikan pekerjaan kita menyisipkan catatan hasil kami dan menandai pekerjaan sebagai lengkap. Ingat sebagai pekerjaan dapat suspend / resume setiap saat memungkinkan untuk beberapa kekokohan di script Anda. Mungkin bahwa tugas menunda setengah jalan melalui memperbarui sistem kontrol pekerjaan, sehingga memeriksa jumlah record dalam pekerjaan dan jumlah hasil disimpan kembali ke sistem kontrol pekerjaan akan menjadi perpindahan yang bijaksana.

Selain itu, sementara ini menunjukkan bagaimana pekerjaan dapat dipilih dan dikelola dari sebuah frame SQL-query Anda benar-benar harus abstrak kontrol pekerjaan Anda sehingga jika Anda memutuskan untuk beralih menggunakan layanan web, sistem file berbasis XML , atau lainnya jumlah sistem itu tidak akan mempengaruhi kode di atasnya.

Ayub Konfigurasi

Aspek berikutnya yang perlu dipertimbangkan adalah pekerjaan ukuran dan konfigurasi. Dengan bermain dengan konfigurasi pekerjaan yang kami bisa menyerang keseimbangan yang sangat baik antara kecepatan, proses replikasi, dan kehandalan. Ambil beberapa skenario yang OFA:

  1. Jobs mengambil 1 setiap hari untuk menjalankan: Ini berarti bahwa para pekerja Anda perlu 15 hari untuk memproses setiap pekerjaan (ingat 10% dari kekuatan untuk 2/3rds dari waktu). Ini jelas bukan konfigurasi yang bijaksana, ukuran pekerjaan Anda terlalu besar! Ini akan mengambil setidaknya dua kali waktu untuk mendapatkan pekerjaan harus diproses pekerja awal pergi AWOL (waktu untuk mengambil yang tidak kembali hasil daur ulang ditambah waktu). Dalam ideal Anda akan memiliki minimal satu pekerjaan penuh mudah dibersihkan pada akhir setiap periode lama menganggur, bahwa cara Anda menjaga pekerjaan berdetak lebih dan pada kasus terburuk pekerjaan akan mengambil dua hari untuk proses harus pertama hilang.
  2. Jobs mengambil 1 menit untuk menjalankan: Ini berarti bahwa para pekerja Anda memakan waktu sekitar 15 menit untuk menjalankan setiap pekerjaan. Sementara ini awalnya mungkin tampak ideal, Anda mendapatkan pekerjaan pengolahan tambahan selama waktu makan siang, rehat kopi, pertemuan, dll skenario ini menempatkan tekanan pada daerah lain dari sistem anda dan memperkenalkan masalah sendiri. Misalnya, pertama setup / proses rasio waktu Anda akan pergi kanan bawah, oleh karena itu kehilangan efisiensi sistem. Jaringan anda akan terus mengalir informasi pekerjaan untuk staf berbagai pekerja frustasi yang dong hari mereka untuk bekerja sehari. Anda juga akan menempatkan beban lebih pada server pengolahan pekerjaan Anda karena memiliki untuk hidangan keluar banyak dan banyak potongan-potongan kecil bekerja secara teratur. Terakhir, dalam situasi ini jika server pekerjaan Anda turun Anda akan membuat login kembali besar pekerjaan yang belum selesai sementara pekerjaan yang lebih besar bisa dari pengolahan terus tak sadar bahwa server mengalami kesulitan pekerjaan.

Pada kenyataannya tidak akan ada konfigurasi yang ideal satu untuk konfigurasi jaringan Anda, banyak tergantung pada sumber daya yang tersedia, jenis pekerjaan, persyaratan pekerjaan perputaran waktu, kemampuan jaringan, dan sebagainya. Namun beberapa pedoman akan:

  • Ukuran pekerjaan sehingga setiap pekerja bisa mendapatkan pekerjaan melalui setidaknya 3-4 dalam periode 15 jam (periode waktu terlama kemungkinan idle)
  • Bermain dengan ukuran pekerjaan sehingga waktu setup menjadi cukup signifikan dibandingkan dengan waktu proses (mengingat titik di atas).
  • Jika pekerjaan tidak lengkap dalam dua kali lipat jumlah waktu (mungkin kurang) Anda harapkan untuk menyelesaikannya berasumsi bahwa AWOL yang hilang dan mulai memproses dengan pekerja lain. Ini berarti Anda mungkin harus menunggu hingga tiga kali panjang normal pekerjaan sampai selesai (mungkin lebih lama jika pekerjaan berikutnya gagal). Anda mungkin ingin mengurangi waktu ini, tapi hati-hati untuk tidak mengurangi terlalu banyak karena Anda dapat mulai duplikasi tugas pengolahan secara teratur.
  • Pekerjaan harus independen dari persyaratan luar sebanyak mungkin. Server pekerjaan, misalnya, hanya harus dihubungi pada awal dan akhir setiap pekerjaan.
  • Tidak jenuh jaringan Anda, ini akan memiliki dua efek negatif, staf siang hari Anda akan menemukan menggunakan jaringan frustasi dan masalah mungkin dialami dengan koneksi waktu keluar masalah yang hanya akan bertambah buruk sebagai Anda skala grid Anda.
  • Pastikan pekerjaan dapat berjalan pada pekerja Anda. Jika pekerjaan menjadi terlalu memori pekerjaan ruang intensif atau disk yang intensif akan mulai membatalkan dan satu-satunya hal yang akan Anda perhatikan adalah penurunan jumlah pekerjaan yang diproses dengan tidak ada alasan sebenarnya mengapa.

Menyerahkan Hasil Pekerjaan

Ketika mengirimkan hasil pekerjaan penting untuk memeriksa bahwa hasilnya belum diserahkan oleh pekerja yang lain, terutama jika pekerja saat ini telah terbengkalai selama beberapa waktu.

Ketika hasilnya diserahkan memastikan bahwa jumlah hasil sesuai dengan jumlah record dalam pekerjaan.

Seperti yang dinyatakan sebelumnya, dan tidak bisa terlalu ditekankan, membangun toleransi kesalahan dalam pengambilan dan penyerahan hasil pekerjaan. Para pekerja dapat (dan kemungkinan besar akan) masuk ke mode Suspend pada yang paling nyaman kali dan ini harus dipenuhi. Juga sekali lagi pergi penyerahan abstrak hasil Anda akan membantu memenuhi untuk perubahan masa depan untuk sistem kontrol pekerjaan Anda jauh lebih mudah untuk menangani.

Ringkasan

Dalam section ini kita telah melihat apa server kontrol pekerjaan perlu dilakukan dan bagaimana untuk mendapatkan sistem yang sangat dasar mengatur. Kami membahas bagaimana untuk mengambil pekerjaan dari sistem kontrol dan bagaimana cara terbaik untuk mengkonfigurasi pekerjaan untuk mendapatkan yang paling kami sistem grid kantor Anda. Untuk menyelesaikan, satu atau dua paragraf tentang cara mengirimkan hasilnya kembali ke server kontrol pekerjaan disajikan.

  • Sebuah server kontrol pekerjaan mengelola pekerjaan dan memastikan bahwa semua unit kerja selesai
  • Dengan abstrak pekerjaan Anda pilih / hasil penyerahan kita dapat mengubah teknologi dari server kontrol tanpa banyak masalah
  • Konfigurasi pekerjaan Anda untuk memastikan bahwa mereka berjalan cepat dan efisien tanpa menempatkan terlalu banyak tekanan pada infrastruktur jaringan Anda, dan tanpa duplikasi tugas-tugas pengolahan secara teratur.
  • Pastikan bahwa Anda membangun toleransi kesalahan dan kesalahan checking menjadi rutinitas Anda, pekerja dapat menunda dan melanjutkan dan yang paling nyaman kali. Ingatlah untuk memeriksa apakah hasil telah diserahkan oleh pekerja lain.

Berikutnya waktu

Di bagian 3 kita akan menciptakan mesin pengolahan virtual kami dan mengatur kita untuk menjadi mesin jendela idle-waktu pekerja.

Kantor Grid Computing menggunakan lingkungan virtual - Bagian 5

By , Jumat 4 Desember 2009 11:03

Pengenalan

I work in a company where we run many batch jobs processing millions of records of data each day and I've been thinking recently about all the machines that sit around each and every day doing nothing for several hours. Wouldn't it be good if we could use those machines to bolster the processing power of our systems? In this set of articles I'm going to look at the potential benefits of employing an office grid using virtualised environments.

In Part 4 we looked at using tools to ensure that we're running the latest version of the code and data sources so that obtained results are always up-to-date with the latest business information and logic.

Pre-Deployment

Before deploying your grid system if there's one thing you do and one thing alone it's benchmark your current system ! No matter what you tell colleagues about how much extra work your system is going to do unless you have numbers to back this up your guarantees are nothing. So,

  • how many records can you process currently? Per Day? Per Hour?
  • How long does it typically take to turn around a job?
  • How much more capacity do you have?

There's also additional questions:

  • If your processing server (or one of your processing servers) goes down how will this affect your capabilities, will you be crippled?
  • What advantages do you hope/expect to get from a grid system?
  • Are your office machines capable of running the jobs?
  • Are your (or can you jobs be converted) to wrok in this style of running?

The last major point is to take your time on any major change like this. Update your processing code to work using the new methodology, benchmark again. Possibly set up your processing server to run a virtual machine, after all your processing server will just be another worker (just a very powerful one relatively). Allow the new process to settle.

Deployment

My suggestion would be to pop into the office one weekend perform all the installations and setup. Do this just before a fortnight's holiday and leave so other poor chap to deal with the consequences… maybe not…

Deployment for a system like this needs to be slow. Despite it being relatively simple to set up this system will affect your entire office infrastructure (well the digital one). Firstly, roll out to a couple of machines at a time, monitor network traffic, how the worker hosts perform on a day-to-day basis. You may need to alter your job configuration in response to your findings.

Once the system has settled with a few machines (lets say 10% of all office machines, ie 5) keep monitoring network traffic and host machine performance. Next benchmark again, you should now be processing 33% more jobs than your first benchmarks. Check this is so, or that you're at least in this ballpark. If not, investigate what is going on before moving on. Repeat this cycle until you happily have all office machines running without killing individual machine performance or grinding your network to a standstill.

At all times keep benchmarking, even after all deployments are made. Check how new code updates affect speed of your system, check all workers are reporting in and processing jobs. Slowly (very slowly) increment your job configuration to get the best from your workers and network.

Stop!

Bagaimana jika Anda ingin menghentikan pekerja Anda dari berjalan pada beberapa waktu? Mereka semua berjalan di luar sana, regenerasi, dan mencoba yang terbaik untuk memproses data seperti serangga lapar. Jawabannya mungkin tampak jelas tapi nilainya hanya menambahkan dalam kasus ini diabaikan. Cukup mengedit script pengolahan Anda dengan exit (0) atau mati () atau beberapa pernyataan lain untuk membunuh proses pekerjaan Anda. Sebuah alasan penting mengapa kita selalu mencoba untuk update ke script processing mutakhir sebelum menjalankan apapun!

Demonstrasi Sistem

Dalam rangka untuk menulis artikel pendek set saya membuat grid yang sangat kecil untuk menunjukkan teknologi dan metodologi. Saya membaca banyak artikel, tutorial, dan digunakan berbagai alat untuk setup dan memonitor apa yang sedang terjadi. Dengan tidak berarti aku pergi keluar dan jenuh dengan seluruh kantor dengan lalu lintas dan aku juga belum memiliki akses ke PC anggota staf teratur untuk melihat bagaimana kinerja tuan terpengaruh.

Sistem demonstrasi saya sangat sederhana memang. Saya menggunakan desktop biasa saya set sebagai server kontrol pekerjaan. Pada saya telah terinstal mySQL server terinstal ditetapkan sebagai master dalam replikasi, PHP , Â dan SVN dihubungkan melalui apache (untuk akses melalui pekerja VM).

Saya kemudian membuat sebuah mesin pekerja CentOS pada VirtualBox pada laptop tua 6 tahun windows XP. Aku setup dijadwalkan tugas sebagaimana ditentukan setelah menyalin VM ke mesin dan membiarkannya pergi.

Mesin virtual didirikan dengan PHP, subversi, dan mySQL. Aku memeriksa cabang bernama 'pekerja' dari repositori kontrol pekerjaan saya server dan membuat yakin itu bisa diperbarui menggunakan 'svn update'. Berikutnya saya setup mySQL sebagai budak dan memeriksa bahwa data replikasi dari mySQL di server kontrol pekerjaan ke VM pekerja. Setelah semua ini saya setup bash script dan cron job.

Script pengolahan pada dasarnya saya pergi sepanjang garis ini (hal yang sangat sederhana):

  • Baca di kolom nama
  • Menghitung jumlah nama yang sama dalam tabel dari sumber data yang diselenggarakan pada VM
  • Menghitung jumlah nama-nama seperti di atas tapi membelah nama dengan spasi (misalnya nama depan, tengah, nama keluarga)
  • Mengulangi proses ini 1.000 kali

Setiap pekerjaan membutuhkan waktu sekitar 20 menit untuk menjalankan. Pada satu titik aku membuka beberapa salinan dari VM pekerja pada laptop jendela dan menyaksikan pekerjaan akan diperiksa oleh masing-masing alamat IP pekerja. Pada titik ini saya juga menegaskan bahwa replikasi otomatis restart.

Meninggalkan laptop untuk idle menghasilkan pekerja mulai proses pekerjaan dari server kontrol pekerjaan. When resuming laptop usage there was a delay of about 30-60 seconds, this is a fair amount of time and staff would need to be made aware that their machine may pause for a short while when returning to the machine. Newer machines may not have a pause of this long. The benefit of the amount of processing performed by these machines during idle periods would more that outweigh staff members having to wait a short period (say 1 minute) on arriving at their machines of a morning (I frequently wait longer that this for a Windows Defender update to take place) provided they were made aware of this (useful time to grab a morning coffee!).

Overall I feel confident that I have demonstrated the technologies that could be used to create such a system. I have shown that such a system does work on a (very) small scale and with some more experimenting could be scaled up utilise the resources of an office's machines. If I don't get to the point of doing this I would be very interested to know/see when someone else does.

Conclusions / Evaluation

Langkah jelas berikutnya akan benar-benar mendapatkan contoh dunia nyata dan mulai menyebarkan sistem seperti ini dalam lingkungan kantor dan melihat apa yang terjadi. Meminta bisnis untuk melakukan ini tanpa sebuah perusahaan jejak menyala untuk membuktikan efektifitas teknologi dan mungkin sedikit sulit. Grid / Distributed computing adalah sangat populer adalah beberapa lingkaran dan memiliki beberapa aplikasi besar (BIONC, SETI @ Home, Folding @ Home, dll). Aku tidak, bagaimanapun, menemukan skala yang lebih kecil dan sistem sederhana seperti ini dalam pencarian saya yang dapat diluncurkan dalam lingkungan kantor.

Saya menciptakan sistem pada dasarnya bebas menggunakan perangkat lunak sumber terbuka dan sebagian besar alat-alat yang tersedia di hampir setiap kantor. Teknologi pada dasarnya menunjukkan dan menunjukkan untuk melakukan dan bekerja seperti yang diharapkan. Mudah-mudahan saya telah menunjukkan bahwa dengan pekerjaan tidak banyak dan dengan setup yang sangat sederhana Anda dapat menyebarkan grid kantor sistem komputasi yang kuat, murah, Â dan terukur semua pada waktu yang sama.

Begitu sebuah sistem dan berjalan hampir tidak ada akhir untuk jumlah kustomisasi dan perbaikan Anda dapat membuat. Misalnya statistik / pembandingan dengan mudah dapat ditambahkan untuk menunjukkan nilai dari sistem tersebut setiap hari. Mesin baru dapat ditambahkan dengan cepat dan mudah dan ketika mereka datang dengan upgrade ke hardware yang ada memperkuat kekuatan pemrosesan Anda.

Saya harap Anda menikmati membaca seri artikel ini dan yang memberikan Anda makanan untuk pemikiran pada menjalankan sistem grid kantor. Solusi disajikan di sini tidak akan selalu bekerja dalam segala situasi tetapi harus beradaptasi untuk memungkinkan Anda untuk mendapatkan pengolahan data dilakukan dengan menggunakan solusi Anda sendiri.

Silahkan kirim komentar, koreksi, atau perbaikan dan saya akan melakukan yang terbaik untuk menjaga artikel ini diperbarui untuk mencocokkan.













Panorama Didukung oleh Themocracy

8 pengunjung online sekarang
6 tamu, 2 bot, 0 anggota
Max pengunjung hari ini: 21 pada 00:49 UTC
Bulan ini: 23 di 24-08-2011 05:40 UTC
Tahun ini: 130 pada 28-03-2011 10:40 UTC
Semua waktu: 130 pada 28-03-2011 10:40 UTC