高性能集群解決方案
大小:0.6 MB 人氣: 2017-10-12 需要積分:1
標簽:
隨著科技與技術的進步,越來越多的生產(chǎn)或研發(fā)企業(yè)在產(chǎn)品設計與仿真工作上的投入與日劇增,這些投入不僅包括軟件也包含硬件,他們的工作方式也從在單機上完成一個產(chǎn)品的設計過度到了同時使用多臺機器協(xié)同工作來完成工作,在這種工作環(huán)境下設計人員在工作中的效率會更多的依賴多機器的協(xié)同調度效率和計算速度,那么企業(yè)內部的IT管理員為設計人員提供一整套運算速度快、調度效率高、穩(wěn)定、安全可靠的企業(yè)級的高性能集群將成為必然。以此來幫助設計人員提高設計工作效率,加快產(chǎn)品設計的迭代速度,同時也為企業(yè)的發(fā)展助力。作為高性能集群管理員來說,要成功搭建一套適合自身企業(yè)發(fā)展的高性能集群需要了解很多知識,從硬件到軟件再到調度系統(tǒng),無一不具有挑戰(zhàn)。因此在搭建之初需要充分了解未來可能會遇到的問題,并對這些問題做全面的分析、預見、總結,以為將來選擇合適的解決方案提供幫助。
下面就對高性能集群問題做一下基礎性的總結分析:
1. 什么是高性能集群?
高性能集群是用于完成高性能計算(High performance computing, 縮寫HPC),而將計算所需要的各種資源進行統(tǒng)一協(xié)調調度管理,并整合而成為一套對外提供高速計算服務的軟硬件集合,它具有運算速度快、多任務、兼容性強、資源利用率高、使用簡單等眾多特點。
2. 高性能集群的常用術語有哪些?
術語
解釋
作業(yè) 通常指在高性能集群中用于完成某一計算任務的單元,用戶可以在此計算任務完成后得到想要的結果,并在需要時可以監(jiān)控任務的計算過程。
集群 高性能集群用于提供作業(yè)運行的環(huán)境,應該包含完成作業(yè)運行所需要的所有條件。
并行計算 一般代表作業(yè)在計算運行的過程中,并非只存在一個序列化的計算過程,而是可以將其分成若干個子任務并同時運行在多個CPU上的計算方式。
計算時間 用于表示一個作業(yè)從開始計算任務到成功結束或出錯退出所消耗的時間。
LINPACK值 用于反映一個集群環(huán)境搭建完成后的性能指標,通常使用專用工具進行測試。
計算節(jié)點 在集群中主要用于完成用戶提交的計算任務的計算服務器。
SMP節(jié)點 提供作業(yè)運行所需要的大量資源的一種計算節(jié)點。此種節(jié)點服務于一類特殊的作業(yè),此類作業(yè)需要大量的計算機資源象內存、 CPU等存在于一臺計算機中。
表1
3. 哪些企業(yè)工作需要高性能集群,哪類人員會用到?
高性能集群一般用于完成人力無法實現(xiàn)或需要難以想象的工作量才能實現(xiàn)的工作。
很多企業(yè)用于產(chǎn)品零部件設計的仿真以避免實驗生產(chǎn)帶來的巨大投入,用計算作業(yè)即可以驗證設計是否正確或達到預想的設計目標,從而使用高性能集群來縮短設計周期,當然在有些情況這類仿真的工作只能用計算機來完成,靠人力是無法實現(xiàn)的。還有用于電子芯片設計或電路板設計,通過高性能集群來完成大量復雜的設計工作,這些工作的進行也必須依靠計算機輔助來完成,并通過高性能集群來獲得穩(wěn)定可靠的計算能力及時間要求。在業(yè)務模型分析計算的場景中,高性能集群同樣也有它的用武之地,通常這些模型所需要的數(shù)據(jù)量和產(chǎn)生的數(shù)據(jù)量都是巨大的,需要計算機來幫助進行數(shù)據(jù)處理,并計算在不同條件下業(yè)務模型所產(chǎn)生的結果是否完善,從而借以幫助指導生產(chǎn)。在學校的教學科研中同樣也發(fā)揮著很大作用,以輔助教師的教學和課題研究工作。
高性能集群所應用的行業(yè)廣泛,像航空、航天,軍工制造、電子電路、天氣氣象、生物工程……等等,同時涉及到計算機輔助設計與制造、數(shù)據(jù)統(tǒng)計分析等各行業(yè)工作都有可能需要高性能集群來幫助完成。
4. 高性能集群需要哪些資源?
通常來說高性能集群內的資源主要包含(但不限于)以下所列內容:
硬件資源:
主要指進行任務計算的計算機服務器,包含 CPU、內存、GPU、本地硬盤等可參與任務計算的物理設備,以組成可進行運算的物理機器。網(wǎng)絡資源:
通常情況下為了達到高效的數(shù)據(jù)傳輸和保證計算速度,會將網(wǎng)絡分為高性能集群自身管理所需要的網(wǎng)絡,通常使用千兆或萬兆網(wǎng)絡用于集群自身的管理需要和數(shù)據(jù)收集,再使用另外一種更高速的網(wǎng)絡(像IB網(wǎng)絡)用于任務計算時進行數(shù)據(jù)交換,將管理網(wǎng)絡與計算網(wǎng)絡分開有助于提高集群的使用效率,不致于任務計算中產(chǎn)生的大量數(shù)據(jù)傳輸影響了集群管理和使用。應用軟件資源:
應用軟件是基于整個高性能集群之上用于用戶作業(yè)計算所使用的第三方專業(yè)的與行業(yè)相關的軟件,像Fluent、Dyna、Start-ccm、workbench等商業(yè)軟件都是屬于此類。高性能集群會提供這些軟件所需要的運行環(huán)境,并對這些軟件計算任務進行調度管理。許可證資源:
這是通常所說的應用軟件的license資源,許可證資源也同樣需要進行調度管理,因為在真實的運行環(huán)境下許可證的數(shù)量一定是有數(shù)量限制的。存儲資源:
高性能集群中產(chǎn)生的數(shù)據(jù)一般都會存儲在單獨的存儲空間中。數(shù)據(jù)如何存放及管理是高性能集群建設之初需要考慮的一個重點,需要做好未來長期使用的規(guī)劃,因為數(shù)據(jù)如何存放不僅會影響到高性能集群自身的后期使用,也會對未來與其它系統(tǒng)整合時產(chǎn)生重要作用。
5. 高性能集群是非獨立存在,并與其它系統(tǒng)存在交互嗎?
在企業(yè)的IT構架中,高性能集群本身主要是用于完成任務計算,與其它系統(tǒng)自然會存在或多或少的交互,這其中既包括與其它系統(tǒng)的相互調用,也包括進行數(shù)據(jù)傳遞交互。與作業(yè)前后處理系統(tǒng)進行數(shù)據(jù)交互,與企業(yè)內部門戶系統(tǒng)進行登錄交互,與數(shù)據(jù)管理系統(tǒng)進行存儲交互……等。
企業(yè)的集群管理員需要考慮與已有系統(tǒng)和未來要建設的系統(tǒng)存在哪些業(yè)務整合要求,為更好的無縫集成使用做好準備。
6. 如何選擇計算服務器的類型和操作系統(tǒng)?
目前流行的服務器種類很多,在選擇上主要是要考慮到自身企業(yè)的業(yè)務需求、使用限制條件、計算應用對硬件的依賴等,最后還要考慮到自身的特殊需求及未來業(yè)務發(fā)展需要。
如無特殊需要,同時自身作業(yè)無苛刻的運行條件,那么可以選擇通用性強的x86架構服務器,它成本底、易于維護、相關資料非常多。當x86服務器不能滿足你的任務計算需要,那么可以選擇關鍵應用領域常用的小機型系列,在很多行業(yè)像電信、銀行、金融也會在特殊要求的前提下選擇小機型以滿足業(yè)務運行要求。對于在性能方面要求非常高的業(yè)務來說,還可以選擇大型機來做為基礎硬件。操作系統(tǒng)主要可從Linux、Windows、AIX三種來考慮,首先應考慮的是在Linux平臺上創(chuàng)建高性能系統(tǒng),因為高性能平臺的設計大都是基于Linux平臺。對于有些應用軟件廠商并不提供基于Linux的使用環(huán)境,所以需要選擇Windows平臺。對于兩者都支持的條件下,企業(yè)又無使用特殊限制,那么可使用Linux做集群的操作系統(tǒng)平臺。
7. 什么樣的調度系統(tǒng)適合自身企業(yè)?
調度系統(tǒng)作為高性能集群中的一個重要組件不可或缺,主要用于完成集群中的計算任務的收集與分配工作,并對集群內的資源使用情況進行監(jiān)控管理。調度系統(tǒng)需要能對集群內的所有可用資源進行調度,并提供相關的分配策略以滿足企業(yè)計算作業(yè)需要。
集群管理首先要明確計算任務的業(yè)務模型、計算方法、計算條件、依賴資源等,并在此基礎上制定未來作業(yè)的調度方式與規(guī)則。一個調度策略豐富的調度系統(tǒng)是滿足業(yè)務使用、發(fā)展的必要條件。
8. 集群用戶如何管理?
用戶在高性能集群中是一個計算任務運行的基本身份,這些用戶也是集群中各主機操作系統(tǒng)用戶,這些用戶在集群內所有主機上應該保持一致以保證任務的順利分配并完成。
所有的權限、數(shù)據(jù)、文件、環(huán)境相關功能都會對應到具體的用戶個體上,原則上只要保證這些用戶在所有主機上保持一致即可,但在實際應用中為了管理維護的方便,要對用戶進行統(tǒng)一的管理與身份認證,所以會使用一套用戶集中管理系統(tǒng)像NIS、LDAP、WindowAD等來實現(xiàn)。
9. 哪種文件系統(tǒng)適合企業(yè)自身的業(yè)務?
文件系統(tǒng)用于存儲高性能集群任務運行所產(chǎn)生的臨時數(shù)據(jù)和最終計算結果,磁盤的IO效率也會做為一個影響因素作用到任務本身,并進而影響任務的運行時間,使用機器cpu越多、文件系統(tǒng)讀寫越快自然就會讓任務的計算速度越高?,F(xiàn)在并行文件系統(tǒng)在高性能集群中應用越來越廣泛,就是因為它在讀寫速度、數(shù)據(jù)保存方式上都有很大的優(yōu)勢,同時并行文件系統(tǒng)在節(jié)省網(wǎng)絡帶寬方面也有幫助。
傳統(tǒng)的以I/O節(jié)點為接入方式的存儲系統(tǒng)已經(jīng)逐步被替代,這種方式帶來很多問題像讀寫速度慢、單點故障等問題,當然在你的環(huán)境中用于存儲不常用的數(shù)據(jù)或作為備份系統(tǒng)還是可以使用的,畢竟使用更低的成本可以換取更大的存儲空間。
10. 高性能集群的數(shù)據(jù)如何存儲管理?
數(shù)據(jù)如何存儲會影響到集群使用的方便性及與其它系統(tǒng)進行數(shù)據(jù)交換的可能性。
首先數(shù)據(jù)包括高性能集群計算任務的輸入和輸出及運行中產(chǎn)生的臨時文件,這些文件要在集群內各個主機上共享訪問,同時還要能方便的輸出傳遞給第三方系統(tǒng),輸入文件也可能是來自第三方系統(tǒng)。其次集群內主機的不同操作系統(tǒng),也要能夠同時訪問到這些文件。那么數(shù)據(jù)就需要一個獨產(chǎn)的存儲空間進行共享存儲,同時還要能保證它對所有相關對象的可訪問性,合理的考慮存儲空間的大小及相關的權限分配要提前做好規(guī)劃。
11. 高性能集群應該具備哪些基本功能及要求?
具有資源管理和許可證管理功能安全管理模塊豐富的調度策略支持多種硬件結構及操作系統(tǒng)快速I/O及網(wǎng)絡性能統(tǒng)一的管理入口及簡單易用容錯性、高可用性、可配置性第三方集成接口及二次開發(fā)接口
12. 是否可以選擇開源軟件?
普通用戶及使用人員做為學習、研究、試驗的目的而使用開源軟件是可以選擇,同時你需要撐握很多的知識以滿足使用它的需要,開源軟件有主要解決問題的方向能不能滿足需求需要管理員進行深入的調研。
做為一個產(chǎn)品而產(chǎn)生的高性能軟件一定會在提供符合企業(yè)需求的基礎上,還在幫助企業(yè)減少管理成本等很多角度來提供服務,那么對于企業(yè)管理員來說,就需要評估自身的軟硬件條件、人員技術水平差異、未來的特殊需求等眾多因素,最終才能作出合適的解決方案。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
