全球最受歡迎的資料分析應用程式Apache Spark現已透過先前發布的Spark 3.0版本,為超過50萬用戶提供革命性的繪圖處理器(GPU)加速技術。

Databricks為用戶提供先進的企業雲端平台Spark,每天有超過100萬台虛擬機器運行該平台。在Spark + AI Summit峰會上,Databricks宣布其用於機器學習的Databricks Runtime 7.0將配備內置Spark 3.0的GPU加速器感知調度功能。該功能由Databricks與NVIDIA和其他社群成員合作開發。

Google Cloud近期宣布在Dataproc image 2.0版本上提供Spark 3.0預覽版本,並表示在開源社群的協作下,現已獲得強大的NVIDIA GPU加速功能支援。NVIDIA將於台灣時間7月17日與Google Cloud共同舉辦一場網路研討會,深入探討這些令資料科學家感到興奮的新功能。

此外,全新用於Apache Spark的開源RAPIDS加速器現在可以加速ETL(擷取、轉換、載入)和資料傳輸作業,並且在無需調整任何代碼的情況下,提高端到端的分析效能。

Spark的效能加速不僅意味著能夠更快獲得有效洞察,還可以協助企業以更少的基礎架構來完成作業負載,進而降低成本。

Spark有充分的理由逐漸成為媒體報導的焦點。資料對於幫助企業組織應對不斷變化的機會和潛在威脅至關重要。為此,他們需要破解隱藏在資料中的關鍵線索。

每當客戶點閱網站、撥打客服電話或製作每日銷售報告時,就會貢獻大量的資訊給企業組織。隨著人工智慧(AI)的興起,資料分析對於協助公司發掘趨勢,以及在持續變化的市場中保持領先地位日益重要。

不久前,資料分析還倚賴小型資料集來收集歷史資料和洞察,透過ETL對儲存在傳統資料倉儲中的高度結構化資料進行分析。

ETL經常成為資料科學家在獲取AI預測和建議時的阻礙。據估計,ETL會佔用資料科學家70%至90%的時間,不僅減慢工作流程,也將炙手可熱的人才束縛在最平凡的工作上。

當資料科學家在等待ETL時,他們無法重新訓練模型以獲取更好的商業洞察。傳統的CPU基礎架構無法透過有效的擴展來適應這些作業負載,同時這通常會大幅增加成本。

有了GPU加速的Spark,ETL將不會再發生這樣的問題。醫療、娛樂、能源、金融、零售等產業現在可以透過符合成本效益的方式,加速其資料洞察分析。

GPU平行處理使電腦可以同時執行多項作業。資料中心透過大規模橫向擴展這些功能來支援複雜的資料分析專案。隨著越來越多的企業組織開始採用AI和機器學習工具,平行處理已成為加速海量資料分析,以及驅動這些作業負載的ETL管道的關鍵。

比如有一家零售商想要預測下一季的庫存,該零售商需要檢查近期的銷售量以及去年的資料。一個精明的資料科學家可能會在此分析中添加天氣模型,從而了解雨季或旱季對結果產生的影響。零售商還可以整合情緒分析資料,評估今年最流行的趨勢。

由於需要分析的資料源太多,因此在可能對銷售量產生影響的不同變數進行建模時,速度就顯得更為重要。這就需要將分析加入到機器學習中,而GPU也因此變得不可或缺。

隨著資料科學家從使用傳統的分析轉為採用可以更好地對複雜市場需求進行建模的AI應用程式時,如果繼續採用CPU,則必須犧牲速度或增加成本才能跟上由此產生的處理需求。而隨著AI在分析中的應用日益增加,需要有新的框架透過GPU快速並具成本效益地處理資料。

用於Apache Spark的全新RAPIDS加速器,將Spark分佈式運算框架與功能強大的RAPIDS cuDF函式庫相連接,實現了GPU對Spark DataFrame和Spark SQL的運行加速。RAPIDS加速器還透過搜尋在Spark節點之間移動資料的最快路徑來加快Spark Shuffle的運行速度。

(工商 )

#全球 #全新 #大量 #Spark #GPU