|
Pentaho編排Apache火花工作補充道,灰鴿子使用教程,灰鴿子遠程控制軟件
Pentaho宣布本土Pentaho數(shù)據(jù)集成的集成(PDI)和Apache火花,使火花的編制工作。
1.jpg (75.46 KB, 下載次數(shù): 1286)
下載附件
2015-5-15 09:45 上傳
Pentaho實驗室在過去的幾年中,Pentaho業(yè)務分析專家的研究機構,制定各種大數(shù)據(jù)映射用例組織投產(chǎn)的努力提供大數(shù)據(jù)的藍圖,如果你將一個大數(shù)據(jù)堆棧。最近,Pentaho實驗室與Apache火花,奉行相同的路徑,今天宣布本機Pentaho數(shù)據(jù)集成的集成(PDI)和Apache火花,這將使火花的編制工作。
我不是對技術持懷疑的態(tài)度,但我懷疑很多的炒作。還有一些人說一些火花,是非常不現(xiàn)實的。
PDI本質(zhì)上是一個便攜式的ETL、數(shù)據(jù)機可以部署為一個獨立的Pentaho集群或在一個Hadoop集群通過MapReduce或紗線。周二的聲明補充道火花,使更快的大數(shù)據(jù)ETL處理。ETL設計師可以設計、測試和調(diào)優(yōu)在PDI ETL工作使用圖形設計環(huán)境,然后在引發(fā)規(guī)模運行它們。
[相關:本地數(shù)據(jù)分析涉及到MongoDB]
Apache火花是一個集群計算框架設計之上的Hadoop分布式文件系統(tǒng)(HDFS)Hadoop MapReduce的地方。
支持內(nèi)存集群計算,火花可以實現(xiàn)性能比Hadoop MapReduce快100倍的內(nèi)存或磁盤上的快10倍。
火花可以是一個優(yōu)秀的計算數(shù)據(jù)處理工作流引擎,高級分析、流處理和業(yè)務智能/視覺分析。
但火花還年輕——它只有v1.0發(fā)布12個月前,它仍然是非常棘手的,遠程控制軟件。
首先,Pentaho聯(lián)合創(chuàng)始人兼首席技術官詹姆斯·迪克森說,火花的用例在野外生產(chǎn)的幾乎都是數(shù)據(jù)科學的用例。
“這就是它——一個單用戶數(shù)據(jù)的科學工具,”迪克森說!斑@不是為流設計,但引發(fā)流。這不是專為SQL,但是有火花SQL”。
內(nèi)存管理與火花是特別困難的,他說:灰鴿子教程,灰鴿子使用教程。
“火花的用戶,你將知道你的數(shù)據(jù)量是否會適合記憶,”他說!坝兴膫不同的記憶模式,你必須選擇正確的一個。”
(相關:10熱hadoop初創(chuàng)公司看)
如果你添加多個用戶,它變得更加復雜。然后你需要了解每個人的內(nèi)存占用,同時希望利用火花。
也就是說,火花SQL是數(shù)量級的速度比蜂巢,迪克森說,甚至有重大的承諾而黑斑羚。
“有一個巨大的承諾,”他說!拔也粦岩傻募夹g,但我懷疑很多的炒作。還有一些人說一些火花,是非常不現(xiàn)實的!
迪克森指出,Pentaho實驗室一直在嘗試可能引發(fā)用例基于大數(shù)據(jù)的藍圖和規(guī)模企業(yè)市場機會引發(fā)過去兩年。Hadoop市場,Pentaho用例合并在過去的幾年中三大類:數(shù)據(jù)倉庫優(yōu)化,精簡數(shù)據(jù)源到數(shù)據(jù)煉油廠和混合操作數(shù)據(jù)源和大數(shù)據(jù)來源來獲取客戶的360度視圖。
“第一Hadoop的5至7年的時間,我們沒有這些模式,”他說。“現(xiàn)在又摻入了火花,我們又回到了原地。(作為一個行業(yè))我們不確定這項技術可以用于什么,它應該是做什么用的!
但這就是Pentaho實驗室的原因存在,迪克森說。現(xiàn)在,Pentaho數(shù)據(jù)集成為Apache火花有Pentaho實驗室。Pentaho計劃通?梢栽2015年6月。 |
|