Bigflow是百度开源的高性能 Python 分布式计算框架 Bigflow,致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。 Bigflow 在百度公司内部对接了公司内部的批量计算引擎 DCE,迭代引擎 Spark,以及公司内部的流式计算引擎 Gemini。开源版本仅开放了Bigflow on Spark。

特色

  • 高性能: Bigflow的接口设计使得Bigflow可以感知更多的用户需求的细节属性,并且Bigflow会根据计算的属性进行作业的优化;另其执行层使用C++实现,用户的一些代码逻辑会被翻译为C++执行,有较大的性能提升。

     

  • 简单易用: 支持嵌套的分布式数据集,使得其接口更加易于理解,并且拥有更强的代码可复用性。在许多需要优化的场景中,因为Bigflow的可以进行自动的性能以及内存占用优化,所以用户可以避免许多因OOM或性能不足而必须进行的优化工作,降低用户的使用成本。

GitHub 仓库挂件 WordPress 插件

baidu / bigflow

Baidu Bigflow is an interface that allows for writing distributed computing programs and provides lots of simple, flexible, powerful APIs. Using Bigflow, you can easily handle data of any scale. Bigflow processes 4P+ data inside Baidu and runs about 5000 jobs every day.

http://baidu.github.io/bigflow

 

下载信息

点击下载