Bigflow是百度开源的高性能 Python 分布式计算框架 Bigflow,致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。 Bigflow 在百度公司内部对接了公司内部的批量计算引擎 DCE,迭代引擎 Spark,以及公司内部的流式计算引擎 Gemini。开源版本仅开放了Bigflow on Spark。

特色

  • 高性能: Bigflow的接口设计使得Bigflow可以感知更多的用户需求的细节属性,并且Bigflow会根据计算的属性进行作业的优化;另其执行层使用C++实现,用户的一些代码逻辑会被翻译为C++执行,有较大的性能提升。

     

  • 简单易用: 支持嵌套的分布式数据集,使得其接口更加易于理解,并且拥有更强的代码可复用性。在许多需要优化的场景中,因为Bigflow的可以进行自动的性能以及内存占用优化,所以用户可以避免许多因OOM或性能不足而必须进行的优化工作,降低用户的使用成本。

[repo owner=”baidu” name=”bigflow”]