LinkedIn 近期开源了一个元数据中心工具 WhereHows,已经在 LinkedIn 内部长期使用。WhereHows 方便内部员工发现公司内部的数据,跟踪数据集的移动和查看各种内部工具和服务的动向。

WhereHows 是 LinkedIn 构建的数据发现和大数据宗系工具,集成了所有主要的数据处理系统,可以进行目录收集和元数据操作。

WhereHows 遵循 Apache 2.0 开源授权协议,提供在 GitHub:

https://github.com/linkedin/WhereHows

WhereHows 可以解决很多公司面临的大数据内部分享的问题,提供一个平台让员工进行企业有价值的数据发现和进行一些更深度的分享。在当前,LinkedIn 的 WhereHows 存储的数据: 50,000 数据集,14,000 评论和 3500 万作业执行。

LinkedIn 是 Hadoop 的用户,但也支持其他系统,比如 Oracle 数据库,Informatica 等等。

WhereHows 提供给开发者两种访问方式:API(数据处理)和 Web 接口(数据发现和社区协作),允许员工查看一个数据集的宗系,进行注释或者其他操作。

WhereHows 详细文档请看:https://github.com/linkedin/WhereHows/wiki/Architecture