谷歌开源了一款用于交互式可视化和高维数据分析的网页工具 Embedding Projector, 该Web项目是 Tensorflow 的一部分, 谷歌同时也发布了一个可以单独使用的版本,让用户无需安装和运行 TensorFlow 即可进行高维数据的可视化。

Google博客写道:Embedding Projector 网站包括一些可供试玩的数据组。我们也让用户更容易使用它并与其他人共享他们的嵌入。我们希望 Embedding Projector 能有效帮助研究社区探索并调节他们的机器学习应用,也让所有人更好地理解机器学习算法如何解读数据。

通常需要训练的数据是不能直接作为机器学习算法的输入的,应当将这些数据(例如:词语、声音、视频等数据)表示成一种机器可以理解(处理)的数据形式。Embedding Projector使用的是嵌入方法,即将数据表示成一个向量,这个向量包含了数据各个方面的信息。例如,在自然语言中,两个意思相近的词会映射到同一向量空间中两个不同的点,但这两个点的位置应该是相近的。

Embedding Projector 这个工具使用起来很简单,它可以实现数据的 2D 或 3D 效果展示。轻点鼠标,便可实现数据的旋转、缩放。通过算法算出的,与词语义相关的词以及其向量空间距离可罗列出来 , 提供一种探究算法性能的方法。

Embedding Projector 地址:https://www.tensorflow.org/versions/master/how_tos/embedding_viz/index.html

可单独使用的版本:http://projector.tensorflow.org/

相关论文地址:https://arxiv.org/pdf/1611.05469v1.pdf