Facebook 开源快速文本分类工具 fastText
Facebook 今天开源了其 AI 构建机器人的研究:fastText。fastText 可以将文本分类的训练时间从几天缩短到几秒!
fastText 是 Facebook AI Research (FAIR) 实验室的研究成功,要求很好的 C++11 支持,遵循 BSD 开源授权协议,托管在 GitHub:
https://github.com/facebookresearch/fastText
fastText 最大的魅力是它的速度和高效。fastText 比其他所有的学习方法都更快,可以训练出『使用一个标准多核 CPU 的情况在 10 分钟以内分类超过 10 亿个词 』这样的模型。FAIR 还宣称,相比深度学习模型,fastText 的训练时间可以从几天缩减到几秒。
fastText 专注于词和句子的分类,比如,fastText 可以学习 “boy,” “girl,” “man” 和 “woman” 这些词汇,来指定性别名词,然后在文档中存储这些词汇。当 AI 程序,比如机器人,解析一个请求的时候,类似 “Where my girls at,” 的请求,可以查看 fastText 生成的文档,然后识别用户询问的性别名词。
fastText 开源以后,像 Siri、Google Now 等这样的语音助手将能更有效地对自然语言展开解析。FAIR 实验室也表示会在 fastText 分享这方面的研究。
fastText 是款文本分类工具,这让人想到了 Google 在 2013 年开源的 word2vec,也是将词表征为实数值向量的工具,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。国内很多开发者已经做过 word2vec 方面的研究,资料也很多。
word2vec 遵循 Apache 协议开源,主页:https://code.google.com/archive/p/word2vec/
由于源代码一直托管在 googlecode,在 github 并未找到官方的库,这里有位开发者已经从 googlecode 转移过来了:
https://github.com/dav/word2vec
此外,还有开发者编写了 word2vec 的 Python 接口,训练的代码使用 C 编写,其他的功能使用 Python 编写,GitHub 地址:
发表回复