Facebook 开源快速文本分类工具 fastText

Facebook 今天开源了其 AI 构建机器人的研究：fastText。fastText 可以将文本分类的训练时间从几天缩短到几秒！

fastText 是 Facebook AI Research (FAIR) 实验室的研究成功，要求很好的 C++11 支持，遵循 BSD 开源授权协议，托管在 GitHub：

https://github.com/facebookresearch/fastText

fastText 最大的魅力是它的速度和高效。fastText 比其他所有的学习方法都更快，可以训练出『使用一个标准多核 CPU 的情况在 10 分钟以内分类超过 10 亿个词』这样的模型。FAIR 还宣称，相比深度学习模型，fastText 的训练时间可以从几天缩减到几秒。

fastText 专注于词和句子的分类，比如，fastText 可以学习 “boy,” “girl,” “man” 和 “woman” 这些词汇，来指定性别名词，然后在文档中存储这些词汇。当 AI 程序，比如机器人，解析一个请求的时候，类似 “Where my girls at,” 的请求，可以查看 fastText 生成的文档，然后识别用户询问的性别名词。

fastText 开源以后，像 Siri、Google Now 等这样的语音助手将能更有效地对自然语言展开解析。FAIR 实验室也表示会在 fastText 分享这方面的研究。

fastText 是款文本分类工具，这让人想到了 Google 在 2013 年开源的 word2vec，也是将词表征为实数值向量的工具，把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。国内很多开发者已经做过 word2vec 方面的研究，资料也很多。

word2vec 遵循 Apache 协议开源，主页：https://code.google.com/archive/p/word2vec/

由于源代码一直托管在 googlecode，在 github 并未找到官方的库，这里有位开发者已经从 googlecode 转移过来了：

https://github.com/dav/word2vec

此外，还有开发者编写了 word2vec 的 Python 接口，训练的代码使用 C 编写，其他的功能使用 Python 编写，GitHub 地址：

https://github.com/danielfrg/word2vec

Facebook 开源快速文本分类工具 fastText

No Comments Yet

发表回复取消回复

Facebook 开源快速文本分类工具 fastText

Related Posts

MiniMax-M2.7 开源模型：第一个自己教自己的AI

私人老师DeepTutor-AI 家教，真的能教会你做题？

Anthropic 向 GitHub 发出版权删除请求，欲下架 8000 份 Claude Code 源码

No Comments Yet

发表回复 取消回复

发表回复取消回复