Facebook 开源快速文本分类工具 fastText

Facebook 今天开源了其 AI 构建机器人的研究:fastText。fastText 可以将文本分类的训练时间从几天缩短到几秒!

fastText 是 Facebook AI Research (FAIR) 实验室的研究成功,要求很好的 C++11 支持,遵循 BSD 开源授权协议,托管在 GitHub:

https://github.com/facebookresearch/fastText

fastText 最大的魅力是它的速度和高效。fastText 比其他所有的学习方法都更快,可以训练出『使用一个标准多核 CPU 的情况在 10 分钟以内分类超过 10 亿个词 』这样的模型。FAIR 还宣称,相比深度学习模型,fastText 的训练时间可以从几天缩减到几秒。

fastText 专注于词和句子的分类,比如,fastText 可以学习  “boy,” “girl,” “man” 和 “woman” 这些词汇,来指定性别名词,然后在文档中存储这些词汇。当 AI 程序,比如机器人,解析一个请求的时候,类似 “Where my girls at,” 的请求,可以查看 fastText 生成的文档,然后识别用户询问的性别名词。

fastText 开源以后,像 Siri、Google Now 等这样的语音助手将能更有效地对自然语言展开解析。FAIR 实验室也表示会在 fastText 分享这方面的研究。

fastText 是款文本分类工具,这让人想到了 Google 在 2013 年开源的 word2vec,也是将词表征为实数值向量的工具,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。国内很多开发者已经做过 word2vec 方面的研究,资料也很多。

word2vec 遵循 Apache 协议开源,主页:https://code.google.com/archive/p/word2vec/

由于源代码一直托管在 googlecode,在 github 并未找到官方的库,这里有位开发者已经从 googlecode 转移过来了:

https://github.com/dav/word2vec

此外,还有开发者编写了 word2vec 的 Python 接口,训练的代码使用 C 编写,其他的功能使用 Python 编写,GitHub 地址:

https://github.com/danielfrg/word2vec

377228683e260c1.jpg_600x600

Related Posts

史上最快!OpenClaw 以超 25 万星标登顶 GitHub,超越 React 成开源新王

史上最快!OpenClaw 以超 25 万星标登顶 GitHub,超越 React 成开源新王

独立的开源浏览器Ladybird拥抱Rust

独立的开源浏览器Ladybird拥抱Rust

Anthropic 指控中国 AI 公司进行“工业规模蒸馏攻击”,开源大模型训练陷入争议

Anthropic 指控中国 AI 公司进行“工业规模蒸馏攻击”,开源大模型训练陷入争议

No Comments Yet

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注