| 2020-06-07
阅读475
Facebook训练AI的秘密武器:你的Instagram照

Facebook 年度大会 F8 上,Facebook 公布了他们在这场 AI 深度学习竞赛中的秘密武器:Instagram 上的数亿则照片。

Facebook 在 F8 会中示範如何使用数十亿的公开 Instagram 照片,训练在 ImageNet 拿到 85.4% 準确度的深度学习模型。

使用者的 hashtag 等于为照片提供分类参考的免费劳力,虽然省下另外贴标籤的麻烦,不过 Facebook 还是得归类出使用者为什幺要下这些标籤,但面对拥有 17000 种 hashtag 的 35 亿张照片,就算是 Facebook 也没有资源像其他研究一样人工筛选标籤,他们必须能大规模找出 hashtag 关联的方法。

所以他们又做了一套「训练前」的深度学习系统,找出哪些是相关的 hashtag,学习同义词,以及 hashtag 的指涉範围和层级,也就哪些 hashtag 包含其中比较细项的 tag。这套系统他们称之为「大规模 hashtag 预测模型」。

儘管 Facebook 强调他们使用的是权限设定「公开」的照片,藉此避免隐私问题,不过 Facebook 正在风头上,有多少使用者意识到他们的照片正被用来训练 AI?恐怕 Facebook 还是在用户沟通上多花点心思会比较保险。

另外,这套模型专注在辨识影像中的物件,不过也许能分析社群爆红元素的演算法会是更有趣的应用。

可惜的是,以会中分享内容来看,训练结果并不令特别惊艳,但为了规模化分类 tag 的「预先训练」演算法倒是相当实用又有趣的亮点。