回覆列表
  • 1 # 菜菜菜鳥

    在分散式訓練中有兩大流派,分別是allreduce和PS(Parameter Server)。過去三年中,尤其是百度提出allreduce,以及Uber開源基於allreduce的Horovod之後,行業內的認知中,allreduce是最好的分散式訓練通訊方式,而過去的PS實現的效能也確實與allreduce存在一定差距。

    BytePS可以相容Tensorflow、PyTorch、MXNet等訓練框架。BytePS團隊表示,開發者只需要非常少的改動,就可以使用BytePS框架進行分散式訓練,享受BytePS帶來的高效能。此前行業裡的PS實現,都是針對特定通用框架,例如專門為TensorFlow實現的PS,也有專門為MXNet實現的PS。位元組跳動人工智慧實驗室開源的BytePS,透過實現一個通用的抽象層,抽象層可以被各種通用框架引用,實現了同時支援多個框架的可能性,因此能夠支援Tensorflow、PyTorch、MXNet等行業主流訓練框架。

    在測試上,BytePS 在 Resnet50 的表現較 Horovod(NCCL)提高 44%,在 VGG16 則提升了 100%。

  • 中秋節和大豐收的關聯?
  • 回家過年,鄉親父老們的問題基本就是關於房車婚姻,怎麼回答呢?