分散深層学習環境『Azure Batch AI』の概要解説と実行手順(Portal)

こんにちは。
コンサルティング & テクノロジー部の上坂です。

この記事はネクストスケープ クラウド事業本部のAdventCalenderの24日目です。

DeepLearningやっていると、学習にとても時間がかかってしまって気軽にTry&Errorできないのが辛い所ですよね。GPUのパワーに頼るにしてもオンプレでは限界があるし、クラウド上のIaaSでDeepLearning環境を作るとしても、ハイパワーなIaaS1台で学習させるなら特に難しいことはありませんが、複数台でクラスタ構成組むとなるとそれだけで一苦労です。

2017年5月10日、MicrosoftのBuildというイベントでAzure Batch AI Trainingというサービスが発表されました。このサービスはAzure Batch、という名前から推測できる通り、Azure上でクラスタ環境を組んでくれるものです。これを使って、学習スピードを大幅に短くすることができるかもしれません。現在は名称がAzure Batch AI Service、もしくはAzure Batch AI、となったようです。

Azure Batch AI


このAzure Batch AI、まだPreviewではありますが、きっとGA後はDeepLearningをAzureで実行する時に最も使用頻度が高いリソースになるでしょう。 今日はこの Azure Batch AIについて調べた内容と、実験した結果を書いてみたいと思います。

公式ページのドキュメントではAzure CLI2とPythonによる構築・実行の方法しか説明がありませんが、Azure Portalでも構成・実行は可能です。公式ページに先駆けて、Azure Portalで構成・実行してみましょう。

Read More

ネクストスケープ企業サイトへ

NEXTSCAPE

検索する

タグ

メタデータ

投稿のRSS