こんにちは。
コンサルティング & テクノロジー部の上坂です。
この記事はネクストスケープ クラウド事業本部のAdventCalenderの24日目です。
DeepLearningやっていると、学習にとても時間がかかってしまって気軽にTry&Errorできないのが辛い所ですよね。GPUのパワーに頼るにしてもオンプレでは限界があるし、クラウド上のIaaSでDeepLearning環境を作るとしても、ハイパワーなIaaS1台で学習させるなら特に難しいことはありませんが、複数台でクラスタ構成組むとなるとそれだけで一苦労です。
2017年5月10日、MicrosoftのBuildというイベントでAzure Batch AI Trainingというサービスが発表されました。このサービスはAzure Batch、という名前から推測できる通り、Azure上でクラスタ環境を組んでくれるものです。これを使って、学習スピードを大幅に短くすることができるかもしれません。現在は名称がAzure Batch AI Service、もしくはAzure Batch AI、となったようです。
このAzure Batch AI、まだPreviewではありますが、きっとGA後はDeepLearningをAzureで実行する時に最も使用頻度が高いリソースになるでしょう。
今日はこの Azure Batch AIについて調べた内容と、実験した結果を書いてみたいと思います。
公式ページのドキュメントではAzure CLI2とPythonによる構築・実行の方法しか説明がありませんが、Azure Portalでも構成・実行は可能です。公式ページに先駆けて、Azure Portalで構成・実行してみましょう。
Read More