shimao

AWS re:Invent2019に向けたAI関連アップデートまとめ

#machine-learning #aws #re:Invent

2019/12/02

Table of Contents

対象者
まとめ方について
まとめ
所感
情報ソース

対象者

AWSが好きな人
AWSのAI系サービスに興味がある人

まとめ方について

10月以降のアップデートのAWS公式のまとめ記事からさらってきます。 1アップデートにつき3行程度でまとめます。また、以下の4軸+その他の計5軸でまとめます。（公式のメニューを参考にしています）

AI Services
- AIの成果を誰でも簡単に使えるサービス。Amazon Rekognition、Amazon Comprehendなど。
ML Services
- AWSで機械学習の開発・本番化を簡単に行うためのサービス。主にSageMaker。RoboMakerも勝手にここに入れました。
ML Frameworks
- TensorFlow等の機械学習フレームワークへの対応。DeepLearning AMIも。
ML Infrastructure
- 機械学習のためのインフラサービス。GPUインスタンス、Elastic Inferenceなど。

まとめ

AI Services

Amazon Comprehend が 6 言語を新しく追加

Amazon Comprehend は、テキスト内でインサイトや関係性を検出する自然言語処理 (NLP) サービス。
- テキストのキーフレーズ抽出、感情分析、構文解析、エンティティ認識、言語検出、テキスト分類モデル構築、トピックモデリングが可能。
利用可能な言語に日本語が追加された。他にも中国語 (繁体字)、中国語 (簡体字)、韓国語、ヒンディー語、アラビア語が追加された。

Amazon Comprehendがリアルタイムのカスタム分類をサポート

Amazon Comprehendで作成したカスタムテキスト分類モデルで、リアルタイムな分類ができるようになった。（これまでは非同期出力のみ）
事前にエンドポイントを作成しておけばOKということの模様。エンドポイントはAutoScalingにも対応している。

Amazon Personalizeがバッチレコメンドをサポート

Amazon Personalize は、顧客個別のレコメンデーションを作成できるサービス。
複数のユーザーIDを指定して、バッチ出力ができるようになった。多数のユーザーへのレコメンドを一度に生成してバッチ処理することが可能になった。
東京リージョンでも使用可能。

Amazon TranscribeがAlternative Transcriptions（複数の）をサポート

Amazon Transcribeは自動音声認識サービス。文字起こしが出来る。（Speech To Text）
これまでは信頼スコア最高の結果1つしか取得できなかったが、最大10個の結果まで取得できるようになったらしい。その中から利用者が選ぶことが出来る。
東京リージョンでも使用可能。

Amazon Transcribeが東京リージョン対応

Amazon Transcribeが東京リージョンに対応した。

Amazon Transcribeが日本語を含む7言語対応追加

Amazon Transcribeが新たに7言語対応。
- 日本語、アラビア語、スイスドイツ語、ヘブライ語、マレー語、テルグ語、トルコ語。

Amazon Forecastは、任意の変位値での予測の生成をサポート

Amazon Forecastは、時系列データ予測サービス。
これまで10％・50％・90％の3つの変位値での予測結果を生成したが、1％から99％の任意の変位値で予測を生成できるようになった。

Amazon ForecastのAutoMLで実行されるすべてのアルゴリズムに関する追加の詳細/メトリクスを取得可能に

これまではAutoMLを選択して学習した場合、最終的に採用されたアルゴリズムのみが確認可能だった。
このアップデートで成功した全てのアルゴリズムのメトリクスと、失敗したアルゴリズムのエラーメッセージも取得できるようになった。
前者によりその他のアルゴリズムの評価が可能になった。後者により、必要に応じでデバッグできるようになった。

ML Services

SageMaker XGBoostアルゴリズムの新しいバージョンが利用可能に

バージョン 0.90 のオープンソース XGBoostフレームワークに基づいた SageMaker XGBoostアルゴリズムの新しいバージョンを使用できるようになった。
- XGBoostは、回帰・分・ランキングの問題に対する非常に効率的で柔軟なアルゴリズム。

Amazon SageMakerでリアルタイム推論用のG4・R5インスタンスのサポートを開始

G4は、NVIDIA T4 Tensor Core GPUを搭載しており推論処理に最適なパフォーマンスを提供する。
R5は、大容量のデータセットをメモリで処理するワークロード向けのパフォーマンスの高速化を提供する。
- M5より同じサイズのインスタンスで2倍のメモリの模様。例：m5.largeが8GB、r5.largeが16GB（価格はR5のほうが1.2倍くらい高い）

AWS Step Functions、Amazon SageMakerサービス統合を拡張

AWS Step Fucntionsが強化され、SageMakerとの連携がやりやすくなった。
Step Functions ワークフローの一環として、ハイパーパラメーターを調整したり、カスタムのラベルを作成したり、MLモデルをデプロイしたりできるようになった。

AWS RoboMakerがベータリリースでRobot Operating System 2 (ROS2) のサポートを導入

AWS RoboMakerはロボットに関するアプリケーションの開発やテスト、デプロイを容易にするサービス
次世代ロボットフレームワークであるROS2(Robot Operating System 2)をサポートした。（β版）
- 正直ROSすらよくわかっていないが、ロボット用のソフトウェアプラットフォームらしい。

Amazon SageMaker Ground Truth、より高度なアクセス制御をサポート

Amazon SageMaker Ground Truthはアノテーション管理サービス。
- 機械学習の各種タスクに最適化されたアノテーションツールの提供と、アノテータの管理機能を提供する。
IAMを使ったアクセス制御がより高度にできるようになったと理解した。（まとめ記事にこの内容が記載されていたが、このニュース自体のソースは見つけられなかった）

Amazon QuickSightでAmazon SageMakerモデルを使用したML予測をプレビューで組み込めるようになった

QuickSight上でSageMakerで作成したモデルの推論を実行できるようになった。
QuickSightは、データソースからのデータの抽出、データのチャンク化、SageMakerバッチ変換ジョブを介したデータの実行、および視覚化とレポートのための推論の結果のクリーンアップと保存を行える。
ようはBIツールとSageMakerの連携が強化されたと理解している。

ML Frameworks

特になし。

ML Infrastructure

Amazon ECSにG4インスタンスタイプのサポートを追加

AWSのコンテナサービスECSで、G4インスタンスが利用可能になった。
G4インスタンスにはNVIDIA T4 Tensor Core GPUが搭載されており、機械学習モデルの本番環境へのデプロイやグラフィックスを多用するアプリケーションに適している。
G4インスタンスはECS GPU最適化AMIのバージョン20190913以降でサポートされる。

Amazon Elastic Inferenceがリソースタグをサポートしました

Amazon Elastic Inferenceを使用すると、適切な量のGPUをEC2、SageMakerインスタンス、またはECSタスクに付加して、推論コストを最大75％削減できる。
GPUアクセラレーターをアタッチする事で深層学習の推論を高速化するもので、TensorFlow、Apache MXNet、ONNXをサポートする。
リソースタグの各タグはキーとオプションの値で構成され、どちらもユーザーが定義する。リソースを簡単に整理および識別し、コスト配分レポートを作成できる。

Amazon Elastic Inferenceはより大きなGPUメモリを持つ新しい Acceleratorを導入する

最大8GBのGPUメモリをサポートする新しい世代のアクセラレーター（EIA2）が追加され、より大きいデータサイズの推論に対応しやすくなった。

その他

AWS CodeBuildがARM、GPU、X-Largeコンピューティングタイプをサポート開始

ARM、GPU、X-Largeの3つの新しいコンピューティングタイプでビルドを起動できる。
AWS CodeBuildのGPUワークロードのサポートにより、AWS CodePipelineでディープラーニング目的のCI/CDワークフローを実行できる。
パイプラインを通じて変更がリリースされる前に、コード、データ、およびMLモデルの増分変更の正確性をテストできるようになった。
CodeBuildプロジェクトを作成または更新し、環境タイプとして「LINUX_GPU_CONTAINER」を選択し、計算タイプとして「BUILD_GENERAL1_LARGE」を選択すればOK。

Amazon CloudWatch異常検出がGAになった

CloudWatchでメトリクスの通常値からの逸脱を検知する（Anomaly Detection）機能が、東京を含む各リージョンで利用できるようになった。
Anomaly Detectionを有効にすると、過去のデータから通常と見なせる範囲を設定し、それを逸脱する場合にアラームを発行してくれる。
オプションで、データ除外期間、異常の感度、およびサマータイムを指定してカスタマイズできる。

AWS GlueはApache Spark 2.4.3およびFindMatches MLトランスフォームのサポートを開始

AWS Glue は、簡単でコスト効果の高い方法でデータの分類、消去、強化、およびさまざまなデータストア間を確実に移動することができる、完全マネージド型 ETL (抽出、変換、ロード) サービス。
Spark 2.4.3（Glueバージョン1.0）で実行されるETLスクリプトで機械学習機能のFindMatches変換の実行をサポートするようになった。
FindMatches 変換を使用すると、レコードに共通の一意の識別子がなく、正確に一致するフィールドがない場合でも、データセット内の重複レコードまたは一致するレコードを識別できますとのこと。

Amazon Auroraはデータベースからの機械学習サービスの直接呼出しのサポートを開始

SageMaker・Comprehendとの統合により、機械学習ベースの予測をアプリケーションに追加できるようになった。
使い慣れたSQLプログラミング言語に基づいているため、カスタム統合を構築したり、データを移動したり、別のツールを学習したり、機械学習の経験を積んだりする必要はない。
不正検出、広告ターゲティング、製品の推奨などの低遅延のリアルタイムユースケースに適している。
上記の記述だとわかりにくいけど、こちらのブログを見るとわかりやすい。ようはComprehendやSageMakerモデル等をSQL関数を使うみたいに呼び出して推論結果がSQLクエリ結果として取得できる模様。

Amazon AthenaはSQLクエリで機械学習モデル呼び出しをサポートする

SQLクエリから直接推論するための機械学習モデルを簡単に呼び出すことができる新しい機能をリリースした。
異常検出、顧客コホート分析、販売予測などの複雑なタスクが、SQLクエリで関数を呼び出すのと同じくらい簡単に実行できる。
Athenaコンソール、Athena API、およびAthenaのプレビューJDBCドライバーからSQLクエリで、Amazon SageMaker組み込み機械学習アルゴリズムを使用したりこれらのMLモデルを呼び出すことができる。

所感

AI Services系のリリースが多かった印象ですが、単純に出たばかりサービスが多いからかなと思います。
- 日本語対応系は特に嬉しいです。個人的にはTextractの日本語対応を待ち望んでいます。
ML Frameworks系のアップデートがなかったのは、OSSのMLフレームワーク自体に大きな動きがなかったからかもしれません。TensorFlow2.0が2019/10/1にリリースされたので、これからアップデートがあるかも。もしくは、re:Inventで何かしら発表されるのかもしれません。
その他系を見ていると、AWSの既存サービスとAI系サービスの連携が強くなってきているのを感じます。
- 個人的印象ではAI系ではGCPが強い印象ですが、既存サービス（例えばRDS）はAWSが強い印象なので、その既存サービスとAI連携が強くなってくると、AI系でもAWSが強くなってくるのかもしれないなと思いました。