Fusion of Society, IT and Culture
Fusicでは開発合宿というイベントがあります 今回、苑田くんとペアを組んで参加しました 以前にも、hololensを使ってスカウターチックなものを作りたいと思って取り組ん...
近年Vision and Languageのpre-trainedモデルを用いた事例が少しずつ増えてきています。 ViLBERTを皮切りに、OscarやUNITERなど様々なモデルが提案されてきました。 しかし、これらのモデルで画像の特徴抽出では物体検出などを用いており、そこが処理速度におけるボトルネックになっていました。 実際僕もText Image Retri...
こんにちは、初めましての人は初めまして。機械学習チームの瓦です。 つい先日、...
前回「複雑な音声処理タスクを一気通貫で実装できる! ESPnetの概念と特徴について」記事で、ESPnetの特徴を説明し、その再現性・利用性に関して述べました...
機械学習といえば 画像処理 自然言語処理 に関するところが代表的な分野であり、それぞれ発展してきた分野であります。 一方で、画像に写っている情景を自然言語で説明する文章を生成する(Image Captioning)などは 画像内の被写体 被写体の状態 ...
こんにちは、石橋です。 先月、キックオフミーティングのチーム発表で機械学習チームは面白いデモを開発しました 僕が作ったのはfacenetを用いた社内で似た顔を探すアプリです こう見てみると、確かに似ている人がトップ3に...
こんにちは、機械学習チームインターンのハンです。今回は、音声認識や音声合成のような音声処理に特化した、ESPnetというツールキットについて紹介します。2018年ESPnetが公開されてか...
機械学習チームインターンのトシュコフです。本記事では、1年前に(2020年6月17日)にVincent Sitzmann らによって発表されたImplicit Neural Repr...
こんにちは、機械学習チームの鷲崎です。最近、弊社では、GANに関する技術調査を行っていまして、女性の声を男性の声に変換してみた!CycleGAN VCを用いた...
こんにちは、機械学習チームインターンのハンです。前回、CycleGAN VC2を用いた音声変換を行いましたが、今回は、StarG...
こんにちは、鷲崎です。最近、精巧な偽画像を作成するディープフェイクによる事件が摘発され、実社会の驚異となってきています。例えば、動画の顔をすり替えることで、偽の演説動画を作成したフェイクニュースや、ポルノ動画に写った人物の顔をアイドルの顔にすり替えるフェイクポルノなどの事件は話題になったかと思います。 このように犯罪用途で何かと注目されるAIによる顔すり替え技術ですが、非常に有...
こんにちは、Fusicのインターンに参加したハンです。 私の初投稿の記事になります! 本記事では、ある人の声を別の人の声に変えるSpeech To Speech(STS)について書きました。...
こんにちは、機械学習チーム インターンの石山です。 今回、書類中の表データの構造を保持したままデータ化する技術について調査し実装を行ったので記事にまとめたいと思います。 例えば、下図のように、画像中の書類に含まれいる表を右側のExcelのように抽出することを想定しています。 ...
こんにちは、鷲崎です。とうとう、CVPR 2021が開催されました!弊社でも、CVPRの最新論文で話題になっているものを読み、その結果に驚きを得ています。本記事で紹介する、GANs N' Roses: St...
こんにちは、鷲崎です。先日(21年6月6日)、「○○ is Not All You Need」系の論文の系譜であるTabular Data: Deep Learning is Not All You Nee...
こんにちは、鷲崎です。 最近、画像処理においてもTransformerが使われてきています。実際のところ分かりませんが、私としては、畳み込み演算はローカルな情報、Transformerは大域的な情報を得意にしているのかなというくらいの認識です。もう少し、Transformerについて知りたいと思い調査していたところ、セマンティックセグメンテーションで軽量で性能も良い...
こんにちは、鷲崎です。2020年、新しい3次元空間の表現手法として、Neural Radiance Fields(NeRF)が登場しました。この手法は、下図のように複数の画像からNeRFを学習するこ...
こんにちは、石橋です。 Facebookから面白い論文が出てきました。 以前、僕はalphafoldに関する記事を書きましたが、 最近は機械学習が生物学へのドメインに転用されて大きな精度向上をもたらしています。 ...
こんにちは、鷲崎です。弊社では、スポーツxAIという分野に取り組んでおり、画像分類や物体検出など多くの画像処理タスクを活用しています。今回は、選手の追跡タスクのため複数物体追跡(MOT; Multi Object Tracking)の最新手法に関して、弊社インターンの青木と共に調査しました。 本記事で解説する...
こんにちは、Fusicのインターンシップに参加したHUANG BOYUと申します。今回インターンシップで、生成モデルStyleGan2-ADAを用いて、下図のような顔画像から笑顔、無表情の画像を生成するタスクを行いました。本記事では、この手法の解説を行います。 ...
こんにちは https://fusic.co.jp/doings/312 以前に弊社広報でこんな記事を出しました 今回の記事ではより実装側によったことを書いてみ...
こんにちは、今回はライブドアニュースコーパスをBERTを使って多クラス分類する実装をしてみます。 よくよくやられていることなので、ネット上にたくさん似た事例がありますね。 今回は、比較的再利用しやすいような実装を心がけています。 ...
こんにちは、インターンの青木です。この記事では、2020/6/20にFacebook AIより提案されたwav2vec 2.0を日本語データセット で学習させ、推論までを行いたいと思います。 ...
こんにちは。機械学習チームの佐藤です。テキスト要約のタスクのモデルでMultilingual-T5がありますが、オリジナルリポジトリのTensorFlow版Multilingual-T5だと少々使いづらく感じたので(特にpredictの際に)、今回Simple Transformersを使ってみました。 また今回、Kaggleにて...
こんにちは、鷲崎です。最近、畳み込みニューラルネットワーク(CNN)を用いて画像分類や物体検出などの視覚タスクに用いるハードルが低くなり大衆化してきました。一方で、視覚タスクにおける研究の流行は、CNN構造からAttention機構を用いた新しいアーキテクチャの発見などに移り変わってきている気がしています。 本記事で紹介する、...