Apple、写真編集AI改善へ新データセット
-
FromMacRumors
Apple、AI画像編集能力向上へ大規模データセット「Pico-Banana-400K」を公開
Appleの研究チームは、AIシステムがテキストプロンプトに基づいて写真を編集する能力を向上させることを目的として、40万枚の厳選された画像からなる大規模データセット「Pico-Banana-400K」を公開しました。
このデータセットは、現在のAI画像編集トレーニングにおける「ギャップ」、特に実写に基づいた高品質なトレーニングデータの不足という課題に対応するために開発されました。GPT-4oのような高度なシステムでも、このデータ不足がAI画像編集の進歩を制限しているとAppleは指摘しています。
Pico-Banana-400Kは、8つのカテゴリにわたる35種類の編集タイプで構成されています。色の変更といった基本的な調整から、人物をPixar風キャラクターやLEGOフィギュアに変換するような複雑な編集まで多岐にわたります。各画像はApple独自のAI品質管理システムを通過しており、GoogleのGemini-2.5-Proが指示への準拠度と技術的な品質に基づいて評価を行いました。
データセットには3つの専門的なサブセットも含まれます。基本的なトレーニング用の25万8000枚の単一編集例、成功した編集と失敗した編集を比較する5万6000組のペア、そして複数回の連続的な編集を通じて画像がどのように変化するかを示す7万2000組のマルチターンシーケンスです。
Appleは、わずか数か月前にリリースされたGoogleのGemini-2.5-Flash-Image(通称Nano-Banana)編集モデルを用いてこのデータセットを構築しました。しかし、Appleの研究によってその限界も明らかになりました。グローバルなスタイル変更は93%の成功率を記録した一方で、オブジェクトの移動やテキストの編集といった精密なタスクでは成功率が60%を下回るなど、基盤モデルの課題が浮き彫りになりました。
研究チームは、Pico-Banana-400Kの目的を「次世代のテキストガイド画像編集モデルのトレーニングと評価のための強固な基盤を確立すること」と述べています。このデータセットは、非商用研究目的でGitHubにて無償公開されており、開発者がより高性能なAI画像編集モデルを開発するために利用できるとしています。
AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
このサイトはアフィリエイト広告(Amazonアソシエイト含む)を掲載しています。