Skip to content

Every Alley

大量の画像データを正規化する案件に関わったことがある。

数テラバイトの画像を片っ端から読み込み、フォーマットを揃え、破損データを弾き、メタデータを付与する。地味な作業だ。処理を回して待ち、結果を確認し、パラメータを調整してまた回す。華やかさのかけらもない。だがこの泥の工程を経なければ、その先にあるどんな分析も機械学習も、まともに動かない。

覇権を取ったサービスの裏側は、だいたい泥臭い。

Google Mapsはすべての路地裏にカメラを向けた。撮影車を走らせ、自転車を漕がせ、人が入れない場所にはトレッカーを背負わせて歩かせた。衛星写真を並べてアルゴリズムで補正し、住所データを突合し、店舗情報を一件ずつ確認した。あの地図の裏側にあるのは、気の遠くなるような物理的な作業だ。

Xのタイムラインは、数億人が同時に書き込むストリームをリアルタイムで捌いている。フォローグラフの展開、ランキング、フィルタリング。あのスクロールの滑らかさの裏には、曲芸のようなアルゴリズムと、何年もかけて磨かれた設計がある。

機械学習も同じだ。モデルの学習を回すこと自体は、いまやそれほど難しくない。GPUを積んで、フレームワークに乗せて、パラメータを調整する。だが元データを集める作業は桁が違う。ラベル付け、クリーニング、バイアスの検証、権利の確認。地味で、終わりが見えなくて、誰も褒めてくれない。学習を回すのは最後のひと押しにすぎない。その前の99%が泥だ。

AIを使えば成果物はすぐ出てくる時代になった。プロンプトを書けばコードが出る。画像が出る。文章が出る。だが覇権を取るサービスを作った人たちが何をしたかといえば、路地裏を一本ずつ撮影し、壊れたHTMLを一つずつ直し、ラベルを一枚ずつ貼った。ポチポチでは終わらない仕事を、何年も続けた。

わたしも覇権を取るサービスに関わりたい、と思いながら、今日もプロンプトを叩いている。