本記事は CADDi Tech/Product Advent Calendar 2025 22日目の記事です。こんにちは、Data & Analysis部で機械学習エンジニアをしている由川です。

私は、製造業特化LLMを開発するための評価ベンチマークづくりに取り組んでいます。本記事では、この取り組みにおいて得られた知見や苦労していることを紹介したいと思います。

ドメイン特化LLMに関する評価ベンチマークを作ろうとしている方の参考になれば幸いです。

なぜ製造業特化の評価ベンチマークを作るのか
ベンチマークタスクの定義
ベンチマークタスクのデータセット作成
- 評価対象となる図面の選定
- 評価対象の図面をアノテーション
ベンチマークタスクの評価
- 評価方法
- 評価指標
ベンチマークタスクの評価システム
まとめ

なぜ製造業特化の評価ベンチマークを作るのか

以下のとおり活用するためです。

ベンチマークでの精度を比較することで、製造業の課題を解決するためにはどのLLMを選べばよいか選定できるようにするため
キャディが持つ製造業の様々なデータ（図面画像、3Dモデル、仕様書など）に対してFine-tuningなどの手段を適用することで、製造業に関する様々な課題を解ける汎用的なLLMを開発するため（特にやりたいのはこちら）

上記の活用をするために、まずはOpenAIの提供するGPT系やGoogleの提供するGemini系といった世の中にある汎用LLMが、製造業のどのような問題が得意/苦手か明らかにする必要があります。これを明らかにするためには、製造業に関する評価ベンチマークが必要です。しかし、製造業の図面、仕様書、3Dモデルについて理解できているか評価するベンチマークは世界的に見ても数が少ないです。また、既存のベンチマークでは測れない、製造業特有の複雑さを評価するためには、実際の業務で流通しているデータが不可欠です。

ここで、キャディには町工場から大手企業まで様々なお客様に契約いただくことで蓄積されたデータがあります。この膨大なデータを活用し、実践的な評価ベンチマークを作成することにしました。

なお、お客様のデータはキャディ社内で機械学習に活用することに同意いただいたデータのみ利用しています。

ベンチマークタスクの定義

LLMが製造業の課題を解けるか確認できるベンチマークタスクとは何でしょうか？

この問いの答えとして、我々は熟練した設計者や技術者のように製造業について十分に理解している人間が図面を理解するプロセスを言語化しました。そのうえで、このプロセスをLLMで再現するタスクを定義しました*1。

人間が図面を見て理解するプロセスと、LLMが解くタスクとの対応関係は以下表のとおりです。

人間が図面を理解するプロセス	プロセスの概要	LLMが解くタスクの例
空間把握	図面の中に書かれている立体がどのような形か把握する例：「この図面に書かれているのはL字型の板金」	2D図面から3DCADへの再構築タスク
要素認識	図面内の個々の要素（文字、記号、寸法など）が何か認識する例：「ここに直径10mmの円がある」	・物体検出・寸法値の推定
構造把握	要素間の関係性や位置関係を把握する例：「この寸法線は、この形状の深さを表している」	・分類問題・数値の推定
機能理解	要素がどのような機能を果たすのか、どのような意図で設計されたのか理解する例：「この公差*2はこの部品をはめるために必要」	画像キャプションタスク
製造・品質理解	図面を通して作られた設計がどのように製造され、検査されるべきかを理解する例：「この形状は旋削加工*3をした方が良い」「この寸法は測定器Aで検査する必要がある」	Q&Aタスク

表の対応関係により、LLMは図面に書かれている要素は何か、という単なる画像認識にとどまらず、高次の情報（例：要素間の関連性、要素にはどんな機能があり、その機能に込められた意図は何か）も理解しているか評価するようにしました。

「高次の情報」の理解を評価する具体例として、画像キャプションタスクの採用理由を説明します。製造業の現場では、図面から記号や寸法といった要素を見つけることだけでなく、要素を構成する製品の設計意図を説明できることが求められます。そこで、私たちはこの説明をLLMで再現するにはどうすればよいか考え、画像から適切な説明文（キャプション）を生成させるタスクを行えばよいだろうと判断し採用しました。

表の対応関係はすんなりとできたものではなく、熟練者が無意識に行っている脳内処理を評価可能なタスクとして定義することが難しかったです。

タスクを検討する際、社内で製造業にドメイン知識のある方たちに図面を読むときに何を考えているかをヒアリングしましたが、直感的に見ている傾向がありました。そのため、熟練者自身も言語化に苦戦していました。また、人によって見解が異なっていたため、絶対的な正解はない中でタスクを定義しました。

以上を踏まえて、本節を通してお伝えしたいことは、ベンチマークタスクは人間が実際に行うプロセスを再現できるか、そして評価したいことは何か決めたうえで設計しましょう、ということです。

ベンチマークタスクのデータセット作成

ベンチマークタスクの定義ができたら、そのタスクに関する評価データセットを作る必要があります。評価データづくりは以下のステップで行っています。

評価対象となる図面の選定
評価対象の図面をアノテーション

評価対象となる図面の選定

量・割合・質という3つの観点で以下を意識して選定しました。

観点
量	精度にブレが出ない程度の量があること
割合	図面内の製品の形状や書き方のフォーマットがある程度典型的でありつつ、多様性もあること。
質	図面の書かれ方や画像の解像度などが、実際にお客様に利用されている状態に近い図面を選ぶこと

データ選定にも難しさはあります。我々が苦労したのは、データクレンジングです。例として、2D図面から3DCADへの再構築タスクの場合、製造業のドメイン知識があるプロダクトマネージャーが以下を1件ずつ目視したうえでデータを選定しました。

正解となる2D図面と3DCADの対応関係が正しいか
2D図面、3DCADが完成済みか（未完成のものが含まれることがあるため）

評価対象の図面をアノテーション

キャディには、図面に関するアノテーションを行う組織があります（参考：MLの裏側を支えるアノテーション組織運営の実践禄）。

基本的には、アノテーション組織の方に依頼してアノテーションいただくことで評価データセットを作りました*4。

アノテーターに依頼してデータがたまるのを待つだけという単純な話にはならず、以下の点が難しいです。

何のデータが、どのくらいあるといいか見通しがつきにくい点
画像キャプションタスクのように文章を正解として取り扱うタスクにおいて、絶対の正解が存在しない点。 例えば以下が難しさです。
- 何が書かれていれば正解とするかの定義
- 正解かどうかの判断基準（例：ある部分はあっているが別の部分が違うケース、記述は足りてないが間違っていないケースを正解とするかどうか）

ベンチマークタスクの評価

評価データセットの作成ができたら、LLMの精度の優劣を評価できるようにするために、評価方法と評価指標を決める必要があります。

評価方法

以下を意識して、論文調査や事前検証したうえで方法を決めています。

LLM間で精度の優劣がつくタスクか
- 優劣がつくタスクである必要性は、なぜ製造業特化のLLMベンチマークを作るのかに書いた活用ができるようにするためです。
アプリケーション開発の際に実際に行うであろう評価方法か
アプリケーション開発で適用する入出力になっているか
- 入力の例：画像をリサイズしてからLLMに入力させる。
  - 理由：元の画像サイズのままLLMに入力すると、あまりに画像サイズが大きい場合は推論速度が遅くなるうえに、計算資源の利用費も高くなるため。
- 出力の例：アプリケーションではLLMの推論結果をWeb APIを使って取得したいから、json出力ができる構造化出力を適用する。

評価指標

分類問題のようなよくあるタスクではPrecision、Recallなど代表的な評価指標を採用します。

そうではないベンチマークタスクの場合、評価結果をどのように活用するかユースケースを考え、LLMがそのユースケースを満たすか確認できる指標を定義しています。

多様なユースケースに対して、LLMが得意/苦手なことがわかるようにするために、基本的には複数の評価指標を設けています。

定義した評価指標によっては、算出された結果が妥当なのかを定性的に検証することもあります。

例えば、文章生成タスクにおいて文章が正しいかを評価する方法としてLLM as a Judgeを使う状況を考えます。このとき、LLM as a Judgeにより出力される、正しい・正しくないという結果そのものが妥当なのか検証する必要があります。いくつか方法は考えられますが、妥当性を確実に保証するには、LLMに判断結果だけでなく判断理由も出力させ、理由も踏まえて妥当なのかを人が評価せざるを得ないでしょう。

このように、いざとなったら人が評価結果の妥当性を保証する場合があるのが、評価ベンチマークづくりで大変なことの一つだと思っています。