ベンダー評価質問票

『生成AIは現場から入れろ』読者特典

このシートの目的

生成AI導入ベンダーを比較検討する際に、そのまま打ち合わせの場に持参できる質問リストです。

本書で示した「ベンダーを見極める7つの質問」を、複数社を横並びで評価できる形式に展開しています。

このシートは「ベンダーを試す」ためではなく、「自社が騙されないため」のものです。質問の意図を理解した上で、ベンダーの回答の中身ではなく態度を観察してください。曖昧にごまかすベンダー、質問の意図を理解できないベンダー、自社製品の宣伝に話を逸らすベンダーは、本番化フェーズでは必ず壁にぶつかります。

使い方

比較検討中のベンダー(2〜3社程度)に同じ質問を投げる
各質問への回答を、自分の言葉で要約して記入する
各回答を◎/○/△/×で評価する
全質問の評価を見て、総合所見を書く
「合計◎の数」「致命的な×の有無」を見て選定する

評価基準

評価	意味
◎	期待を超える回答。具体例・体制・数字まで提示できた
○	妥当な回答。理解度は十分
△	抽象的な回答にとどまる。掘り下げると怪しい
×	質問の意図を理解していない、または回答できない

選定の原則:

1つでも × があれば、その質問は導入後の致命傷になり得る
◎ が多くても、肝心な質問(Q1・Q4)が △ なら危険信号
回答の「中身」より「向き合い方」を見る

比較表

下記表に、各ベンダーの回答と評価を記入してください。

Q1. PoCの目的設計

質問: 「PoCの目的を、精度証明ではなく失敗パターンの洗い出しとして設計できますか?」

見ているポイント: 本番化の現実を理解しているか。「PoCは成功させるもの」と思っているベンダーは、本番化フェーズで必ず詰まる。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q2. 本番化後の改善サイクル

質問: 「本番化後の改善サイクルを、どんな体制と頻度で回しますか?」

見ているポイント: 「作って終わり」ではなく、運用フェーズに伴走する覚悟があるか。月1回・四半期1回など具体的な頻度と、改善担当の体制を答えられるか。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q3. データ主権

質問: 「データとシステムは、当社のクラウド環境(自社契約のAWS/Azure/GCP等)に構築できますか?」

見ているポイント: データ主権を理解しているか。「弊社のSaaSに預けてください」一択のベンダーは、契約終了時の移行で揉める。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q4. 精度問題の原因切り分け

質問: 「AIの精度が出ないとき、どんな順番で原因を切り分けますか?」

見ているポイント: 「モデルを変えましょう」「もっと高性能なAPIを使いましょう」以外の手段を持っているか。情報の整理・タスク分解・プロンプト調整など、地道な改善手段が出てくるか。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q5. 権限管理の反映

質問: 「権限管理を、AIの回答の中身にまで反映させる設計はできますか?」

見ているポイント: エンタープライズの基本を押さえているか。「全員が同じ情報にアクセスできる」前提のシステムは、社内の複雑な権限構造に対応できない。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q6. モニタリングの仕組み

質問: 「導入後のモニタリング(定点観測・フィードバック収集)の仕組みはありますか?」

見ているポイント: 長期運用の視点があるか。利用状況・精度推移・現場フィードバックを継続的に集める仕組みが標準で組み込まれているか。

項目	A社	B社	C社
回答要約
評価(◎○△×)

Q7. 契約終了時のデータ引き渡し

質問: 「契約終了時のデータ引き渡しと移行支援の条件を、契約書に明記できますか?」

見ているポイント: 顧客側の立場で考えているか。「終わるときの話」を嫌がるベンダーは、ロックインを狙っている可能性が高い。

項目	A社	B社	C社
回答要約
評価(◎○△×)

総合評価

項目	A社	B社	C社
◎の数
○の数
△の数
×の数
致命的な × の有無
概算費用(初期/月額)
想定スケジュール
総合所見

選定の最終チェックリスト

ベンダーを最終決定する前に、以下を確認してください。

No.	チェック項目	確認
1	× がついた質問はゼロか、または許容できる範囲か	□
2	Q1(PoC目的)とQ4(精度切り分け)が △ 以上か	□
3	担当者(営業ではなく実装責任者)に直接会ったか	□
4	過去の本番化事例について、成功だけでなく失敗も語れたか	□
5	契約書ドラフトを事前に確認し、Q3とQ7の条件が反映されているか	□
6	自社の業務理解について、初回打ち合わせの後に深掘り質問が来たか	□
7	無理に契約を急かしていないか	□

チェック5以下: 一度持ち帰って再検討することを推奨します。

補足: 回答の書き方の悪い例・良い例

Q4「精度切り分け」への回答比較

悪い回答例(評価△):

「最新の高性能モデルに切り替えれば、ほとんどのケースで精度が改善します。GPT-5でもダメなら、ファインチューニングを検討します」

→ モデル変更しか引き出しがない。本書の第5章で述べた「精度が出ない原因の確認順序」を理解していない。

良い回答例(評価◎):

「まず、答えとなる情報がそもそも登録されているかを確認します。次に、その情報の整理の仕方を見ます。複数資料に分散していないか、無関係な情報と混在していないか。3番目に、質問の種類と検索方法の相性を見ます。4番目に、AIへの指示の調整。モデル変更や検索アルゴリズムの改善は、この4つを潰した後の最終手段です」

→ 順序立てて答えられる。地道な改善の引き出しを持っている。

出典: 『生成AIは現場から入れろ——机上のDXで終わらせない、現場に定着する導入の考え方』黛政隆

このシートは本書の読者特典です。社内検討での利用はご自由にお使いいただけますが、再配布・商用利用はご遠慮ください。

ベンダー評価質問票 | 生成AIは現場から入れろ

7つの質問で生成AI導入ベンダーを横並び比較できる評価シート