前提条件
作業を始める前に、以下をご確認ください:- SambaCloud アカウントおよび SambaCloud APIキー
- InspectAI と SambaNova を組み合わせて利用するため、SambaCloud の API キーを環境変数として設定
- 必要パッケージをインストールした Python 環境
評価の実行
評価を実行する前に、Python スクリプト内でタスクを定義する必要があります。 各タスクは以下の 3 要素で構成されます:- Dataset – 入力データと期待される結果の一覧
- Solver – モデルが出力を生成する方法
- Scorer – 生成された出力を期待される結果と照合し評価する方法
例: Hello world
以下のコードをhello_world.py として保存します。
Llama-4-Maverick-17B-128E-Instruct モデルを利用した例です:
結果の閲覧
- 実行結果は
./logsディレクトリに保存されます。 - Inspect の Web UI を使うと、インタラクティブに結果を確認できます。
- ログを平易に閲覧するために Inspect の VS Code 拡張機能 を利用することもできます。
参考情報
- その他の評価事例については、InspecAIのリポジトリ をご参照ください。。
- 詳細は InspectAIの公式ドキュメント をご参照ください。
