マルチモーダルRAGシステム v2.0

📁

ファイルをドラッグ&ドロップ、またはクリックして選択

PDF, PNG, JPG, GIF, BMP, WebP, Word(.docx)対応 (最大50MB)

⚙️ API選択設定

📝 テキスト処理API

PDF・Word文書のテキストチャンク処理に使用するLLMを選択します

📊 API比較 (2025-11-22更新)

💚 Gemini 2.0 Flash: $0.075/$0.30/1M tokens | 精度★★★☆☆ | 一般文書、大量処理向け

💙 GPT-4o mini: $0.15/$0.60/1M tokens | 精度★★★★☆ | 高コスパ・バランス型

💜 Gemini 3 Pro: $2.00/$12.00/1M tokens | 精度★★★★★ | LMArena首位・最高精度

🤖 LLMキーワード抽出を使用

❌ 無効（埋め込みのみ、低コスト）

💡 選択時の影響:

✅ 有効時: LLM使用でキーワード抽出精度向上、コスト増加（~23,000倍）
❌ 無効時: TF-IDF+辞書ベース、低コスト、基本精度

🖼️ 画像表抽出モード

💡 選択ガイド:

🔄 自動選択: 戦略に基づいて自動決定（コスト重視→スキップ, バランス→スキップ, 精度重視→GPT-4o）

⏭️ スキップ: 画像表抽出を実行しない（OCRのみ）- コスト: $0

🌐 Google Vision: シンプルな表に最適 - コスト: ~$0.0015/画像

🤖 GPT-4o: 複雑な表・セル結合に対応 - コスト: ~$0.010/画像

📊 コスト比較: GPT-4oはGoogle Visionの約6.7倍のコストですが、セル結合・階層構造の認識精度が高くなります。

📊 階層構造解析（表・フローチャート検出）

💡 推奨用途:

✅ ON推奨: XMLスキーマ、API仕様書、組織図など階層構造を持つ文書（バランス型以上推奨）
❌ OFF推奨: 単純な文章のみの文書、処理速度優先の場合
⏱️ 処理時間節約: OFFで約60-150秒短縮（2ページPDF例: 210秒→0秒）
💰 APIコスト: 約$0.01～0.03/表（階層表のみ）

📝 Note: ONの場合、PDF内の表・フローチャートを検出し、階層関係（親子・兄弟）を自動解析します。階層構造がない単純な表は通常の表抽出のみ実行されます。OFFの場合は階層解析をスキップして処理時間を大幅に短縮します。

準備中...

🔍 検索

🎯 検索モード

検索タイプ

🎭 専門家役割 (チャットモード用)

AIの回答視点を設定します。プリセットから選択するか、テキストボックスで直接編集できます。

🚀 AI戦略選択 (チャットモード用)

🔥 コスト最適化 ~$0.0004

Gemini 2.0 Flash で超低コスト・高速な回答を提供。レートリミットなし。

主要モデル: google/gemini-2.0-flash-001 ($0.075/$0.30/1M)

⚖️ バランス型 ~$0.0008

DeepSeek V3 で高コスパな回答を提供。コストと品質のベストバランス。

主要モデル: deepseek/deepseek-chat ($0.30/$1.20/1M)

🎯 精度重視 ~$0.007

Gemini 3 Pro (LMArena首位) で最高品質の分析と推論を提供。

主要モデル: google/gemini-3-pro-preview ($2/$12/1M)

💡 選択ガイド: コスト最適化が選択されています。Gemini 2.0 Flash ($0.075/$0.30/1M tokens) で超低コスト・高速な回答を提供します。

📁 ファイル名でフィルタ

💡 リストから選択、またはワイルドカード入力可（例: IMG_*.JPG, P1-*.pdf）

📝 定型プロンプト:

⚙️ 検索設定

絞り込み最大件数 PostgreSQL類似検索の候補件数（source_fileフィルタ使用時はDB側でフィルタ適用後に取得）

表示結果件数ユーザーに表示する最終結果件数（上限: 100件、完全網羅には50推奨）

📏 結果文字数制限各検索結果の表示文字数を選択

類似度閾値推奨: 0.0-0.2 (低いほど多くの結果、高いほど精密) ※完全網羅には0.0推奨

画像も含める

詳細ソース表示

🐛 デバッグモード APIレスポンスをコンソールに出力

🤖 TTS プロバイダー音声合成に使用するAIプロバイダーを選択（Geminiの方が20%安価、30種類の声優）

🎤 音声合成の声優 Telegram送信時の音声メッセージの声優を選択

🔊 音声メッセージも送信 Telegram送信時にテキストと音声の両方を送信