RAGのファイルの規格について
取り扱いファイル形式
現在、Maison AIではRAGにおいて下記のファイル形式を保守対象としています。
拡張子 | 特徴 |
実務で最頻出(要件定義書・契約・提案)。固定レイアウトで版管理もされやすい。OCR+レイアウト補正で安定抽出可。
|
|
.docx |
社内文章の主力。構造(見出し/表/脚注)を維持したテキスト抽出が安定。旧.docより安全で再現性高。
|
.pptx |
企画/共有資料の主力。スライド本文・ノート欄・図形テキストを抽出しやすい。
|
.txt |
汎用のメモ/出力ログ/FAQ原稿などの基礎。前処理コストほぼゼロ、検索安定。
|
.html |
社内ポータル/公開仕様の静的コピー対応。タグ除去・可読ブロック抽出で質の高いコンテンツ化が可能。
|
.json |
API定義・設定ファイル・辞書/用語集の格納に有用。特定キー抽出で質問回答の精度が上がる。
|
RAGで扱えるファイル数とデータ上限
- 1つの AI エージェントにつき、1000ファイルまで
- 1つ当たり 200MB以内を推奨