Skip to content

RAGのファイルの規格について

取り扱いファイル形式

現在、Maison AIではRAGにおいて下記のファイル形式を保守対象としています。

拡張子 特徴
.pdf
実務で最頻出(要件定義書・契約・提案)。固定レイアウトで版管理もされやすい。OCR+レイアウト補正で安定抽出可。
.docx
社内文章の主力。構造(見出し/表/脚注)を維持したテキスト抽出が安定。旧.docより安全で再現性高。
.pptx
企画/共有資料の主力。スライド本文・ノート欄・図形テキストを抽出しやすい。
.txt
汎用のメモ/出力ログ/FAQ原稿などの基礎。前処理コストほぼゼロ、検索安定。
.html
社内ポータル/公開仕様の静的コピー対応。タグ除去・可読ブロック抽出で質の高いコンテンツ化が可能。
.json
API定義・設定ファイル・辞書/用語集の格納に有用。特定キー抽出で質問回答の精度が上がる。

 

RAGで扱えるファイル数とデータ上限

  • 1つの AI エージェントにつき、1000ファイルまで
  • 1つ当たり 200MB以内を推奨

 

 

Maison AIは、創造性を追求する企業を支える生成AIプラットフォームです。高度な生成AI技術を通じて、企業が持つアイデアやクリエイティビティを引き出し、より革新的で価値ある表現や製品を生み出すためのパートナーとなります。