ExcelでPDFのデータを取得する全テクニック
― 旧式Word変換からパワークエリまで ―
この記事の内容
💡 なぜPDFからExcelへの取り込みが必要なのか
取引先から届く請求書、官公庁が公開する統計データ、社内システムから出力されるレポート ― これらの多くはPDF形式で提供されます。PDF内の表データを手作業で転記するのは時間がかかるだけでなく、入力ミスの温床にもなります。PDFの表をExcelに正確に取り込む技術を持っていれば、月次の集計作業やデータ分析の前処理が劇的に効率化されます。
しかしPDFは「印刷物の見た目を再現する」ためのフォーマットであり、内部にセル構造やデータ型の情報を持ちません。そのため取り込みには「PDFの文字列情報を解析して表の構造を推定する」というステップが必要で、完璧な変換は保証されません。この前提を理解した上で、現在使える2つの主要な方法を解説します。
【2】2つのアプローチ ― 全体像
方法① Word経由で変換(旧式)
Excel 2013〜 / Word 2013〜
→ Word変換の詳細手順を見る
PDFをWordで開いて表に変換し、それをコピーしてExcelに貼り付ける方法です。Word 2013以降で搭載されたPDF読み込み機能を利用します。
PDF
→
Word
→
Excel
手軽に試せる反面、表の構造が崩れやすく、ページをまたぐ表の結合が手作業になるデメリットがあります。
方法② パワークエリで取り込み(推奨)
Excel 2019〜 / Microsoft 365
→ パワークエリ基本編を見る
Excelの「データの取得」からPDFファイルを直接指定し、パワークエリエディターで表構造を整形する方法です。Excel 2019以降で標準搭載されています。
PDF
→
パワークエリ
→
Excel
複数テーブルの選択取得、自動更新、変換ステップの記録・再利用ができます。
【3】PDFデータ取得の進化タイムライン
〜2012年以前
PDF→Excelの標準的な手段はなし。Adobe AcrobatのOCR・エクスポート機能、サードパーティの変換ツール、または手入力に頼るしかなかった。
2013年 ― Word 2013 リリース
WordにPDF読み込み(PDF Reflow)機能が搭載。PDFをWordで開くと、テキスト・表・画像をWord文書として再構成できるようになった。ここから「Word経由でExcelに取り込む」旧式フローが定着。
2016年 ― Excel 2016 / パワークエリ統合開始
パワークエリ(旧名 Power Query)がExcelに標準統合された。ただしこの時点ではPDFコネクタは未搭載で、CSV・Web・データベースが主な取得先だった。
2019年 ― Excel 2019 / Microsoft 365
パワークエリにPDFコネクタが追加。「データ」→「データの取得」→「ファイルから」→「PDFから」でPDFの表を直接取り込めるようになった。Word経由が不要に。
2020〜2022年 ― パワークエリの改良
PDFコネクタのテーブル検出精度が向上。ページとテーブルの選択UIが改善され、複数ページにまたがる表の自動結合もより正確に。M言語による細かな制御も充実。
2023〜2025年 ― 最新の進化
Microsoft 365ではAIアシスト機能(Copilot連携)やPDFコネクタのさらなる改善が報告されている。複雑なレイアウトのPDFや日本語の帳票への対応精度が継続的に向上中。
【4】方法比較:Word変換 vs パワークエリ
| ① Word経由で変換(旧式) | ② パワークエリ(推奨) | |
|---|---|---|
| 対応バージョン | Excel 2013〜(Word 2013〜も必要) | Excel 2019〜 / Microsoft 365 |
| 操作ステップ数 | 多い(PDF→Word→コピー→Excel→整形) | 少ない(PDF→パワークエリ→Excel) |
| 表の構造精度 | 中〜低(セル結合ズレが起きやすい) | 中〜高(テーブル検出が優秀) |
| 複数ページの表 | 手動で結合が必要 | 自動で結合可能 |
| 再利用・自動更新 | 不可(毎回手作業) | 可(クエリを保存、更新ボタン一発) |
| 複数テーブルの選択取得 | 困難(目視でコピー範囲を変える) | ナビゲーターで選択可能 |
| 変換ステップの記録 | なし | M言語で自動記録・編集可能 |
| 必要なスキル | Word・Excelの基本操作 | パワークエリの基本操作 |
| 画像PDF(スキャンPDF) | 対応不可 | 対応不可(OCRが別途必要) |
【5】どちらを使うべきか? ― 判断チャート
| 質問 | はい | いいえ |
|---|---|---|
| Excel 2019 以降 / Microsoft 365 を使っている? | → パワークエリを使う | → 次の質問へ |
| Excel 2016 を使っていて、パワークエリアドインを入れられる? | → アドイン導入後パワークエリを使う | → 次の質問へ |
| Word 2013 以降がインストールされている? | → Word変換を使う | → サードパーティツールを検討 |
結論
Excel 2019以降を使える環境なら、迷わずパワークエリを選んでください。Word変換は古い環境でのフォールバック手段として知っておく価値がありますが、作業効率・精度ともにパワークエリが大きく上回ります。
Excel 2019以降を使える環境なら、迷わずパワークエリを選んでください。Word変換は古い環境でのフォールバック手段として知っておく価値がありますが、作業効率・精度ともにパワークエリが大きく上回ります。
【6】PDFの種類と取り込みの成否
PDFには大きく2種類あり、取り込みの成否に直結します。
| テキストPDF(デジタル生成) | 画像PDF(スキャン生成) | |
|---|---|---|
| 作り方 | Word・Excel・業務システムから「PDF保存」で生成 | 紙の書類をスキャナーで読み取り |
| PDF内部の文字 | テキストデータとして保持 | 画像の中にあり、文字として認識されない |
| Word変換 | 可能(精度は中程度) | 不可(文字が取得できない) |
| パワークエリ | 可能(精度は高い) | 不可(テキスト情報がない) |
| 対処法 | そのまま取り込み可能 | Adobe Acrobat等でOCR処理後に取り込む |
テキストPDFか画像PDFかの確認方法
PDFをAdobe Readerで開き、Ctrl+A(全選択)を実行してください。テキストが青くハイライトされればテキストPDF、何も選択されなければ画像PDFです。画像PDFの場合はWord・パワークエリのどちらも直接取り込みはできません。
PDFをAdobe Readerで開き、Ctrl+A(全選択)を実行してください。テキストが青くハイライトされればテキストPDF、何も選択されなければ画像PDFです。画像PDFの場合はWord・パワークエリのどちらも直接取り込みはできません。
【7】各詳細記事へのリンク
パワークエリの基本操作は → GUIマスターシリーズ①〜⑥
応用操作は → 応用編⑦〜⑪