- データ分析担当者や研究者
- マーケティング担当者で大量データを扱う方
- データベース管理者やエンジニア
*OpenRefineを用いて混乱したデータの重複削除や別表現の統一を自動化したい。
*大規模データセットのデータ品質を視覚的に把握し、修正したデータを報告資料としてまとめたい。
ChatGPTに入力するプロンプト例:
"OpenRefineを使って重複データを検出し削除し、異なる表記のデータをグループ化する効率的な手順を教えてください。データ品質を向上させる具体的な操作方法も説明してください。"
プロンプト例の想定出力:
- OpenRefineのデータインポート方法から始めます。
- 重複レコードは、ユニークキーでソートして視認性を高め、検出と削除を行います。
- 複数の表記を持つ値はファセット機能でグルーピングし、一括変換や正規化を実施します。
- データ全体の分布を解析し、異常値や欠損を特定して補正する方法を説明。
- 操作履歴を保存・元に戻しながら安全に作業できる点も強調します。