Apache からヘッダ付き CSV ファイルを作る

ページ名:Apache からヘッダ付き CSV ファイルを作る

Apache Hadoopを使用している方は、大量のデータを保存・処理するための強力なツールであることをご存知でしょう。データテーブルからCSVファイルを作成することは、必要な重要情報を使用可能な形式に引き出すための1つの方法ですが、Hiveからファイルをエクスポートすると、書式の違いによりヘッダーがないままになることがよくあります。このWikiHowでは、HiveとBeelineコマンドラインインターフェイスを使用して、CSVにエクスポートするときに列ヘッダーを維持する方法を紹介します。

  • 1
    ソフトウェアとサーバーを更新します。しばらく更新していない場合、非推奨バージョンのHiveServerを実行している可能性があります。Beelineという独自のCLI(コマンドラインインターフェイス)は、オリジナルのHive CLIに取って代わり、データへのアクセスをより柔軟にします。また、次のものも必要です:
    • Java 1.7以降
  • 2
    HiveServer2 を実行します。コンピュータの端末で $HIVE_HOME/bin/hiveserver2 と入力します。
    • HIVE_HOME は、 Hive が格納 さ れてい る デ ィ レ ク ト リ です。
  • 3
    Beeline を実行 し ます。ターミナルで $HIVE_HOME/bin/beeline -u connect jdbc:hive2://LOCALHOST:PORT USERNAME PASSWORD と入力します。
    • LOCALHOST は HiveServer2 を起動した IP アドレスです。
    • PORT のデフォルトは 10000 です。
    • USERNAME と PASSWORD は、 Hive をセ ッ ト ア ッ プす る 際に使用 し た認証情報です。
  • 4
    ターミナルに SHOW DATABASES と入力します。こ れに よ り 、 現在のデー タ ベース と その フ ァ イ ル名の一覧が表示 さ れます。
  • 5
    ファイルをエクスポートします。エクスポートするデータベース名を DATABASE で表し、次のコード行を入力します。これにより、ヘッダーを含むCSV形式のファイルがHIVE_HOMEフォルダに作成されます!
    $HIVE_HOME/bin/beeline -u jdbc:hive2://localhost:10000 -n USERNAME -p PASSWORD --outputformat=csv2 -e "SELECT * FROM FILENAME." > export.csv
  • この記事は、CC BY-NC-SAで公開された「 Creating a CSV File With Headers from Your Apache Hive Data」を改変して作成しました。特に断りのない限り、CC BY-NC-SAの下で利用可能です。

    シェアボタン: このページをSNSに投稿するのに便利です。

    コメント

    返信元返信をやめる

    ※ 悪質なユーザーの書き込みは制限します。

    最新を表示する

    NG表示方式

    NGID一覧