👨‍🏭 🧝🏽 🚏 Hadoopでビジネスアプリケーションログのインデックスを作成する方法（SolrCloud） ⏳ 🤙🏾 ⏏️

はじめに

私たちのクライアントの1つは、ほとんどの企業アプリケーションとそのデータベースからログを「どこか」に取り出すタスクを抱えていました。何年もの間、体系的な方法で分析したいです。もちろん、ログアウトは主要な目標ではなく、一連の要件に基づいて、Cloudera（CDH 5）のバージョンであるHadoopを選択しました。

要件は、特にソリューションが、指定された基準に従って（できれば高速で）イベントのリストを（ログから）検索および表示する機能を提供する必要があることを示していました。さらに、ログビューフォームがデータベースではなくHadoopを使用するように、一部のアプリケーションもやり直す必要があります。

ソリューションの1つとして、ClouderaのHadoopパッケージに含まれているSolrCloud検索モジュールを使用します。すぐに使用可能なClouderaには、アプリケーションデータベースからデータをダウンロードし、バッチで（行ごとではなく）インデックスを作成するためのツールが含まれています。ただし、この方法は機能しますが、Impalaを使用してデータをフェッチする場合よりも、チューニングに時間がかかり、予測不可能であることが判明しました。そのため、同様のタスクに直面する人々の時間を節約することを期待して、私たちがそれをどのように行ったかを共有することにしました。

この記事では、構成の詳細と、操作中に遭遇する機能について説明します。

スクリプト

OracleからHDFS上のファイルにデータをアップロードします。ファイル形式はavroです。ツール： sqoop （ http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.htm ）。
avro形式には多くの利点があります：バイナリであり、データが十分に圧縮されているため、CSVのように、キャリッジ変換やテキストフィールドにコンマを入れないでください。また、ファイル自体にスキーマがあり、スキーマ進化をサポートしています。一般に、Hadoop avroでは、異なるコンポーネント間でデータを保存および転送するための統一された形式として宣伝されており、多くのツールとコンポーネントでサポートされています。そして、私たちの仕事にはもう1つプラスがあります。詳細については以下をご覧ください。
SolrCloudで「コレクション」を作成します。ツール： solrctl （ http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/Search/Cloudera-Search-User-Guide/csug_solrctl_ref.html ）
コレクションは、SolrCloudの論理インデックスです。構成ファイルのセットに関連付けられ、1つ以上のシャードで構成され、インデックスファイルのあるフォルダーをカウントします。シャードの数が複数の場合、これは分散インデックスです。
MapReduceドライバー（ https://developer.yahoo.com/hadoop/tutorial/module4.html#driver ）を開始します。
- avroファイルからすべてのエントリを読み取ります
- モーフラインスクリプトの形式で記述されたETLプロセスを介してそれらを渡します。このプロセスの結果は、新しいデータ（指定されたHDFSディレクトリに配置されたSolr形式のインデックスファイル）を持つ断片です。
- レイアウトされたシャードをアクティブなSolrCloudのコレクションにマージします。オフライン、ライブ（ゴーライブ）に変換せずに:)
ツール： org.apache.solr.hadoop.MapReduceIndexerToolドライバーを起動するhadoopコマンド（ http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/Search/Cloudera-Search-User-Guide /csug_mapreduceindexertool.html ）このシーケンスを実行します。

メインのNameNodeからすべてを開始しますが、これは重要ではありません。

だから、ステップバイステップ...

Oracleからavroファイルにデータをダウンロードする

sqoop import --connect jdbc:oracle:thin:@oraclehost:1521/SERVICENAME \ --username ausername --password apassword --table ASCHEMA.LOG_TABLE \ --as-avrodatafile --compression-codec snappy \ -m 16 --split-by NUM_BEG \ --map-column-java NUM_BEG=Integer,DTM_BEG=String,KEY_TYPE=String,OLD_VALUE=String,NEW_VALUE=String,NUM_PARENT=Integer,\ NUM_END=Integer,EVENT=String,TRACELEVEL=String,KEY_USER=String,COMPUTER_NAME=String,PRM=String,OPERATION=Integer,\ KEY_ENTITY=String,MODULE_NAME=String \ --target-dir /user/$USER/solrindir/tmlogavro

パラメーターについて少し：

connect -Oracle上のアプリケーションのいずれかのデータベースへの接続文字列。
as-avrodatafileおよびcompression-codecは、指定された圧縮でデータがavroファイルにアップロードされることを示します。これにより、構造体のデータが平均10回圧縮されます。
-mは、テーブルからデータをアンロードするマップタスクの数を決定します。複数のタスクが並行して実行されます。各タスクは、テーブルからレコードのサブセットを取得し、個別のファイルに保存します。サブセット全体を決定するために、sqoopはselect min（<split-by>）、max（<split-by>）を取ります。
fromは結果の数値範囲を16の部分に分割し（この例では）、各タスクは結果の数値のサブ範囲をSQLクエリのフィルターとして使用して、テーブルエントリの必要なサブセットを選択します。デフォルトでは、分割はPkテーブルの最初の列として使用されます。
map-column-java -Sqoop用語で列タイプを指定します。原則として、SqoopはほとんどのOracle列タイプをダイジェストできますが、このパラメーターでプロンプトを表示するように強制される場合があります。
target-dirは、ファイルを保存するHDFSのディレクトリです。

コレクションを作成する

ここでは、solrctlユーティリティを使用して、デプロイされたSolrCloudを管理します。

まず、ローカルディスク上に、将来のコレクションのファイル構造、いわゆるコレクションインスタンスディレクトリを生成します。その中で、ローカルディスク上のコレクション設定を作成/変更し、それらをzookeeper構成サービスに複製し、そこからSolrCloudが作業に必要な設定を読み取ります。

 solrctl instancedir --generate $HOME/solr_configs_for_tm_log

ここで、パラメータは作成されるローカルディレクトリへのパスです。

デフォルトでは、ディレクトリに作成されたファイルには、データスキーマと検索手順のデモ設定が既に入力されているため、余分なものを削除する必要があります。

作成されたディレクトリでconf / schema.xmlファイルを開きます。これは、インデックス付きデータの構造を記述するメインコレクションファイルです。タグとそのコンテンツ、タグを削除します。代わりに、次を挿入します。

 <fields> <field name="num_beg" type="int" indexed="true" stored="true" multiValued="false" /> <field name="dtm_beg" type="date" indexed="true" stored="true" multiValued="false" /> <field name="key_type" type="string" indexed="true" stored="true" multiValued="false" /> <field name="old_value" type="string" indexed="true" stored="true" multiValued="false" /> <field name="new_value" type="string" indexed="true" stored="true" multiValued="false" /> <field name="num_parent" type="string" indexed="true" stored="true" multiValued="false" /> <field name="num_end" type="string" indexed="true" stored="true" multiValued="false" /> <field name="event" type="text_general" indexed="true" stored="true" multiValued="false" /> <field name="tracelevel" type="string" indexed="true" stored="true" multiValued="false" /> <field name="key_user" type="string" indexed="true" stored="true" multiValued="false" /> <field name="computer_name" type="string" indexed="true" stored="true" multiValued="false" /> <field name="prm" type="string" indexed="true" stored="true" multiValued="false" /> <field name="operation" type="string" indexed="true" stored="true" multiValued="false" /> <field name="key_entity" type="string" indexed="true" stored="true" multiValued="false" /> <field name="module_name" type="string" indexed="true" stored="true" multiValued="false" /> <field name="_version_" type="long" indexed="true" stored="true" required="true" /> <!-- catchall field, containing all other searchable text fields (implemented via copyField further on in this schema --> <field name="text" type="text_general" indexed="true" stored="false" multiValued="true"/> </fields> <!-- Field to use to determine and enforce document uniqueness. Unless this field is marked with required="false", it will be a required field --> <uniqueKey>num_beg</uniqueKey> <copyField source="event" dest="text"/>

_version_フィールドはデータソースに存在しないことに注意してください。Solrの内部目的、たとえば楽観的ロック、部分更新メカニズムに必要です。 schema.xmlでこのようなフィールドを指定するだけで十分です。Solrはそのコンテンツを管理します。

また、テキストフィールドはありません。 HUE（ClouderからHadoopへのユーザーインターフェイス）を介した全文検索のために、copyField命令とともに指定しました。作成されたコレクションを（構成UIフォームを介して）HUEに接続すると、このコレクションの検索インターフェイスで、テキストフィールドに検索文字列の値が表示されます。

今、1スクワット。実際、生成されたサンプルファイルには、検索エンジンの1つのメカニズムであるエレベーターが含まれています。 Yandexの検索結果の上部にある広告など、特定の基準に従って結果を提示できます。そのため、この例では、スキームのキーフィールドのタイプが文字列になるように設定されています（広告フレーズの例は、conf \ elevate.xmlにあります）。 intがあります。このため、インデックス作成プロセス全体が、型の不一致に関するエラーで崩壊しました。このメカニズムがタスクにとって面白くないため、作成したディレクトリでconf/solrconfig.xml

開き、タグとそのコンテンツを削除（コメント）します<searchComponent name="elevator" ...">, <requestHandler name="/elevate" ...>

。 <searchComponent name="elevator" ...">, <requestHandler name="/elevate" ...>

、作成されたディレクトリからconf\elevate.xml

を削除して、足元にハングアップしないようにします。

次に、将来のコレクションの構成全体をSolrCloudに登録（クローン）するか、ネーミングサービスZooKeeperに登録します。このサービスから、展開されたすべてのSolrCloudサーバーが構成を読み取り（更新を受け取ります）：

 solrctl instancedir --create tm_log_avro $HOME/solr_configs_for_tm_log

ここで、パラメーターは、将来のコレクションの名前、および構成ファイルを含むローカルディスク上のディレクトリへのパスです。上記で作成しました。

さて、この段階の最後のステップは、指定された数のシャードを持つコレクションを作成することです。

 solrctl collection --create tm_log_avro -s 1

このコマンドは、ZooKeeperに登録されている構成に基づいてコレクションを作成します。最初のパラメーターはコレクションの名前、2番目はシャードの数です（簡単にするために1を使用します）。

コレクションのインデックス作成プロセスの開始

最初に、ETLインデックス作成プロセスを設定します。 Clouderaは、Kite SDK、特にMorphlineの一部を尊重しています。実際、Morphlineコンポーネントは、入力データストリーム（「レコード」オブジェクトの配列として）で何をする必要があるのか（コマンドシーケンスの階層の形で）、変換方法、および転送先を記述するスクリプト言語のインタープリターです。たとえば、avroファイルを読み取るコマンドがあります。もちろん、彼らのチームはつながっています。これがトリックです。 Clouderは、着信ストリームのすべてのエントリに対してSolrインデックスを作成するコマンドを作成しました。これはスクリプトの最後になります。

プロセスの本質：

ファイル情報を持つ「レコード」オブジェクトが入力に来ます
このファイルを読み取り、このファイルの行を「レコード」オブジェクトの配列として返すコマンドが起動されます
各行のデータは、必要に応じて変換されます（たとえば、日時を持つフィールドの値は、UTCから地域時間に変換されます）
各行はSolrドキュメントに変換され、配列全体がMapReduce Mapperから返されます

このプロセスを構成するには、次の内容のファイル$HOME/solr_configs_for_tm_log_morphlines/morphlines.conf

を作成します。

 # Specify server locations in a SOLR_LOCATOR variable; used later in # variable substitutions: SOLR_LOCATOR : { # Name of solr collection collection : tm_log_avro # ZooKeeper ensemble zkHost : "hadoop-n1.custis.ru:2181,hadoop-n2.custis.ru:2181,hadoop-n3.custis.ru:2181/solr" } # Specify an array of one or more morphlines, each of which defines an ETL # transformation chain. A morphline consists of one or more potentially # nested commands. A morphline is a way to consume records such as Flume events, # HDFS files or blocks, turn them into a stream of records, and pipe the stream # of records through a set of easily configurable transformations on its way to # Solr. morphlines : [ { # Name used to identify a morphline. For example, used if there are multiple # morphlines in a morphline config file. id : morphline1 # Import all morphline commands in these java packages and their subpackages. # Other commands that may be present on the classpath are not visible to this # morphline. importCommands : ["org.kitesdk.**", "org.apache.solr.**"] commands : [ { # Parse Avro container file and emit a record for each Avro object readAvroContainer { # Optionally, require the input to match one of these MIME types: # supportedMimeTypes : [avro/binary] # Optionally, use a custom Avro schema in JSON format inline: # readerSchemaString : """<json can go here>""" # Optionally, use a custom Avro schema file in JSON format: # readerSchemaFile : /path/to/syslog.avsc } } { # Consume the output record of the previous command and pipe another # record downstream. # # extractAvroPaths is a command that uses zero or more Avro path # excodeblockssions to extract values from an Avro object. Each excodeblockssion # consists of a record output field name, which appears to the left of the # colon ':' and zero or more path steps, which appear to the right. # Each path step is separated by a '/' slash. Avro arrays are # traversed with the '[]' notation. # # The result of a path excodeblockssion is a list of objects, each of which # is added to the given record output field. # # The path language supports all Avro concepts, including nested # structures, records, arrays, maps, unions, and others, as well as a flatten # option that collects the primitives in a subtree into a flat list. In the # paths specification, entries on the left of the colon are the target Solr # field and entries on the right specify the Avro source paths. Paths are read # from the source that is named to the right of the colon and written to the # field that is named on the left. extractAvroPaths { flatten : true paths : { computer_name :/COMPUTER_NAME dtm_beg :/DTM_BEG event :/EVENT key_entity :/KEY_ENTITY key_type :/KEY_TYPE key_user :/KEY_USER module_name :/MODULE_NAME new_value :/NEW_VALUE num_beg :/NUM_BEG num_end :/NUM_END num_parent :/NUM_PARENT old_value :/OLD_VALUE operation :/OPERATION prm :/PRM tracelevel :/TRACELEVEL } } } # Consume the output record of the previous command and pipe another # record downstream. # # convert timestamp field to native Solr timestamp format # such as 2012-09-06 07:14:34 to 2012-09-06T07:14:34.000Z in UTC { convertTimestamp { field : dtm_beg inputFormats : ["yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd"] inputTimezone : Europe/Moscow outputFormat : "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'" outputTimezone : UTC } } # Consume the output record of the previous command and pipe another # record downstream. # # This command deletes record fields that are unknown to Solr # schema.xml. # # Recall that Solr throws an exception on any attempt to load a document # that contains a field that is not specified in schema.xml. { sanitizeUnknownSolrFields { # Location from which to fetch Solr schema solrLocator : ${SOLR_LOCATOR} } } # log the record at DEBUG level to SLF4J { logDebug { format : "output record: {}", args : ["@{}"] } } # load the record into a Solr server or MapReduce Reducer { loadSolr { solrLocator : ${SOLR_LOCATOR} } } ] } ]

使用されるコマンドについて少し：

readAvroContainer-これはavro形式が便利な場所です。ファイル自体には、データ構造に関するすべてのメタ情報が含まれます。これは、レコードオブジェクトのストリームを形成し、コマンドでさらに進めるために必要です。たとえば、CSVを使用した場合、各フィールドの名前、そのタイプ、長さ、ファイル内の位置をここで再度説明する必要があります。この情報は、Sqoopを介してOracleからアンロードする最初のステップで自動的に生成されます。
extractAvroPaths-各受信レコードから取得するフィールドと、送信レコードのどのフィールドに配置するかを示します。ここでは、コレクションがSolrCloudで「知っている」フィールド名を示します。それらは、最後のチームによってインデックス作成に転送されます。
convertTimestamp-着信レコードごとに呼び出され、文字列フィールドをUTC形式の日時に変換します。
loadSolr-レコードオブジェクトをSolrドキュメントに変換します。その後、これらのドキュメントの配列がMapReduce Reducerに渡され、MapReduce Reducerはインデックス作成を直接処理します。

打ち上げ

これで、すべてを実行する準備が整いました。 2つのチームを一緒に立ち上げます。

org.apache.solr.hadoop.HdfsFindToolは、実際には、Linuxのfindコマンドの一部の実装です（何らかの理由で、このようなコマンドはhdfsにまだ実装されていませんが、バグは長い間存在していました）。このコマンドの結果（リスト）は2番目に渡されます
MapReduceドライバーorg.apache.solr.hadoop.MapReduceIndexerToolと一連のパラメーター

 sudo -u hdfs hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.HdfsFindTool -find \ hdfs://$NNHOST:8020/user/$USER/solrindir/tmlogavro -type f \ -name 'part-m-000*.avro' |\ sudo -u hdfs hadoop --config /etc/hadoop/conf.cloudera.yarn \ jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.MapReduceIndexerTool \ --libjars /usr/lib/solr/contrib/mr/search-mr-1.0.0-cdh5.0.0.jar \ --log4j $HOME/solr_configs_for_tm_log_morphlines/log4j.properties \ --morphline-file $USER/solr_configs_for_tm_log_morphlines/morphlines.conf \ --output-dir hdfs://$NNHOST:8020/user/$USER/solroutdir \ --verbose --go-live --zk-host $ZKHOST \ --collection tm_log_avro \ --input-list -;

2番目のコマンドのパラメーターについて少し：

jarは、ドライバーjarへのパスです。方法-Clouderaからの標準配信
org.apache.solr.hadoop.MapReduceIndexerTool -jar'nikのドライバークラスの名前
libjars-アドオンライブラリ
log4j -log4j構成ファイルへのパス。/usr/lib/hadoop-yarn/etc/hadoopにある標準のものを使用できます。
morphline- file-上記で作成されたモーフラインスクリプトファイルへのパス
output-dir -SolrCloudサーバーにマージする前にすべてのインデックスが保存されるhdfsのディレクトリの名前
input- list-インデックス作成用のファイルのリスト。パラメーターの後のダッシュは、標準入力からリストを取得することを意味します
$ ZKHOST変数はhadoop-n1.custis.ru:2181,hadoop-n2.custis.ru:2181,hadoop-n3.custis.ru:2181/solrで構成されます

このコマンドは、MapReduceタスクを作成して実行します。

Mapタスクはファイルを取得し、Morphline ETLを介してそれを渡し、受信したログエントリをSolrドキュメントオブジェクトに変換し、次のタスクに渡します。ファイルと同じ数のタスクインスタンスがあります。
Reduceタスクは入力ドキュメントを取得し、それらをディスク上の別のディレクトリ（<output-dir>サブディレクトリ）にインデックス付けします。同じ数のインスタンスがあります
いわゆるReduce-Onlyタスクは、フォルダーからすべてのインデックスを取得し、それらをSolrCloudにマージします。コレクション内のシャードと同じ数のタスクインスタンスがあります。私たちの場合-1

いくつかの結果

MapReduceIndexerToolとSolr自体は、使用可能なRAMについて非常に不機嫌であることが判明しました。私たちの構造では、リストからファイルにインデックスを付ける各Reduceタスクは、非圧縮ファイルのサイズの約1/2の量（それ以外の場合はOutOfMemoryError）でRAM（Javaヒープサイズ）で利用できる必要がありました。したがって、sqoopを使用してファイルにアンロードするときは、たとえばmパラメーター（ファイルを作成するマッパーの数）を使用してサイズを制御します。

また、MapおよびReduceタスクで使用可能なメモリの量にもかかわらず、最後のステップの成功は、Solr Serverで使用可能なメモリの量とコレクションですでにインデックス付けされているデータのサイズに直接依存します。たとえば、構造によれば、30 GBのマージでは、1つのSolrインスタンスに割り当てられた6 GBのJavaヒープサイズで1つのシャードに十分でした。

別の機能があります-インデックスマージの使用メカニズムは、重複レコードを識別しません。インデックス化されたファイルに既にコレクションにあるレコードがある場合、それらは複製されます。したがって、インデックスを再作成するときは、毎回ファイル内の一意のレコードセットを取得するように注意してください。これは、（sqoopジョブを介して）増分データアップロード用のsqoop機能を使用して非常に簡単に配置できます。アップロードを開始する前に、フォルダから古いファイルを削除することを忘れないでください。削除しないと、再びインデックスが作成されます。

Hadoopでビジネスアプリケーションログのインデックスを作成する方法（SolrCloud）