VLDBの資料、データベースの未来に関する会議

VLDB Conference(非常に大規模なデータベース、 www.vldb.org )は、その名が示すとおり、データベース専用です。 非常に大きなデータベース。 彼女の名前が言っていないのは、非常に深刻な人々が定期的にそこに現れるということです。 Michael Stonebraker(Vertica、VoltDB、PostgreSQL、SciDBの作成者)がほぼ毎年報告する多くのカンファレンスを知っていますか? そのような人々が現在取り組んでいることを知るのは良いとは思わなかったので、数年後には、新しい拠点が市場を引き裂き、ひじをかみません。







VLDBは、将来について考えている場合に出席する必要があるまさにその会議です。

既存のデータベースから選択する場合、あまり役に立ちません。 産業レポート(Microsoft、Oracle、Teradata、SAP Hana、Exadata、Tableau(!))の一部はありますが、最も興味深いのは大学からの研究レポートです。 大学のチームには、Google、Facebook、Alibabaで働いているか、記事を送信した直後にそこに転勤した人が1人か2人いることがすぐにわかります。







基本的な方法で何とか興味を持っていただけたらと思います。実際にレポートを見ていきましょう。













232のすべてのレポートを説明するつもりはありませんが、主要なグループを強調し、各グループのいくつかの傑出した代表者を紹介しようとします。







1.未来の拠点



まもなく、安価な不揮発性メモリ(RAM +ハードドライブの組み合わせ)ができます。 RAM、コア、ビデオカードは急速に安くなっています。 この技術の素晴らしさをすべて享受するための未来の基盤は何でしょうか? どのような新しい問題が発生していますか?







1.1数千のコアでの分散結合アルゴリズム



名前は明確です。これは、数千のコアを持つシステムでの分散結合アルゴリズムの動作に関する研究です。







1.2異種コンピューティングリソースでのクエリ処理のための適応型作業配置



異種クラスター全体でのタスクの分散。







1.3不揮発性メモリのSAP HANA採用



不揮発性メモリを使用した最初の実験。







2.分散(クラスター)データベースのトランザクション



1台のサーバーで簡単に実行できます。 ベースをクラスターにデプロイする必要がある場合はどうなりますか? マイクロサービスアーキテクチャに従って、突然1つのベースを数十の小さなベースに分割する必要がありますか? トランザクションはどうですか?







2.1分散同時実行制御の評価



ストーンブレーカーの記事。 シンプルで正直-データベースをゼロから作成して作成し、OLTPシステム用の半ダースの分散トランザクションアルゴリズムと比較しました。 PRと広告なし:さまざまなシナリオに対応した、正直なグラフィックスと漸近線。







2.2神話の終わり:分散トランザクションは拡張可能



分散トランザクションのパフォーマンスをスケーリングする機能に関する非常に楽観的な主張。







3.ストレージの代替



ファッショナブルなアプローチは、現在、古いデータベースのストレージインフラストラクチャを交換し、そこに何かを置くことです。 たとえば、メモリ内のキーと値のストレージ。 または、例えば、2つの並行リポジトリー-小文字と円柱状。 または、異なる物理マシン上の6つのストレージ...







3.1 Key-Valueストアでの高速スキャン



キーと値に基づいてOLAPタスクを解決するために必要なこと。







3.2 PaxosStore:WeChatで実用化された高可用性ストレージ



TenCent(WeChat)データベースの配置方法に関する記事。 8億人のアクティブユーザー-高負荷について説明します。







3.3 OLTP / OLAP混合ワークロードをスケールアウトするためのSAP HANAのフォーマットにわたる並列レプリケーション



OLTP + OLAPは1つのベースにロードします。







4.クエリの最適化



私が理解しているように、現在の主な傾向は、分散システムでのクエリの最適化です。 理想的には、オンザフライで、データ受信の過程で直接計画の調整/再構築を行います。







4.1並列データ管理システムでの結合場所のランタイム最適化



4.2 SquirrelJoin:レイジーパーティショニングによるネットワーク対応の分散結合処理



クラスター上の要求を考慮し、クラスターに並列タスクがロードされ、不均一になります。 個々のノードの動作が明らかに他のノードより遅くなった場合はどうすればよいですか? 答えは記事にあります。







5.データの視覚化と分析



5.1できるだけ早く:時系列平滑化による注意の優先順位付け



グラフィックスを滑らかにし、ノイズを除去し、異常を残す方法。







5.2 zenvisageによる楽なデータ探索:表現力豊かでインタラクティブな視覚分析システム



非常に好奇心が強いインタラクティブなツール。







6.ヒューマンマシンインターフェース:)



6.1データの発声:リレーショナルデータの音声出力の最適化



「データの発声」は非常に素晴らしいように聞こえますが、本質は簡単です。クエリサンプルを限られた単語セットに圧縮して、Siriを聴き、電話を壊さないようにする方法です。







6.2自然言語クエリの出所



<Best VLDB 2017 article>。 はい、正確に。 自然言語でデータクエリを記述する方法について。 より正確には、自然言語の質問をデータクエリに変換し、結果を人間の言語に戻す方法。







最後に



実際、それだけです。 それは少しのように思えます:私はあなたのためにここで14の記事だけを集めました。 しかし、私はどれだけの人が実際に最後まで読んでいるかを知りたいと思っています。 あなたがそれを取るなら、それがどれくらいかかったかコメントに書いてください。 勇敢な人のために、リンクには残りの218の記事が含まれていますhttp : //confer.csail.mit.edu/vldb2017/papers 。 そして、これは会議主催者のレポートからの写真です。













PS。 VLDB 2017はミュンヘンで開催されました。参加者には小さなオクトーバーフェストがありました(良い:))。 次のVLDBはブラジルにあります! 私は報告書に沿って行こうとします(2015年にはできませんでした)。








All Articles