はじめに
バイオインフォマティクスについて考えるとき、通常、ある種の複雑なDNA配列、タンパク質の折りたたみ、最悪の場合はウイルスの拡散のモデリングを想像します。
この記事では、わずかに異なるトピックについて説明します。これは、マシンビジョンとドキュメント分析、または高度な科学よりも応用された自動化にはるかに近いものです。 しかし実際には、このトピックは非常に興味深い生態学的なニッチに存在するという理由だけで、重要かつ関連しています。
KDPV:
誰が興味-猫をお願いします。
TL; DR:
手描きのカードの認識のためのプロジェクトのプレゼンテーション。
プロジェクトにはウェブサイトがあります: biorec.sourceforge.net
コードはSVNに投稿されています: sourceforge.net/p/biorec/code/HEAD/tree
/ TL; DR;
この物語にはいくつかの「ルーツ」がありますが、読者の頭の中でより完全な画像を作成するために、ジャングルに深く入り込むことなく簡単に説明します。
手始めに、鳥類学とは何ですか? 鳥類学は生態学の一分野であり、鳥の行動、その行動、およびこの複雑な世界での生存戦略の選択に関する科学です。
生態学の主な基本的課題は、なぜ他の種ではなくそのような種を持っているのかを見つけることです。 私たちの生活では、ある種が生き残ることができる奇妙な多次元空間にどのようなエネルギーの極小が存在しますか(たとえば、飼いならされた牛は順調に順応しており、いつか死ぬことはほとんどありません)、そしていくつかは死にます(たとえば、マンモス)。
鳥類学は、鳥に適用されるこの問題を解決します。
確かに、鳥類学者に何をするのかと尋ねられた読者の多くは、「彼らは鳥に輪を掛けて、彼らが飛び去る場所を見てください」と言います。
実際、これは鳥類学者が使用する方法の1つです。 特に、たとえば、おかげで、渡り鳥が私たちの広大であるが非常に小さい地球の一方の端からもう一方の端に移動するルートを確立することができます。
写真:
上の写真から、ロシアはある意味で幸運だったことがわかります。なぜなら、他のルートとは異なり、多くの異なる交差点がロシアの領土にあることが判明したからです。
実際、世界有数の鳥類研究所の1つであるエニセイ生物ステーション、IPEE RAS「ミルノエ」は、地域の交差点にあります。
データ収集
ただし、この記事では、鳥の研究で使用される別の方法に注意を喚起したいと思います。
顕微鏡が異なる解像度を持つことができるように、原子間力顕微鏡を使用してファジーフォントを調べようとしても意味がないと言えます。 上記の呼び出し方法には、通常、数千キロメートルの範囲があります。 私が話したいのと同じ方法は、ほんの数十メートルです。
この方法は、Common Bird Censusと呼ばれます。
彼の考えは、「毎日」特別に訓練された人々が、その外観によって鳥の外観を判断し、テストサイトに行き、メモ帳で気付いたさまざまな鳥に印を付けるというものです。
専門家によってマークされたマーカーの形式は、次のスライドで見ることができます。
地上で収集されるデータの一部は次のとおりです。
ああ、ロボットがこの仕事をすることができたらどんなに素晴らしいことでしょう! 彼のロボットの各セクションで実行することが可能であり、それはすべての木を飛び回り、彼が見たすべてを報告します。
しかし、残念ながら、この技術はまだこの点に達していません(おそらく、近い将来に実現するでしょう)。
一方、観察には、鳥の行動、外観、音のプロファイル、社会的スキルに関する膨大な量の情報を吸収する必要がある特別に訓練された人々が必要です。 さらに、残念なことに、この情報は通常の人間の生活にはあまり適用されません。 一方、森林を開かれた本として読む能力を過大評価することは困難です。 これだけでも、人を鳥類学者に行くことができます。
そしてさらに印象的なのは、この方法が発明されたイギリスの領土全体(1962年)が、この方法で正確に不要であると認められた2000年まで、38年もの間、毎年このように観察された正方形で覆われているという事実です。
bto.org.uk
ちなみに、この方法はJデニスサマースミスによって発明されました。Jデニスサマースミスは、一般的に素晴らしい人です。 Wikiからの彼に関する記事を英語で翻訳するには?
ただし、熱心な読者は、現在利用可能な技術を適用できる別の場所を教えてくれます。
さて、データを自動的に収集することは不可能にしましょう。 しかし、少なくともそれらを何らかの便利な形式で保存することは可能でしょうか?
悲しいかな、この質問に対する答えはノーです。 残念ながら、観測に最も便利な場所では、電気、水、汚れの保護、寒さと「大きな土地」との接続不良に大きな問題があります。 それらの問題がある同じ場所で、標準化された機器(Linux / Windows上のある種の工業グレードのタブレットとして想像できる)を生産するタスクが生じます。
私たちが持っているものは、あなたが尋ねます!
そして、ここに何があります:
ここで、データを含む画像をもう一度表示します。
画像には、文字と数字で列と行に描かれたマップの断片があります(前のスライドの「データ形式」に注意してください)。
これは見苦しいものと同じですが、非常に高価で重要な現実です。
ここでは、鳥が点から点へと移動し、戦い、結婚し、子孫を世話しているのを見ることができます。
そのような各シートは、何時間ものハードフィールド作業であり、最終的には世界で最も難しい質問への答えを与えるはずです。 病気にならず、子孫を生み、成長し、最高の歌を歌い、その中で自分自身を実現するような方法で生きる方法。
一部の鳥は大きく、他の鳥は小さいのはなぜですか? 範囲が広いのに、範囲が狭いのはなぜですか? なぜいくつかの鳥には多くの子供がいますが、他の鳥には少ないのですか
データ分析
OK、お願いします。 ただし、データが何らかの方法で収集された場合(アナログ方式ではありますが)。 それらが何らかの形で(紙の上に)保管されている場合。
しかし、あなたと私はデータ科学者です。 さて、このデータはどういうわけか処理する必要がありますか?
そして、この質問には答えがありますが、それは私たちが望むほど楽しいことではありません。
最も明らかな前処理タスクは、シートのデータを複数のレイヤーに分割することです。各レイヤーに対応するビューは1つだけです。 異なる種の鳥を同じセットのサンプルとして一緒に研究し、適応戦略に従って他の種と比較することが望ましいため、これは論理的で意味のある作業です。
そして、この問題は解決されています。 結果は次のとおりです。
しかし、あなたは、なんと思われますか。 このようなデリケートな領域のほとんどの技術プロセスと同様に、同様に解決されます。
その結果、このようなマップを1つでも作成するのに時間がかかり、(上記で既に説明したように)少なくともロシアの共通鳥類調査の埋立地は種の多様性の点で非常に成功したポイントであり、200種類すべてのマップを作成します種は非常に時間がかかる作業です。
ただし、マップ上には、毎日の断片には表示されない別の要素があります。鉛筆の円です。
そして、彼らは何ですか?
そして、それらはまさに種であり、種の行動を理解するためのまさにアルファとオメガへの小さな一歩です。 それらは個々の領域です。 私有財産の出現と言えます。 これらは、鳥が「自分自身」であると考える領域であり、その上で最もひどい結果にさえ、積極的に餌を与え、巣を作り、防御する準備ができています。
しかし、彼らはどのように描かれていますか?
ここで別の重要な科学的疑問が生じます。 この質問には2つの答えがあるからです。
1つは、例えば、英国鳥類トラストのCBCガイド(この方法の発明者)に引用されています。
www.bto.org/sites/default/files/u31/downloads/details/CBC-instructions-g100.pdf
別の、たとえば純粋に機械的な、Philip Northの記事
www.jstor.org/stable/2347022?seq=1#page_scan_tab_contents
どちらが良いですか?
非常に興味深い質問です。 BTOマニュアルには、一貫した結果を確保するために、同じ専門家グループが長年にわたってメソッドを適用する必要があると書かれています。 言い換えれば、彼らは「私たちは人を訓練することができますが、自然の法則を策定するために-いいえ」と言います。 IPEE RASも同じことを行います。
ノースの方法はどれほど良いですか? いい質問です! 誰がやりたいですか? 私はあなたに弱いことに挑戦します!
原則として、明白なアプローチはポイントをクラスター化することです。そして、例えば、凸包をわずかに超えてクラスターを一周します。 しかし、それらをクラスター化する方法は? いくつかのクラスターは、内部に固体の空隙サイズがあることがわかります。 そして、どの程度の境界の滑らかさを観察する必要がありますか?
自動化の始まり
あなたの謙虚な使用人が若くて大胆で、マシンビジョンに対処したとき、彼は馬の白い騎士として自分自身を紹介し、そのような強力な仕事は挑戦に値すると判断しました。
マシンビジョン方式を使用して問題を解決し始め、列と行の文字と数字をつかんで認識しようとしました。 この場合、私はCognitive Technologiesの工業用エンジン(!)を手書き認識に使用することに同意しました。
この作業の痕跡を次に示します。
たとえば、画像全体を1つの軸に投影すると、エッジを比較的簡単にトリミングできます。
侵食と膨張を組み合わせることにより、背景とグリッドを差し引くことができます。
ハフ変換を使用すると、画像の回転角度を決定して修正できます。
1つの軸に同じ画像を投影すると、個々の文字をフックできます。
そして最後に、スニペットでそれらすべてを見つけてください:
そして、認識エンジンにフィードします。
残念ながら、私はこのようないくつかの数字で作業する必要がありました:
結果が印象的ではなかったため、この作業の結果はまだ公開されていません-認識精度は66%です。 仕事はまだ完了できましたが、卒業証書の時間の終わりまでに、私は良い手動のマークアップなしでは何もすることがないことに気づきました。その時までに、私は画像内の50種類以上の可能なジャムのリストをコンパイルしていました。キャッチします。
そして、趣味で大学を卒業してから、暇なときに趣味として手動のアノテーター-アノテーターを作成することを引き受け、最終的にはこの記事を書くようになりました。
次のスライドでは、このマークアップのインターフェイス要素を確認できます。
プロジェクトマネージャー:
位置付けとは、文字と数字をマークすることを意味します。
しかし、一般的に言えば、私はもっとやった-起こるすべてのマーカーのマークアップを作りました。
マークアップは、予想よりも有意義であることが判明しました。 ちょうどある時点で、タブレットで実行するだけで、紙のステージをバイパスして、直接データを収集できることに気付きました。
その結果、ビュー画像の代わりに
フォームの画像を取得できます。
また、領土をマークします。 もちろん、手動で。
1年を手動でマークすると、マシンビジョンを掘り下げるだけでなく、意味のある分析(テリトリーの計算など)を行うことができるという事実は言うまでもなく、すでに定期的な自動化テストを実行できます。
結果
ある種の陽気な結末でこの記事を終わらせることになるでしょう...しかし、悲しいかな、そうではありません。
IPEE RASは、25年分の収集データを紙でランク付けしています。
英国のBTOで利用可能なデータの量は計算できないようです。 _All_英国の38年間。
一方、残念ながら、私はプロジェクトの作業を手伝ってくれた人たちと口論をし、一般的にはこの地域に興味を持ちなくなりました。
したがって、私はプロジェクトを私から継承し、その論理的結論に至らせたいヒーローを本当に見つけたいです。 栄光と闘争があなたを待っており、仕事は人類にとってかけがえのないものになります。
スクライブはプロジェクトでほぼ準備ができており、IPEEでの1年間の観察の約半分がマークされています。 (つまり、データをクリーニングする基本的な作業は完了しています。)
Common Birds Census処理プロジェクトはBioRecと呼ばれ、MATLAB 2015bで作成されました。
このプロジェクトには意味のあるデータモデルがあり、「Visit Maps」と「Species Maps」の両方で作業する準備ができています。
プロジェクトにはウェブサイトがあります: biorec.sourceforge.net
コードはSVNに投稿されています: sourceforge.net/p/biorec/code/HEAD/tree
このプロジェクトには、大人のように、メーリングリスト、バグトラッカーがあります。
データの一部が自動的に認識されるように、わずかに完了できるアルゴリズムがあります。 マシンビジョンのファン-既にマークアップされたデータによると、マーカー検出器を作成し、後半をさらに自動化することができます。
地理空間分析のファン-ボロノイ図に基づいて、BTOアルゴリズムの形式化、Northアルゴリズムの実装、または独自の記述を試みることができます。
その後、アルゴリズムで割り当てられたテリトリーをエキスパートのテリトリーと比較できます。
エリアのマップにテリトリーをオーバーレイして、テリトリーのサイズと風景の関係などを確認できます。
一般的に、高貴な戦士、血と栄光を渇望-これはあなたのチャンスです。
lockywolf@gmail.com、またはskype 'lockywolf'にメールしてください。
フォーク、パッチ、あいまいなコードの説明との会話-すべてあなたのサービスで。