ママヌル数。 Yandexでのむンタヌンシップでの人工知胜の枬定方法

2015幎倏 セッションは正垞に終了したした。 普通の人はたぶん蚀うでしょう「あら 自由 私は䞀日䞭サッカヌをしお、トルコたで海に飛びたす。」 しかし、探究心のある本物の研究者ではありたせん。 いずれにせよ、自分のプロゞェクトに取り組むこずにしたした...しかし、時間は非生産的なものでした。 そしお、明るい考えが浮かびたした。Yandexでむンタヌンシップに参加しおみたせんか 確かに圌らには興味深い研究課題がたくさんありたす。たた、これは、孊ぶべき倚くの分野の倚くの専門家がいる巚倧な䌚瀟で働く貎重な経隓です。 Yandexでむンタヌンシップを取埗する方法、そこで䜕ができるか、あずで䜕が埅っおいるかを今日共有したいず思いたす。



最初に、あなた自身に぀いおのいく぀かの蚀葉。 私の名前は21歳のムアンマルです。珟圚、モスクワ州立倧孊の力孊数孊郚の5幎生です。 たた、ShADの卒業生であり、ShADの自然蚀語凊理セミナヌのリヌダヌであり、Yandexスピヌチテクノロゞヌチヌムの若手開発者でもありたす。 私は超倩才ではありたせんが、仕事が奜きで、知っおいたす。 おそらく自分自身を称賛するのに十分な、むンタヌンシップに぀いお話したしょう。 誰も気にしない-キャットぞようこそ



チヌム遞択プロセス



だから、倏にYandexで働くこずにしたした。 考え盎すこずなく、孊生プログラムの孊芞員であるナリア・クリボバに、難しい仕事をしたいず蚀ったが、 NLPに興味があるこずを忘れずに曞いた。 「奇跡のフィヌルド」ではどうですか この機䌚を利甚しお、私は母に、ゞュリアに本圓に感謝しおいるこずを䌝えたいず思いたす 。圌女は最終的に私が奜きなチヌムを遞ぶこずに倚倧な努力をしたした。 䞀般的に、私のストヌリヌでチヌムを芋぀けるプロセスは特別な泚意に倀したす。 さらに、Yandexでのこれらの「恐ろしい」むンタビュヌを求めないこずず、その準備の仕方に誰もが垞に興味を持っおいたす。



最初は、機械翻蚳チヌムに興味がありたした。 圌らはむンタヌンシップを持っおいたせんでしたが、それでも圌らは私ず話をするこずにしたした。 心ず心の䌚話が想定されおいるこずを陀いお、すべおが完璧でしたが、最終的にはすべおが技術面接になりたした。 道埳的に、私はこれの準備ができおいたせんでした。その結果、私はひどく愚かで、すべおを千の手がかりで解決したした。 圌は圌の取るに足りないこずに぀いおの考えの山を残したした。 数日埌、ゞュリアは䞀般的に私が奜きだず蚀ったので、むンタヌンシップを埅぀必芁がありたす。



しばらくしお、私のShAD情報怜玢教垫の1人であるSasha Bolkhovityanovが私に぀いお蚪問したしたが、圌らには重耇怜玢チヌムのゞュニア開発者の地䜍に人が必芁でした。 1週間埌、私は3぀の連続した察面むンタビュヌに招埅されたしたアルゎリズム、蚭蚈、およびC ++。 私はアルゎリズムずデヌタ構造を完党に知っおいたしたが、䞀般的に、圌らは超自然的なこずを求めたせんでした。 「分散型フォヌルトトレラントシステムを構築する方法」や「このシステムにどうすれば...」などの質問を蚭蚈する際に、工倫が圹立ちたした。 しかし、C ++では深刻な問題がありたした。 プログラムの曞き方、特定のコヌド行が䜕をするのかは理解しおいたしたが、それでも、これらすべおがメモリのより深いレベルにどのように配眮されおいるのかはあたり分かりたせんでした。 私は人懐っこい人なので、どうにかしおこの倧惚事を薄めるために、心から誰かず話をしたした。 私は前向きな印象を䞎えたしたが、圌らが提案したタスクは個人的に私を刺激したせんでした。 そしお、私は明確に決めたした少額の絊䞎の方が良いのですが、ゞュニア開発者ずしお重耇を探すのではなく、個人的に興味のある機械翻蚳タスクに行きたしょう。



時間が経ちたしたが、䜕らかの理由で他のすべおが静止しおいたした...しかし、長くは続きたせんでした 正確な時期は芚えおいたせんが、矎しさのために、朝の3時にゞュリアからの手玙が私のメヌルに届くず想像しおみたしょう。音声むンタヌフェむスを開発するチヌムが埓業員を探しおいたす。 「はい、それは玔粋なNLPです」ず私の頭から光りたした。 テキストから情報を抜出し、名前付き゚ンティティを定矩し、ボットをチャットしたす-䞀般的に、私はそれらに到達するために本圓に燃えたした。 最初に、圌らはPythonのSkypeむンタビュヌをアレンゞし、同時にBashの私の知識を明らかにしたした。 最初に私がよく考えた堎合、これはBashずは䜕ですか-私は知りたせんでした むンタビュヌの埌、圌らはすばらしい宿題をくれたした。たずえば、「゚ッフェル塔ずは䜕か」ずいう人間の芁求に応じお、最も適切なりィキペディアの蚘事を芋぀けるだろう察話゚ヌゞェントを曞くこずです。 それでも私はしっかりずやったように思えたすが、そのリヌダヌは、チヌムがただベビヌシッタヌずすべおを孊ぶ必芁のあるむンタヌンではなく、既補の開発者を必芁ずしおいるず蚀ったのです。



音声認識ずいうコマンドが1぀だけ残っおいたした。 正盎に蚀うず、私はこの分野に぀いお䜕も知りたせんでしたし、NLPがどこにあるのかも挠然ず想像しおいたした。 私の珟圚のリヌダヌであるむリダ・むリア・゚ドレンキンは、私が圌らを望んでいるこずを保蚌し、さらに圌らがしおいた仕事は私には非垞に難しいように思えたした。 䞀番䞋の行では、さらに2぀のむンタビュヌが埅っおいたした。1぀目は、通垞の知識に加えお倚くの工倫が必芁な高床なアルゎリズムに぀いお、2぀目は機械孊習に぀いおです。 私はそれらを玠晎らしくではなく、きちんず枡したした。 わずか1、2日埌、ゞュリアから、私をチヌムに連れお行く準備ができおいるずいう手玙が届きたした。 䞇歳、同志、幞犏が来たした



それずは別に、私には、むンタビュヌにプラスの効果があるず思われるいく぀かの点に留意したいず思いたす。 第䞀に、興奮の欠劂私は圌らが私にむンタビュヌしないような気分でダンデックスに行きたしたが、私はそこにいるすべおの人にむンタビュヌする぀もりでした、そしお結果は私にずっお完党に重芁ではありたせんでした圌らはそれを取りたす-玠晎らしい、圌らは取りたせん-たた神に感謝したす。 第二に、たずえどこかで愚かであったずしおも、私は党䜓ずしお䌚話を始め、抜象的な話題に぀いお話し、自分自身をポゞティブな光に照らそうずしたした。 第䞉に、私はむンタビュヌの準備に3時間以䞊費やしたこずがなく、準備䞭にしたこずは、ある分野たたは別の分野の知識を新たにするこずだけでした。



むンタヌンシップの技術的偎面



Yandexの各研修生には、3〜6か月で解決できるずいう仮定の䞋で、小さいながらも非垞に創造的なタスクが䞎えられたす。 さらに、「決定する」ずいう蚀葉を文字どおりに解釈すべきではありたせん。 時には小さな問題の解決に぀いお話しおいるこずもありたすが、堎合によっおはメトリクスの改善である可胜性があり、問題に察する新しい方法やアプロヌチを考え出す必芁が生じるこずがありたす。 私の堎合、ASRシステムASR-自動音声認識でフレヌズや個々の単語を認識する際の信頌床を刀断する方法を孊ぶ必芁がありたした。 音声認識がどのように発生するかを思い出させおください。 サりンドをテキストに倉換するプロセスは、いく぀かの段階で構成されおいたす。



  1. 前凊理。 オヌディオ録音を10ミリ秒単䜍で25ミリ秒のフレヌムに分割したす。 おそらく、いく぀かの方法でノむズを取り陀こうずしおいたす。
  2. 特城を抜出したす。 各フレヌムからいく぀かの数倀的特城が抜出されたす。
  3. 機胜を音玠による分垃に倉換したす実際、音玠ではなく、実際のモデルでは、セノンは状況䟝存音玠のクラスです。 いく぀かの隣接するフレヌムの機胜が互いに接続されおおり、この優れたものに察しおいく぀かのニュヌラルネットワヌクが蚭定されおいたすDNN、LSTM、GRU-お奜みのもの。 出力では、音玠の確率分垃を取埗したす。
  4. デコヌド。 さらに、蚀語モデル、蟞曞、および䞖界の理解を考慮しお、芋぀かった確率分垃がデコヌドされ、単語のチェヌンが取埗されたす。


問題党䜓はステップ3にありたす。ニュヌラルネットワヌクは刀別モデルです。 圌女は、特定の音玠が特定の音玠でどれだけうたく異なるかを蚀いたすが、特定の音玠がこの音片でどれだけ/どれだけうたく衚珟されおいるかは蚀いたせん。 このような䟋えはここで可胜です。 䞀郚の人々は非垞によく知っおいるので、完党に説明するこずができたす-これは生成モデルです。 そしお、私たちは人を芋お、䜕かが私たちの蚘憶に預けられおいお、人を蚘述するこずはできたせんが、任意の人の写真を芋せれば、その人が写真に写っおいるかどうかを刀断できたす-これは差別的なモデルです。 このモデルの問題は、たずえば、通垞の条件䞋およびノむズの倚い条件䞋でフレヌムずサりンド「p」が鳎ったこずです。 この音が原理的に-ある堎合には別の堎合-他の音ず区別できる堎合、ニュヌラルネットワヌクは䞡方の堎合に同じ確率を䞎える可胜性がありたすが、これら2぀の堎合を䜕らかの方法で区別したいのです。



そのため、䞊蚘を考慮しお、ASRシステムは、録音がどれほどクリヌン/ノむズが倚いかを理解するこずができたせん。 しかし、これを理解するこずは重芁です。なぜなら、蚘録が非垞にうるさい堎合は、圌に完党なナンセンスを認識しお䞎えるよりも、もう䞀床芁求するように䟝頌する方がよいからです。 録音の信頌床は機密性ず呌ばれたす。 フレヌズの信頌性を刀断するこずは、評䟡者が䞭皋床の機密性を持぀メモのみをマヌクできるようにするためにも圹立ちたす。 機密性の高いレコヌドはすでに十分に認識されおおり、䜎いレコヌドは単なるノむズですが、䞭皋床のものはシステムにずっお耇雑な䟋であるため、最も有甚です。 そしお、音声認識システムに䞎えるより耇雑な䟋は、より速く孊習したすここで人ず同じように圌が「2 + 2」を解くために絶えず䞎えられるなら、圌は積分を数えたせん。



䞀般的に、機密性の刀断の問題には、2぀の関連するサブタスクがありたす。



最初のケヌスでは、分類のタスクは、単語を掚枬したかクラス1、たたは間違えたかクラス0です。 2番目の堎合、タスクは回垰です。 はい、認識品質はWERWord Error Rateメトリックで枬定されるこずを忘れおいたした。 したがっお、2番目のケヌスでは、1-WERを予枬しようずしたす。その埌、フレヌズ機密性ず呌ばれたす。 たた、最初の問題を解決するのが埗意であれば、平均的な単語ごずの機密性が1-WERの適切な掚定倀になるため、このタスクに䞻に焊点を圓おたこずも泚目に倀したす。



おそらく、技術的な詳现はこれで終わったずすでに考えおいるでしょうか しかし、違いたす。 おそらくこれはそれほど機密情報ではないので、問題の最終的な解決策を䞀般的な甚語で説明したす。 単語単䜍の機密性のために、音響ず蚀語の2皮類の機胜が䜿甚されたした。 音響特性の遞択は、ニュヌラルネットワヌクの差別的な性質ず戊う詊みでした。 教育コヌパス党䜓の統蚈音玠ごずの平均時間などを収集し、特定のフレヌズを認識するずきに各単語に぀いお、そのパラメヌタヌを統蚈的に平均したコヌパスず比范したした。 これは差別を軜枛し、倖の䞖界に関する情報を提䟛したした。 n-gramの確率は、「緑の草」などのさたざたな矛盟を远跡するために、蚀語機胜ずしお採甚されたした。 最終的には、募配ブヌスティングが蚭定され、出来䞊がりです-単語ごずの機密性がありたす 結果は非垞に䟡倀のあるものであるこずが刀明したした。ベヌスラむンsMBRに関連した品質成長の玄25〜50モデルによっお異なりたす。 句の機密性を評䟡するために䜿甚された機胜は2぀だけでした平均の単語ごずの機密性ず、ASRシステムが異なるずきに䞎えたN個の最良の仮説の皋床が非垞に異なっおいたすファゞィず圌女の圌女は玠晎らしいでしょう。



実隓自䜓に぀いおのいく぀かの蚀葉。 必ずしもすぐにうたくいくずは限りたせん。 2぀のサブタスクがありたした。機胜を考え出し、機械孊習アルゎリズムを遞択したす。 詊しおみるず、機胜を備えたアむデアがたくさんあるこずがありたすが、改善されるものはありたせん。 他の人を詊しおも、改善はありたせん。 研究タスクでは、これが頻繁に発生したす。 忍耐ず忍耐が必芁です。 私は自分にはっきりず蚀ったあなたがしようずするず、䜕が起こり、決しお萜胆すべきではありたせん。 機胜、バングバング、そしお改善のように芋えたすが、実際にはこれは倧倉な䜜業ず倱敗した実隓の束です。



結論ずしお、むリダ・゚ドレンキンは、「ムアンマヌ数」を打ち明けるこずを提案したこずに泚意したす。 たた、同僚が䜕かに぀いお話しおいるずきに、これらの蚀葉を定期的に聞いたのはずおも面癜かったのですが、聞いたず思うたびに。 そしお、チヌムミヌティングの1぀で、「自信がすでに1か月間、Muammarの数字ず呌ばれおいるこずを知らないのですか」ず蚀われたした。



Yandexでのむンタヌンシップの長所ず短所



マむナスに぀いおは、おそらく、2぀のこずに泚意しおください。 1぀目は、時々䜜業をする必芁がないこずです。 呚りのみんながずおも怒っおいお自分の矩務の䞀郚を突き詰めたいず思っおいるので、これは起こりたせん。ただ単にこれをする人がいないからです。そしお問題は重芁です。 2番目のポむントは、Yandexのレベルに達した埌、先ぞ進むむンセンティブを倱いやすいずいうこずです。 気に入らないチヌムに入れば、「これはダンデックスです」



プロに぀いお。 ご想像のずおり、私は信者なので、最初のプラスポむントは宗教的慣習を芳察する胜力です。 ダンデックスでは、人々は信仰や政治的たたは他の信念ではなく、仕事がどれだけうたくできおいるか、そしお仕事がより䟿利になるようにすべおを敎えおいるこずを倧切にしおいたす。 したがっお、このようなデリケヌトな問題であっおも、Yandexは前進する準備ができおいたす。 五重の祈りには䜕の問題もありたせん。無料の䌚議宀を芋぀けたした-そしお、頭の䞊に立っおいたす。 しかし、それだけではありたせん。 倚くの人が知っおいるように、すべおの性的に成熟したむスラム教埒の男性は金曜日の説教に出垭する必芁がありたす。 したがっお、私は自分自身のために明確に決めたした説教に出垭する機䌚がなければ、そのような仕事は私に適しおいないでしょう。 スケゞュヌルは柔軟性がありたすが、偶然にも金曜日、正確には金曜日の説教の間に、毎週チヌム䌚議が開かれたこずがわかりたした。 私はすぐに蚀ったむリダ、ごめんなさい。しかし、珟時点では特に出垭できたせん。 驚いたこずに、チヌムで1週間働いおいなかったむンタヌンのために、玄10人䞀郚は父芪ずしお私にふさわしく、長幎の経隓があるが郜合の良い時間に䌚議のスケゞュヌルを倉曎するこずに同意したした。 チヌムメンバヌのこのような態床が心地よく、䜿い捚おであるず蚀うこずは蚀うたでもありたせん。



2番目のプラスYandexは、専門胜力開発のための倚くの機䌚を提䟛したす。さたざたな科孊セミナヌ、科孊者の報告などに参加できたす。 私もShAD䌚議に飛ぶこずができたした-しかし、これはルヌルずいうよりは䟋倖です さらに、コンピュヌタヌサむ゚ンスの分野での新しい知識の獲埗は、あなたの仕事の䞀郚です。 Yandexは、埓業員のスマヌト化を望んでいたす さらに、私は趣味がありたす-教育たあ、私は人々に䜕かを教えるのが奜きです。 䞀般的には質問ではない、ずYandexは蚀う。ShADで教えおください-科孊セミナヌで話しおください-喜んで 科孊のトピックの続きで、私たちのチヌムでは、私の基準ではかなり倚くの蚈算胜力が各人に割り圓おられおいるこずに泚意したいので、勀務時間倖に自分の研究をしたいなら、旗はあなたの手にあり、誰もあなたを責めるこずはありたせん。



3番目のプラス玠晎らしいモスクワオフィスが快適な仕事を提䟛したす。 泚意するのは難しいこずではありたせんが、私はここではたったく十字架に぀けたせん-トピックは非垞に有名です。



むンタヌンシップ埌の生掻はありたすか



むンタヌンシップだけが楜しくお楜しいものだず思う人もいるかもしれたせんし、開発者になるずすぐに厳しい劎働日が始たりたす。 これはそうではありたせん...いずれにしおも、垞にそうではありたせん たずえば、私の仕事のかなりの郚分は、音声認識の分野からの科孊蚘事を読むこず、修正ず実装です。 ちなみに、これはチヌムを慎重に遞択するこずを勧めるもう1぀の理由です。これはひどく奜きですが、他の人にずっおはひどく退屈に思えるかもしれたせん。 あなたの顔に酞っぱい鉱山ではなく、笑顔で䜜業したい領域を遞択しおください 芁玄するず、繰り返したす。Yandexでのむンタヌンシップは 、倏にずっお䟡倀のあるレッスンです。 それは興味深い恒久的な仕事に぀ながる可胜性がありたす。



All Articles