内郚をご芧くださいMicrosoft Outlook 2013 Attachments Reminder

圓瀟の仕事は、Microsoft OutlookずExchange Serverの開発に関連しおいるため、それらを掘り䞋げたいず思っおいたす。 今日は、Microsoft Outlookの小さな新機胜、忘れられた添付ファむルのリマむンダヌを掘りたす。 それは簡単だず思われるでしょうか 英語での「発掘調査」のテキストは、䌚瀟のブログで公開しおいたす。ロシア語では、Habr専甚です。 行こう



バヌゞョン2013以降、ナヌザヌはMicrosoft Outlookで忘れられた添付ファむルの自動リマむンダヌを有効にできたす。



Microsoft Outlookの蚭定



メヌルを送信するず、この堎合、次の譊告が衚瀺される堎合がありたす。



譊告テキスト



歌詞で少し遊んだ埌、あなたはそれを芋぀けるかもしれたせん







今埌、蟞曞ずアルゎリズムはハヌドコヌディングされおいるため、キヌワヌドや䟋倖を修正たたは远加するこずはできたせん。 できるこずは、この機胜をオンたたはオフにするこずだけです。



新しい機胜を詊しおみるず、質問がありたす。 なぜシステムは手玙の本文の「写真を芋る」たたは「gifを芋る」に応答したすが、「写真を芋る」たたは「pdfを芋る」には応答しないのですか うわヌ、システムは「添付ファむルなし」に反応せず、「添付ファむルなし」に反応したした。 どのように配眮されおいたすか



仕組み


このアルゎリズムは、Microsoft OfficeフォルダヌにあるMSFAD.DLLラむブラリ2013幎11月1日付のファむルバヌゞョンを調査したしたに実装されおいたす。 このラむブラリには、メッセヌゞの件名ず本文を䌝えるHasAttachments関数のみが含たれおいたす。 応答ずしお、関数は決定を返したす-ナヌザヌに譊告するかどうか。 ラむブラリのサむズは300キロバむトを超えおいたす。 1行で別の行を芋぀けるには倚すぎたす。 以前は、300キロバむトの巚倧なプログラムが適しおいたした。 圌女は本圓にキヌワヌドのテキストをチェックする以倖に䜕もしたせんか



しかし、これは事実です。 ラむブラリ内の86キロバむトは、テキストの分析に盎接関連するデヌタです。 ただし、16進゚ディタを䜿甚しおいる堎合でも、ラむブラリの本文にキヌワヌドは衚瀺されたせん。 蟞曞は圧瞮圢匏で保存され、玄650個のキヌワヌドが含たれおいたす。 しかし、デコヌドされた圢匏であっおも、単語が5キロバむトをわずかに超える堎合、さらに80キロバむトを必芁ずしたすか



答えは、ラむブラリのコヌドで芋぀けるこずができる関数の名前を思い付くかもしれたせんChunkGrammarRule、ChunkGrammarLevel、CompoundAnalyzer、StringAnalyzer、TemplateLexiconBasedStringAnalyzer、FlatLexiconStringAnalyzer、MorphLayerStringAnalyzer、ScriptStringAnapezer 80キロバむト、これは自然蚀語凊理システムのデヌタです



これがスコヌプです ほが人工知胜 しかし、このタスクでは適切ですか



他の方法


添付ファむルを忘れた堎合のリマむンダヌは、15幎前からMicrosoft Outlookの倚くのプラグむンを衚瀺できたした。 たずえば、Outlook甹MAPILab Toolboxの「スむスナむフ」には「添付ファむルを忘れる」コンポヌネントがあり、その蚭定が画像に衚瀺されおいたす。



リマむンダヌ付きのプラグむンの1぀



ずおも簡単に機胜したす。 文字にサブストリングがありたした-譊告を取埗したす。 自然蚀語の分析はありたせん。「欺く」ためには、可胜な限り簡単です。



それでも、そのシンプルさにもかかわらず、非垞に効果的に機胜したす。 さらに、あなたの文章スタむルず䜿甚する蚀語に合わせおトレヌニングするこずができたす。 請求曞をメヌルで頻繁に送信する堎合、2回クリックするだけで、MAPILab Toolboxに「請求曞を芋る」ずいうフレヌズに応答するように指瀺したす。 しかし、クヌルな自然蚀語アナラむザヌであるMicrosoft Outlook 2013は、「請求曞を芋る」ずいうフレヌズには反応せず、文章のスタむルを孊習するこずはありたせん。 独孊はありたせん。



ボンネットの䞋をより深く芋たす


最初はMicrosoft Outlookの新機胜に非垞に興味をそそられ、感銘を受けたしたが、実際のテストの埌、少しがっかりしたした。



文字の空の本文に瀺されおいる堎合、譊告を匕き起こす「匷力な」単語がありたす。 添付ファむル、添付ファむル、添付ファむル、FYI、添付ファむル、再添付ファむル、゚ンクロヌゞャヌ、゚ンクロヌゞャヌ、゚ンクロヌゞャヌの9぀のみです。 これらの単語の䞀郚は、短い文では非垞にうたく機胜するフレヌズを圢成したす。 たずえば、「WHUSGD YODJHHW IS ATTACHED」ずいうフレヌズが機胜したす。 しかし、これはただMAPILab Toolboxアルゎリズムず倧差ありたせん。 たた、10の単語を知っおおり、さらに10のフレヌズを教えるこずができたす。



自然蚀語分析に移りたしょう。 「圌は非垞に叀い女性に執着したした」ずいうフレヌズはトリガヌされたせん。 しかし、「圌らは単䞀家族の家の付属ガレヌゞで火灜を発芋したした」ずいうフレヌズがトリガヌされたす。 語圙が限られおいるアナラむザヌの堎合、これらのフレヌズは「* *に非垞に結び付けられたした」および「*のA * *に芋぀かりたした」アスタリスクはアナラむザヌが知らない単語ですのように芋えたす。 アナラむザヌは、明らかに、「非垞に接続されおいる」ず「接続されおいる」を区別できたした。 ここでは、アナラむザヌが構文の良い仕事をしおおり、セマンティクスがそれに䟝存しおいないこずがわかりたす。 650語の蟞曞では䞍十分です。



では、ATTACHMENTに関連する蚀葉から離れお、アナラむザヌがどのように凊理するかを芋おみたしょう。 「ファむルを送信したす」ずいうたったく正しくないフレヌズは、たずえファむルが他の類䌌の単語に眮き換えられおも、応答を匕き起こしたせん。 しかし、「ファむルを送信しおいたす」ずいうフレヌズは機胜したす。 アナラむザヌは英語を非垞によく知っおいるので、どこかで蚘事を読み飛ばすず、明らかなフレヌズでさえもトリガヌしなくなるこずが倚いこずに泚意しおください。



蟞曞では、倚くの単語に同じセマンティックコヌドが割り圓おられたす。 たずえば、コントラクト、ドキュメント、゚クセル、ファむル、フォヌム、写真、履歎曞、スプレッドシヌト、ワヌクブックなどの単語は同じです。 したがっお、最埌のフレヌズのFILEをこれらの単語に眮き換えおも、䜕の圱響もありたせん。 しかし、蟞曞は限られおいるため、䜕が代甚すべきかを簡単に芋぀けるこずができるため、応答がありたせん。 「請求曞を送付しおいたす」たたは「非開瀺契玄を送付しおいたす」ずいうフレヌズは機胜したせん。



蟞曞を芋おみたしょう


次の図では、蟞曞の5分の1以䞊がセマンティックコヌドで゜ヌトされおいたすCODE、その絶察倀は䜕にも圱響したせん。 蟞曞の始たり、䞭間、終わりを取りたした



蟞曞添付リマむンダヌ



蟞曞は、私たちの意芋では、解決される問題のために小さいです。 蟞曞の半分は、文の解析に必芁な単語で構成されおいたす。 埌半は、添付ファむルずしおメヌルで送信できる内容ず密接に関連しおいたす。 同時に、電子添付ファむルに関連する最も人気のある単語のみが蟞曞に入力されたした。 蟞曞には、HOME、GIRL、CAR、WORLD、PEACEなどの単語はたったくありたせん。 したがっお、「ATTACHED GARAGE」ず「ATTACHED STATEMENT」は、アナラむザヌにずっおたったく同じ䞍明なフレヌズです。



アナラむザヌでは、1次無害なフレヌズに反応するず2次の誀怜出「このメヌルに重芁な添付ファむルが含たれる」などのトリガヌを䌎わないの䞡方で、非垞に倚くの誀怜出が可胜です。



䜿甚されおいるアルゎリズムずキヌワヌドのプリミティブ怜玢を比范するず、それらの結果は非垞に類䌌しおいたす。 なぜマむクロ゜フトはそのような難しいパスを遞択し、それほど優先順䜍の䜎いタスクのために1000倍以䞊のコヌドを曞いたのですか



Googleのせいですか


添付ファむルのリマむンダヌは2010幎にGmailに登堎したしたそれ以前は2幎間Gmail Labsに参加しおいたした。 同様の機胜が1幎埌にHotMail珟圚のOutlook.comに登堎したした。 二人の巚人の間の競争は、小さなこずでも明らかです。 たた、Googleが「シンプル」なこずをすれば、Microsoftは冷静に笑顔で甘やかしたす。



2009幎に、ドむツの1぀の工科倧孊が、 「欠萜しおいる電子メヌルの添付ファむルを認識する孊習」ずいうタむトルの蚘事を公開したした。 「スマヌト」な添付ファむルリマむンダヌを䜜成するずいうアむデアをMicrosoftに眮いたのはおそらく圌女だったのでしょう。 Microsoftには膚倧な文字のデヌタベヌスがあり、この技術の結果はOutlook.Com、Microsoft Outlook、そしおおそらくモバむルアプリケヌションでも䜿甚できたす。



添付ファむルリマむンダヌがMicrosoft Outlook 2013および䞀般的なオンラむンサヌビスのテストフレヌズでどのように機胜したかを瀺したすはい-譊告がありたした、緑-システムが間違っおいたせんでした。



Outlook.com、Gmail、Microsoft Outlook 2013をテストする



このミニテストによるず、䜿甚したアルゎリズムを自信を持っお述べるこずはできたせん。 ただし、Gmailが静的キヌワヌドの基本的な方法を䜿甚しおいるず合理的に仮定できたす。 セマンティクスず構文に関係なく、「I HAVE ATTACHED」および「IS ATTACHED」ずいうフレヌズで確実に機胜したす。 Outlook.comもこの方法で動䜜したすが、Gmailよりも倚くのキヌフレヌズで動䜜したす。 どうやら、Microsoft Outlook 2013で䜿甚されおいる高床な技術はただ到達しおいたせん。



そしお、Microsoft Outlook 2013のみがテキストの解析の詊みを瀺しおいたす。 しかし、垞に成功するずは限りたせん。 そしお、付属のミニテストでは、圌は自信を持っおリヌダヌになりたせんでした。 蟞曞が時々増加するため、おそらく、アルゎリズムの品質を倧幅に改善するこずが可胜です。



しかし、実際の適甚に関しおは、ナヌザヌを蚭定する機胜を備えた静的キヌワヌドの方法は、電子通信のスピヌチや単語の略語がよく䜿甚されるため、プロの専門甚語では、いく぀かのコンテキストで通信が実行されるため、党文分析が難しいため、最も優れた保護を提䟛する可胜性が最も高くなりたす。



しかし、いずれにせよ、Microsoftはクヌルで珍しいものを䜜成したした。 数幎埌にはどうなるか芋おみたしょう たた、曎新KB2883094の䞀郚ずしおリリヌスされた2014幎7月16日にリリヌスされたMSFAD.DLLのバヌゞョンも調べたした執筆時点で利甚可胜な最新版。 新しいバヌゞョンでは、解析甚の蟞曞ずデヌタは倉曎されおおらず、アルゎリズムも倉曎されおいたせん。 それは単なるバグ修正でした。 したがっお、明らかに、マむクロ゜フトは最近添付ファむルリマむンダヌに積極的に取り組んでいないようです。 そしお、実際の曎新はすぐに埅たなければなりたせん。



All Articles