👦 🚯 👨‍👦‍👦 声に出して考え：テキスト認識。 🤱 🧝🏿 🔍

1.ニューラルネットワークを使用した手書きテキストの認識に関する最初のポイント。

「1987年の夏に、私はすでに低かったニューラルネットワークに対する熱意をさらに冷やかす経験を得ました。 私はニューラルネットワークに関する会議に参加し、Nestorという会社が主催するプレゼンテーションを見ました。 Nestorは、基板上の手書き文字を認識するためのニューラルネットワークでアプリケーションを販売しようとしました。 彼女は100万ドルのプログラムライセンスを提供していました。 私の注目を集めました。 Nestorはニューラルネットワークアルゴリズムを改良し、別の大きなブレークスルーとして宣伝しましたが、手書き認識の問題はより単純で従来の方法で解決できると感じました。 その夜、私は問題を振り返って帰宅し、2日間で、高速で、小さく、柔軟な手書きレコグナイザーを開発しました。 私のソリューションではニューラルネットワークを使用せず、脳とはまったく異なる動作をしました。 この会議はスタイラスでコンピューターを開発することに興味を持ちましたが（最終的には10年後にPalmPilotプロジェクトにつながりました）、ニューラルネットワークは従来の方法に比べてそれほど大きな改善ではないことも確信しました。 私が作成した手書き認識は、最初のPalm製品シリーズで使用されたGraffitiと呼ばれるテキスト入力システムの長期的には役に立ちました。 ネストールは廃業したと思う。」 ジェフ・ホーキンス、インテリジェンス

彼の本の中で、ジェフは人工知能の理論を提供しており、それをニューラルネットワークの形で提案し、大脳皮質である新皮質の構造を繰り返しています。彼の理論では、知性は記憶予測モデルとデータの不変表現に起因すると考えています。

2. 2番目のポイントは、コンピューターがテキストを理解するためのタスクを設定しなくても、テキスト認識は主に知的タスクであり、手書きテキストをさらに処理に適したデジタル形式（ASCII）に変換するだけです。「単純な」ニューラルネットワークを使用した認識は小さくなります。医師の手書きを思い出してください...

また、文字が完全に理解できない場合でも、人は文脈から単語やテキストを完全に理解することができます。

つまり、原則として、既存の認識アルゴリズムを実際に改善することは可能ですが、絶対に手書き（および従来のアルゴリズムのテンプレートからのわずかな逸脱はエラーにつながります）は認識できず、コンピューターは未就学児のようなテキストを読み、文字を綴り、スペースを手書きします。

大人が単語全体を読んでいる間：

「unlysi unviertisetaのIlsean Odongoのrzelulattasによれば、それは機会がありません。では、蜂の巣は解きながらローストされます。 mseteでbkvuy blyuを切り刻んで叩きます。 過去には、bkuvsは、完全に懐かしい、完全に引き裂かれたテキストをブレムなしで封印できました。 「ピクリオンエゴト、カボチャをすべて個別に作るわけではありませんが、すべて堅実だからです。」

3.脳の働きに関する別のポイント：

「この場合、予期しない発見は皮質自体の基本的な解剖学からもたらされましたが、それを認識するのに異常に独創的な心がかかりました。 それは、ボルチモアのジョンズ・ホプキンス大学の神経生理学者であるバーノン・モンキャッスルでした。 1978年に、彼は「脳機能の組織原則」というタイトルの記事を発表しました。 この文書では、Montcastleは新皮質の外観と構造が驚くほど均一であることを示しました。 聴覚情報に作用する新皮質の領域は、ほとんど新皮質の領域のように、触覚、筋肉制御、ブローカの言語で動作する領域に似ています。 モンキャッスルは、これらのエリアは同じように見えるため、同じ基本操作を実行することを提案しました！ 彼は、皮質が行うすべてのことに同じコンピューティングツールを使用することを提案しました。」 ジェフ・ホーキンス

しかし、問題は残っています。波、光、音はどのように新皮質にパターンの形で保存されますか？..

「大まかに言って、フーリエは複雑なパターンを単純な波の言語に変換するための数学的手法を開発しました。 また、これらの波形を元のパターンに変換する方法を示しました。 言い換えれば、テレビカメラが視覚画像を電磁周波数に変換し[8]、テレビが元の画像を復元するように、フーリエによって開発された数学的装置がパターンを変換します。 画像を波形に、またはその逆に変換するために使用される方程式は、フーリエ変換として知られています。 Gaborが物体の画像をホログラフィックフィルム上の干渉「スポット」に変換し、干渉パターンを元の画像に逆変換する方法を発明したのは、彼らでした。 マイケル・タルボット、ホログラフィック・ユニバース。

一般に、脳の特性はホログラムと似ています。たとえば、脳は比較的少量で大量の情報を保持します。異なる角度からレーザーで照らされたホログラムフィルムが、以前に記録された多くの異なる情報を生成するように、意識が自然に変化したときの人の記憶も（「気分」、「ホルモン」-エンドルフィンなど）または、「メディエーター」（アルコール、タバコ、その他の薬物）の助けを借りて、同じ事実のさまざまな評価を含むさまざまな情報を提供します。

Pribram-Bohmの理論

ボームとプリブラムの理論を組み合わせると、世界の根本的に新しい見解が得られます。脳は、別の次元から来る周波数を処理することで、客観的な現実を数学的に構築します-空間と時間の境界を超えた存在のより深い秩序。 脳はホログラフィック宇宙に巻き上げられたホログラムです。」 マイケル・タルボット、ホログラフィック・ユニバース。

4.手書きテキスト、単なるテキスト、またはニューラルネットワークを使用した視覚画像や音声などのその他の情報を認識するには、コンピューターに膨大な量のメモリが必要です。この意味で、新皮質の構造を繰り返すニューラルネットワークには重大な可能性があります。

結論：

手書き認識システムを構築するには、新皮質の構造の基本原理を繰り返す6層構造のニューラルネットワークを使用できます。

動作の基本原則は、「メモリ予測」モデルの使用です。つまり、システムは回答、手書きテキストとASCIIコードの対応を計算する必要はなく、「メモリから取り出す」必要があります。これに関連して、システムはかなり長い間トレーニング（記憶）を受ける必要があります。

最初のトレーニングは「手動モード」で行われ、結果を継続的に監視する必要があります。その後、自動連続学習に進むことができます。この目的のために、システムに視覚画像と対応するASCIIコードを提供する特別な補助トレーニングプログラムがある場合があります。

この複合体の開発が成功すると、適切なトレーニングの後、手書きのテキストだけでなく、他の情報、視覚および音声、すなわち最初は波の形で表現できる情報。

2007-06

PS *。禅 :)

視覚情報は、目から脳の視床を介して流れます。「最上部の目」は、そこから上昇し、「拡大」して、大脳皮質に沿って想像上のピラミッドの底部に到達します。「ピラミッド」情報の拡大によってのみ具体化され、情報の「クォンタム」の上部には、さらなる進歩のための「多くの方法」があります。つまり、ピラミッドはデータプレゼンテーション構造ではなく、新皮質の情報パスの単位です。

一方、ピラミッドが裏返されていない場合、次のことが判明します。情報は大脳皮質に入り、「ピラミッドの基底」に入ります。特定の「アルゴリズム」に従ってピラミッドの最上部に具体化され、ピラミッドの最上部の目に入るそれは実際に私たちが「考え、見ているもの」です。この観点によれば、目に見える情報の知的選択の原則は真実です。つまり、知性によって見える情報は知性とそれに続く「アルゴリズム」に依存し、「情報の相対性の原理に関する」仮説を確認します。

これらの2つの視点の統合は、知性による視覚情報の認識の一般的なアイデアを与えることができます。

「インテリジェントシステム」に入る視覚情報は、2つ（またはそれ以上）の反対のプロセスによる同時処理の対象となります。最初のプロセスでは、多くの方法、情報の解釈の可能なオプションを提供します。特定のルールであるアルゴリズムに続く2番目のプロセスは、着信情報を指定します。そして、私たちが見るのは、2つの反対のプロセスの相互作用の結果です。

PPS さて、草を緑にするマスターは誰ですか？ :)

声に出して考え：テキスト認識。

More articles: