🌝 🤦🏾 🏗️ ARM7TDMI-S（ARMv4T）対 Cortex-M3（ARMv7-M） 🌐 💪🏽 🤜

過去10年間、ARM7TDMIコアに基づく多くのマイクロコントローラーが市場に出回っています。これは、シングルチップソリューションのかなり強力なコアです。容量は32ビットで、動作周波数は最大100 MHzです。さらに、コアはシングルサイクルです。一部の命令は1クロックサイクルで実行されます（主にレジスタを使用した操作で、外部プロセッサバスにアクセスすることはありません）。 ARM7TDMIコアは、すべての8および16ビットチップ（AVR、MSC-51、PIC12 / PIC16 / PIC18 / PIC24、MSP430など）よりも優れた計算能力を備えています。

ただし、比較的最近、ARMはCortexコアの新しいファミリを導入しました。シングルチップソリューションのニッチでARM7TDMIを置き換えるだけのCortex-M3のバージョンに興味があります。

公式リリース直後に、Cortex-M3コアに基づいたNXP LPC1300チップ、またはむしろLPC1343を使用できたのは幸運でした。現在、2、3のプロジェクトが既にそれらの下に転送されています。そして、ARMの「季節に合わせた」プログラマーとしてお伝えします。彼らは本当に好きでしたが、彼らはアーキテクチャに独自のジョークを持っています。

そのため、Cortex-M3はARM7TDMIを置き換えるように設計されています。 ARM Ltd.によって開発されたときプロセッサ回路のロジックを大幅に複雑化することなく目標を設定し、機能を強化し、有用な命令を追加して、コード密度とパフォーマンスを向上させます。このため、前例のない手順を踏む必要がありました。初めて、ARMコアは以前のファミリとバイナリコードで互換性がありません。実際、これはCortex-M3が32ビットARMコードを実行できないために発生しました。

以前のすべてのカーネルには2つの動作モードがあり、それぞれに独自のコマンドセットがありました。これらのモードは、ARMおよびThumbと呼ばれていました。 1つ目は32ビットの完全な命令セットで動作し、2つ目は簡略化された16ビットの命令セットで動作しました。実際、カーネルは常にARMコードを実行しましたが、Thumbモードでは、特定のデコーダーが接続され、16ビット命令を32ビットの命令にその場で「マッピング」しました。

Cortex-M3は32ビットコードをクラスとして放棄しました。 Cortexファミリには、さらにいくつかのコア（Cortex-M0、M1、A0-A3）が含まれています。 M3は中央にあります。 M0、M1-さらに簡素化されていますが、Aシリーズは、それとは対照的に、重量のある高性能アプリケーション向けに設計されており、ARMコードを実行する機能を削除し始めていません。

ARMコアでは、大規模性と低コード密度が大きな問題であり、あらゆる操作で32ビットを体感できます。また、命令で1バイトを超える定数をエンコードすることは不可能です。このため、Thumb命令の追加セットが導入されました。パフォーマンスは5〜10％低下しますが、より高いコード密度（20〜30％の平均ゲイン）が得られます。

Cortexでは、Thumbコードのアイデアが開発されました。 16ビットThumb命令セットが拡張され、命令セットはThumb-2と呼ばれています。コンパイルされた場合、パフォーマンスの低下は（純粋なARMコードと比較して）わずか数パーセントですが、ボリュームの節約は依然として20〜30％です。

Thumb-2セットの特別な注意は、ITなどの高レベルの指示に値します（アプリケーションの設計を以下に示します）。一般に、コマンドシステムには、Cコードのコンパイル時に最適化を高めるための「機能」が詰め込まれています。そのため、Thumb-2の設計：

CMP r0, r1 
      

        
        
        
      

     ITE EQ ; if (r0 == r1) 
      

        
        
        
      

     MOVEQ r0, r2 ; then r0 = r2; 
      

        
        
        
      

     MOVNE r0, r3 ; else r0 = r3;

同様のことがARM命令セットで実行できます。

CMP r0, r1 ; if (r0 == r1) 
      

        
        
        
      

     MOVEQ r0, r2 ; then r0 = r2; 
      

        
        
        
      

     MOVNE r0, r3 ; else r0 = r3;

そして、純粋なThumbでは、少し「変態」する必要があります：

CMP r0, r1 ; if (r0 == r1) 
      

        
        
        
      

     BNE .else 
      

        
        
        
      

     MOV r0, r2 ; then r0 = r2; 
      

        
        
        
      

     B .endif 
      

        
        
        
      

     .else: 
      

        
        
        
      

     MOV r0, r3 ; else r0 = r3; 
      

        
        
        
      

     .endif

ボリュームを計算すると、Thumbの場合、構築に2 * 5 = 10バイト、Thumb-2の場合、ボリュームは2 * 4 = 8バイト、ARMでは4 * 3 = 12バイトになります（ただし、命令は3つしかありません））

ただし、生成されたリストを調べたときに見つからなかったため、Keil RealView MDKコンパイラーには明らかに知られていないのは、まさにこの自慢のIT命令であり、コンパイラーからの出力のアセンブラーコードは、通常のThumbのように見えます。ソースコード自体は固有のものであるか、コンパイラは新しいカーネルとコマンドシステムの下で実際に「完成」していません。残念ながら、他のコンパイラに関する情報はありませんが、GCCが生成するものを見るのは悪くありません。

一般的に、コードの必死の最適化を宣伝するだけです。おそらく、最終サイズは、8および16ビットマイクロコントローラー用にコンパイルされた同じソースコードよりも30〜50％少ないでしょう（たとえば、記事の最後にある最初のリンクで示されたドキュメント）。私はすぐに言います：これはやや不正な結果です、それは32ビットコード、つまり int、long変数、および多数の計算を備えた豊富な演算を備えたCコード（よく知られているDhrystoneテストは、これらの要件に適しています）。以前に記述され、8ビット用に最適化されたコードを転送すると、逆に32ビットプロセッサに転送すると、バイナリコードのサイズが大きくなります。私の経験では、コードのボリュームは約1.5〜2倍になります。

Cortex-M3のもう1つの大きな革新は、分割コマンドの追加です。昔からのARMカーネルには、乗算（64ビットの結果）と累積の乗算（64ビットの結果）が含まれていました。除算命令が追加されました。もちろん、多くのクロックを使い果たす可能性が高いですが、とにかく、それは別のサブルーチンよりもはるかに高速です。どんなに逆説的であろうと、上位の人々とマイクロコントローラーから遠く離れた人々：シングルチップシステムではハードウェアの分割はまだまれです（浮動小数点演算や他のコプロセッサーの異なる命令セットについては何も言えず、マルチメディア用に研ぎ澄まされた最も重いモンスターでのみ利用可能です）。

ARM7TDMIとは異なり、Cortexにはハーバードメモリアーキテクチャ（個別のコマンドバスとデータバス）があります。同じAVRでは、これにより特定の不便が生じます。プログラミング時には、const変数がRAMに落ちないように、いくつかのコンパイラマクロと特定の関数を使用する必要があります。ここ（ARM9、ARM11など、ARMv4以降のすべてのARM）で、個々のバスはプログラミング中に感じられず、チップ内ではすべて単一のアドレス空間に結合されています。すべてのARMチップには、サイズが4 GBの32ビット線形アドレス空間があり（x86プログラマーの場合、これはフラットメモリモデルに対応）、すべての周辺機器アドレス、ROM、およびRAMが配置されます。

注（1）：すべての利点にもかかわらず、コードの最適化にとって大きな障害となるのは巨大なアドレス空間です：32ビットアドレス指定があります.ARM / ThumbおよびThumb-2命令でさえ、特定のオブジェクトの完全なアドレスを直接エンコードできないため、アドレスはコード内のデータ、および別の命令を取得します。これは、コードの量にも悪影響を及ぼします。たとえば、MSC-51では、RAMから変数を読み取るのに2バイトで十分です。ARMでは、少なくとも2バイトの命令自体と、アドレスの格納に使用する4バイトを直接格納する必要があります。

注（2）：カーネルの反応を観察しながら、ペリフェラルレジスタにコード（たとえば、リターン命令）を配置して制御を転送しようと常に試みていました。 ARM7TDMIでは、Von Neumannのメモリ構成によりこのトリックは機能しますが、Cortexとそのハーバードはほぼ確実に遠い土地に送られ、中絶の1つになります。

次の大きな違いは、1つのスタックです。異なるカーネルモードのARM7TDMIで（ARM / Thumbについてではなく、割り込みを入力して例外を処理するときにプロセッサが切り替えるモードについて）、別のスタックが割り当てられた場合、スタックは1つだけです。これに関連する方法はわかりませんが、理論的には柔軟性が低くなりますが、実際には非常に便利です。スタックの束を予約する必要がないため、RAMが節約され、ネストされた割り込みのロジックとシステムコールの実装が簡素化されます（ARM7TDMIを使用して、4つ以上のパラメーターを使用してSWI割り込みを介してシステムコールを実行してください。さらに、これにより、割り込みの開始と終了、および割り込み間の切り替えの遅延が削減されました。

割り込み処理を高速化する2番目の変更は、VICの拒否です。はい、VIC（Vector Interrupt Controller）と呼ばれるモンスターはもうありません。はい、これは柔軟性から単純化へのステップです。しかし、マイクロコントローラーシステムでは、割り込みハンドラーをその場で再割り当てする必要がある場合はまれです。これをすべてのプロジェクトでVICを構成するよりも簡単に記述できます。さらに、RAMに割り込みテーブルを配置し、そのテーブルのハンドラーのアドレスを既に静かに変更することもできます。

VICの代わりに、NVICとFLASHの先頭に多数の割り込みベクターがあります。 ARM7TDMIの割り込みベクトルが先頭で32バイトを占めていた場合、数百バイトがさまざまなデバイスからの割り込みに割り当てられます。さらに、これらはジャンプ命令ではなく、アドレスを持つ実ベクトルです。つまりカーネルは、アドレスの制御を割り込みテーブルに転送しませんが、目的のオフセットのアドレスを選択し、それを制御します。プログラマの立場から、より便利で、より美しく、より透明になります。

しかし、主な驚きは、最初の2つの割り込みベクトルです。リセットなどを考えますか？いや！ 0番目のアドレスにある...スタックの値は、リセット時にスタックレジスタ内のカーネルによってハードウェアに入力されます。オフセット4-エントリポイントのアドレス。これは何を与えますか？そして、次のとおりです。初期化することなく、Cコードでプログラムの実行をすぐに開始できます。もちろん、この場合、RWセクションをRAMに手動でコピーし、ZIをリセットする必要があります（コンパイラーのヘルプを完全に拒否した場合）。

この明示的なC方向は、Cortexプロジェクトの例でも顕著です。すべての初期化はアセンブラーからCに転送されます。多くのスタックが拒否されたため、最初からスタックを初期化する必要がなくなりました。同時に、他の初期化がCコードに移行されました。

コマンドシステムの違いも興味深いものです。マルチスレッドアプリケーションとオペレーティングシステムの作成を簡素化する高レベルの命令WFI（割り込み待機）、WFE（イベント待機）などが追加されました。このセットには、マルチプロセッサシステム用の手順が含まれており、マルチコアシングルチップソリューションがまもなく登場する可能性があります。

注：マルチコアマイクロコントローラーは同じParallax Propellerの形で存在しますが（既に8つの32ビットコアを備えています）、本格的なものとは言えず、商用利用には適していません（アマチュアクラフトには適していません）。

Cortex-M3コアの説明にも、1つのタイマーが追加されています。タイマーは単純で、一定の周期で割り込みを生成できますが、たとえば、オペレーティングシステムのカーネルの場合、これ以上は必要ありません。

注：カーネルの説明のタイマーは非常に便利で重要なものです。カーネルのドキュメントに記載されており、実際にはライセンスされたカーネルの一部であるため、すべてのメーカーがチップに追加し、最も重要なことは、すべて同じ実装を使用することです。これは、コードの互換性に非常に役立ちます。異なるメーカーの多数のタイマー実装用のサポートモジュールを記述する必要はありません（ARM7TDMIの場合のように）。ただし、タイマーを追加すると、各メーカーはとにかく独自の方法で実装しますが、すでに1つの標準があります。これは普遍性への良いステップです。

結論として、MPU（メモリ保護ユニット）モジュールもカーネルのドキュメントに記載されていると言う価値があります。複数のスレッドが実行されており、個別のスレッドで障害が発生したためにファームウェア全体の動作を中断したくない場合、複雑なデバイスで非常に便利です。ただし、このモジュールはオプションであり、チップメーカーは急いでビルドすることはできません。古いNXP LPC1700ファミリーでも、欠落しています。他のメーカーも見られていません。それでも、仮想メモリはもちろんのこと、メモリ保護は依然として高価で大きなモンスターの多くです。

関連リンク：

ARM7TDMI-S（ARMv4T）対 Cortex-M3（ARMv7-M）

More articles: