セマンティックWebの原理と開発動向を調査するのに一定の時間を費やしました。主な結果と考えを共有したいと思います。
なぜこれが必要なのですか?
答えは非常に簡単です- 穀物をch殻から分離する必要があります 、つまり 「情報ノイズ」から「情報」。
ウェブが質的にどのように影響するか:
- トピックまたはニュースの名前を含むクエリを検索エンジンに入力すると、結果の80%がリソースのグラフィカルインターフェイスに「埋め込まれた」同じテキストであることがわかります。
- バナー、リンクリスト、友達の友達などではなく、情報に焦点を当てる
- 関連するコンテンツのみを考慮することにより、より正確な検索
- あなたのオプション?
現時点では何がありますか?
「セマンティックWeb」の必要性と利点が多かれ少なかれ明確な場合、実装オプションによっていくつかの懸念が生じます。
現時点では、RDFやOWLなどの言語で記述されているURI(Uniform Resource Identifier)、オントロジーなどの概念を使用しています。
率直に言って、これらの言語とその使用方法に対処する私の試みは失敗しました-それらは理解するのが難しく、曖昧であり、さらなる開発が必要です。 いくつかの実用的で理解可能なツールの検索も成功しませんでした。 私にとっては、これがこの分野の発展の主な要因です。
また、マイクロフォーマットなどの概念もあります。これは、イデオロギーの開発が本質的にさらに進んでいるようですが、残念ながら、十分ではありません。
私が出会ったことから、 OpenCalaisの開発に注意が払われました。これにより、テキストやWebリソースからセマンティック情報を抽出することができます。 そのサービスにより、このテキストまたはそのテキストが属する知識のカテゴリ(技術、教育、政治など)を決定し、用語を抽出し、他の同様の情報を取得できます。 起こっているすべての見かけの美しさにもかかわらず、このサービスを真剣に使用するには時期尚早です。
手作業または自動化?
2番目の停止要因は、セマンティックデータを自分で入力する必要があることです。これにより、誰がこれを実行し、誰がその代価を支払うのかという疑問が生じます。
私の意見はこうです: 自動化は助けになりますが、理解の問題と概念間の論理的接続が主観的な評価であり、開発のこの段階では形式化できないという単純な理由で完全に頼ることはできません。
タスクとソリューションのステートメント
したがって、サイトを作成するとき、私たちはユニークなデザインを描き、それを既知のすべての検索エンジンとウェブ標準に適合させ、さまざまなブラウザで粉砕し、会計士、プロモーションスペシャリストを選択してお金を払います。そして最も重要なことは、 誰もがこれが正常であると考えていることです。 では、セマンティックコンポーネントをこのプロセスの一部にできないのはなぜですか?
サイトの作成者の観点からは、セマンティクスに従事することは意味がありません。
- 追加の人件費が必要です(これはそれほど悪くありません)
- 新しい標準と言語を学ぶ必要があります(同じRDFとOWL)
- 検索エンジンによるセマンティクスのサポートの欠如または弱いサポート
セマンティックデータ統合
セマンティックデータを統合するための複雑であまり可能性のない方法を分析(および少し想像)した後、私はシンプルで明白な方法に着手しました : タグおよび(または)CSS表記の形での統合 。
例:
<div id=”content” xml:semantic=”keywords: mathcad; contentType: content; category: math;”> Mathcad is desktop software for performing and documenting engineering and scientific calculations.
コードを有効にするために、スキームを追加します。
<!DOCTYPE html PUBLIC
"-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
[
<!ATTLIST div keywords CDATA #IMPLIED>
<!ATTLIST div contentType (copyright|content|definition|links|references| bibliographic|related|image) CDATA #IMPLIED>
<!ATTLIST div category (Business_Finance|Entertainment_Culture| Environment|Health_Medical_Pharma|Hospitality_Recreation|Law_Crime| Politics|Sports|Technology_Internet|Weather|Other) CDATA #IMPLIED>
...
<!ATTLIST div progLang CDATA #IMPLIED>
]>
CSS表記の場合:
<div id=”content” xml:semanticClass=”mySemanticClass”> Mathcad is desktop software for performing and documenting engineering and scientific calculations.
.mySemanticClass {
キーワード:mathcad;
contentType:コンテンツ;
カテゴリ:数学;
}
HTMLファイルには、セマンティックファイルと単純なCSSファイルが含まれています。
属性とカテゴリ
私の仕事では、私が今持っていたい主な属性を強調しました。 それらのリストは次のとおりです。
- contentTypeは、コンテンツタイプ(上部、下部、広告、コンテンツ、リンク、参照、書誌、関連、画像、ビデオなど)を定義します 。
- キーワードは、ブロックコンテンツに関連するキーワードまたはフレーズを定義します。 同義語は、関連する用語と同義語を定義します(例:「Obama」と「president」。
- categoryは、コンテンツカテゴリ(Business_Finance、Entertainment_Culture、Environment、Health_Medical_Pharma、Hospitality_Recreation、Law_Crime、政治、スポーツ、Technology_Internet、天気、その他)を定義します[6]。
- 重要度は、コンテンツの重要度を定義し、0〜1の浮動小数点値にすることができます。
- ref属性は、ブロックコンテンツに関連する追加の参照を定義します。
- parentは親ブロックの識別子であり、親ブロックと見なす必要があることを示します。
- 著者は著作権を定義し、引用、ことわざ、プログラミングコードに使用できます。
- progLangはプログラミング言語を定義します。
- HTMLを作成する段階でセマンティックデータを統合できます。
- これは、タイプセッターとCSSに精通したプログラマーの両方が行うことができます(RDFの専門家以外にもたくさんいます)
しかし、未来はここにあります!
このアプローチには1つの明らかな欠点があります-ページのインデックス作成にこのアプローチを使用する検索巨人のサポートを登録する必要があります。 ただし、このアイデアはすでにCMS、ブログエンジンに実装できます。そのためには、エンジンに適切なコードと入力用の追加フィールドを実装し、この情報を独自のロジックで使用してデータを検索およびフィルタリングする必要があります。
PS誰かがよく気づいたように、彼らはそのアイデアに勝ちません。 したがって、セマンティックWebの開発のためのこのようなオプションについて議論することは興味深いでしょう。 ご清聴ありがとうございました!