Webページのアクセシビリティを向上させるための設計ガイドラインの1つとして,“表組みの要素をレイアウトのために使わないことが望ましい”ことが挙げられる.この理由は,“本来,表組みするためのHTML のtable 要素をレイアウトに使用すると,ソースをその記述順に読み上げる音声ブラウザなどでは,意図しない順序で読み上げる可能性がある”ためである.
したがって,Webページの検査においてレイアウト用途で使用されている<table>タグを自動的に検出できれば,アクセシビリティの向上に有効と考えられる.しかし,既存のWebページ検査システムではこのような検査は行われていない.
そこで本研究では,Webページに含まれる<table>タグの用途(使用目的)を判別することによりレイアウト用途と推定される<table>タグを検出する手法を提案している.
機械学習法としてID3を用いたシステムを開発し,Web上で収集したデータを用いて交差検定法に基づき正判別率を評価した.この結果,罫線の有無,行数,<table>タグより前に出現するタグの数,<table>のネストの有無により用途が大まかに見分けられること(決定木の上位階層にこれらの属性がよく出現すること)がわかるとともに,今回収集した200個の<table>タグを対象とした実験では平均90%前後の正判別率が得られた.