京都産業大学 > 情報理工学部
岡田英彦 (Hidehiko OKADA) ホーム > 研究テーマ

機械学習法を用いたレイアウト用途の<table>タグ検出

概要

Webページのアクセシビリティを向上させるための設計ガイドラインの1つとして,“表組みの要素をレイアウトのために使わないことが望ましい”ことが挙げられる.この理由は,“本来,表組みするためのHTML のtable 要素をレイアウトに使用すると,ソースをその記述順に読み上げる音声ブラウザなどでは,意図しない順序で読み上げる可能性がある”ためである.

したがって,Webページの検査においてレイアウト用途で使用されている<table>タグを自動的に検出できれば,アクセシビリティの向上に有効と考えられる.しかし,既存のWebページ検査システムではこのような検査は行われていない.

そこで本研究では,Webページに含まれる<table>タグの用途(使用目的)を判別することによりレイアウト用途と推定される<table>タグを検出する手法を提案している.

機械学習法としてID3を用いたシステムを開発し,Web上で収集したデータを用いて交差検定法に基づき正判別率を評価した.この結果,罫線の有無,行数,<table>タグより前に出現するタグの数,<table>のネストの有無により用途が大まかに見分けられること(決定木の上位階層にこれらの属性がよく出現すること)がわかるとともに,今回収集した200個の<table>タグを対象とした実験では平均90%前後の正判別率が得られた.

Keywords

accessibility, search engine optimization, evaluation, ID3, decision tree

スライド

目的

提案手法 概要(1)

提案手法 概要(2)

提案手法 構成

有効性評価 概要

有効性評価 正判別率

まとめ