係り受け解析を考慮した企業のIR情報からの戦略フレーズ抽出方法の提案
1) 東京都市大学大学院
2) 東京都市大学
- Abstract
-
企業が開示するIR情報から企業経営の分析に有効な情報を機械的に抽出することが試みられている.既存手法では,形態素の出現回数,Gram長,N+1 Gramとの包含関係を階層的に分析することで,形態素解析のみでは抽出困難な造語や固有フレーズも抽出している.しかしながら抽出結果には,戦略ワードとして有効でない誤抽出ワードも多く含まれている.本研究では先ず,誤抽出ワードの分析を行い文の構造や品詞情報を考慮した判別が精度向上に有効であることを示す.さらに,新たな手法として,係り受け解析を行いその解析結果を考慮することで,より精度の高い戦略フレーズを抽出する手法を提案する.
It have been attempted to mechanically extract the strategy-words/phrases which are valuable for analysis of enterprise management from IR documents published by the enterprise. In preceding studies, the method which could extract coined words or unique strategy-words/phrases by applying stratified N-Gram analysis with words frequency, Gram length, and inclusions of N+1 Gram words, has been proposed. However, the extracted results by the method might include some valueless words/phrases as strategy-words. In this study, we address that the considerations of the sentence structure as well as part-of-speeches is effective to improve accuracy, after analyzing the incorrectly extracted words/phrases. Furthermore, we propose a new method to extract strategy-phrases with higher accuracy by applying the result of dependency analysis. - Keywords
-
テキストマイニング,データマイニング,企業情報
Textmining,Detamining,Enterprise Infomation