自己情報量による文章データのアウトライン要約

石塚 隆男1)

1) 亜細亜大学

Abstract 今日、情報化や電子化に伴い、私たちは膨大な量の文章データに囲まれているが、それらを十分に活かすことができていない。一方、テキストデータの自動要約は古くから研究がなされ、実用化されているが、文章全体の結論を要約するのとアウトラインを要約するのとは異なり、読むことによる気づきや発見は後者の方が多い。そこで、本研究では、複数のパラグラフから構成される文章データのパラグラフ単位の自己情報量を定量化し、見える化することによりアウトライン要約を行う方法を提案する。新聞記事等に本方法を適用し、いくつかの知見が得られたので報告する。
This paper proposes a new method for outline abstraction of text data composing of multiple paragraphs. We are surrounded with big text data, but we hardly read nor browse them in a limited time because of big volume. Each author of document expresses what he/she want to say by using relevant words and consuming space. Accordingly, outline abstraction of text is more useful than automatic abstraction from a view point of faithful recreation of the author's assertions. Our method quantizes self-information of each paragraph and visualizes envelopment of text data by peaks of the index. This method was applied to newspaper articles and some valuable remarks are obtained.
Keywords ビッグテキストデータ,自己情報量,見える化
big text data,self-information,visualization
前に戻る
Copyright 2013 @ The Japan Society for Management Infomation.