sakstylr
http://iddy.jp/profile/sakstyle/
http://twitter.com/sakstyle/
Dec 4, 2009
4:23pm
特に興味深かったのが圧縮アルゴリズムを用いて作者を推定するという試みだ。人それぞれ書き癖や好きな単語などが当然あるので、同一人物のテキストであれば圧縮度は高まる。
そこで作者不明のテクストを圧縮(普通にzipとかでOK)しておき、そこにAさんのテキストとBさんのテキストをそれぞれ追加圧縮する。より高圧縮であったほうが元のテクストの作者であるというのである。これは統計上かなりの確率で当たるらしい。
- http://d.hatena.ne.jp/leibniz/20091123/1259381192
Page 1 of 1