テキスト処理のメモ - あなごクンのうぃき
bashだbash。エクセルのほうが早いとしてもbashだ。+ (自分用カウンタ)-今日、合計真蹟遺文からタイトルと年号を抜き出して「タイトル@年号」のリストにするワンライナー$ cat NichirenShimpitsuIbun.txt | sed -e 's/ / /' |
bashだbash。エクセルのほうが早いとしてもbashだ。+ (自分用カウンタ)-今日、合計真蹟遺文からタイトルと年号を抜き出して「タイトル@年号」のリストにするワンライナー$ cat NichirenShimpitsuIbun.txt | sed -e 's/ / /' |
もゝしき安政三年新内裏清涼殿障子和歌新内裏御障子色紙和歌一橋御屏風画讃大嘗会悠紀主紀詠歌大嘗会和歌類聚十一 短册帖自鑑(了佐)短冊集文明短冊真蹟和歌集落葉の錦涌蓮大徳短冊帖玄無法師短冊帖景樹短冊帖桂園門下短冊帖曙古歌百首関口兼吾和歌帖英国留学生和歌十二 雜々の集歌神歌徳に關するも
カウントダウン!カウントアップなんだけど、CDTV風に言ってみたかったんだよ。数字は出現回数。処理方法はこちら。28814 の21495 に17956 を14554 し13805 は12897 て11593 と10618 り9590 る8270 な7857 経7701 く7298
ひらがなとか記号は区切り文字扱いとして、区切り文字で改行。漢字一文字も名詞扱いなので、これをまた処理してそのうち2文字以上の単語でランキングやろう。2335此2318云1964給1899候1845法華経1536申1228人1127事1073如1012其982仏877是875故85
実装が面倒だったので国家権力に頼った。得られたファイルを並べ替えとか処理した結果を以下に記す。数字は出現回数。他の分析と違って、今回のはタイトルも含んでる。名詞・動詞・助動詞を抜き出した。漢字で構成された熟語・複合語が正しく検出されていない。その辺は別のアプローチですっげーダサい
頑張ったと思う。改行とかの誤差はあるので参考まで。一応、気づいたら精度上げてます。この方向の分析みたいのが人気あれば精度高めることを考えないこともない気がします。処理について:テキスト処理のメモを参照してください。他の分析はこちら+ (自分用カウンタ)-今日、合計ではランキングで
頑張ったと思う。改行とかの誤差はあるので参考まで。一応、気づいたら精度上げてます。この方向の分析みたいのが人気あれば精度高めることを考えないこともない気がします。処理について:テキスト処理のメモを参照してください。他の分析はこちら+ (自分用カウンタ)-今日、合計ではランキングで
これは本当に頑張った。機械的な処理で上位に来た語句を上から450語、改めて真蹟テキストから手で検索した。多少の順位の変動はあり得るけど、リストとしては結構精度高いと思う。今回のはタイトル部を含めて検索した。書き下し部とルビ部は除外した上で検索した。例えば「天台」と「天台法華宗」は
-今日、合計※以下、全てにおいて参考まで。真筆遺文で使われてる単語ランキング(形態素解析)…古文用の辞書使ってみたけど、仏教用語は厳しいね。真蹟遺文で使われている漢字の名詞ランキング_2文字以上編…という訳で、自力コマンドで分析した結果御書全集の真偽チェック一覧…そのまま。テキス
トに書いてくれればこっちで直せる時に直します。修正済:手作業の処理でミス発見(文永10年がすべて文永元年になっとる→判定エラー起こしてる)※真蹟有無の判定は日蓮宗の以下サイトによるhttps://genshu.nichiren.or.jp/documents/goibun/※タイ