テキスト処理のメモ

ページ名:テキスト処理のメモ

bashだbash。エクセルのほうが早いとしてもbashだ。

+ (自分用カウンタ)-

今日 1 、合計 685

真蹟遺文からタイトルと年号を抜き出して「タイトル@年号」のリストにするワンライナー

$ cat NichirenShimpitsuIbun.txt | sed -e 's/ / /' | sed -e 's/年/ 年/' | sed -e 's/(/ (/' | egrep -v "断簡|# 一|# 二" | grep -E "^#" | awk -F' ' '{print $2 "@" $3}' > NichirenShimpitsuTitleList.txt

御書タイトル一覧の年号を漢数字にして「タイトル@年号」のリストにするワンライナー(何かしらんけど重複が発生する)

$ cat GoshoZenTitle.txt | sed -e 's/1/元/'| sed -e 's/2/二/'| sed -e 's/3/三/'| sed -e 's/4/四/'| sed -e 's/5/五/'| sed -e 's/6/六/'| sed -e 's/7/七/' |  sed -e 's/8/八/' | sed -e 's/9/九/' | sed -e 's/10/十/' | sed -e 's/11/十一/' | sed -e 's/12/十二/' |awk -F'.' '{print $1}'| awk -F'BB' '{print $1}' |sed -e 's/AA/@/' | sed -e 's/元0/十/'|sed -e 's/元1/十一/' > GoshoZenTitleATM.txt 

真蹟遺文で多く使われている文字をランキング形式で発表(タイトル除く)

$ cat NichirenShimpitsuIbun.txt | egrep -v "#" | grep -Eo .{1} | egrep -v "\s| |〔|〕|(|)|。|、|・|一|\[|\]|p|1|2|3|4|5|6|7|8|9|0" | sort | uniq -c | sort -nr 

2文字以上を抽出してランキング化してしかもWikiにコピペできるサボりコマンド

$ cat NSPI_KANGO_LIST.csv | grep '..' | sort | uniq -c | sort -nr | awk '{print "\|" $NF "\|" $(NF-1) "\|" }' > NSPI_KANGO_RANK_wiki.txt

とりあえず、これでランキング生成までできる。

ひらがなとか記号を全部Sに置き換えるクソだせぇコマンド

こういうことはtrにやらせれば良いんだね。そんなコマンド忘れてたわ。
コマンドリファレンスだけでも持ってくれば良かった…。
$ cat NichirenShimpitsuIbun.txt | nkf -w --hiragana |\
grep -v "#" |\
sed 's/あ/S/g' | sed 's/い/S/g' | sed 's/う/S/g' | sed 's/え/S/g' | sed 's/お/S/g' |\
sed 's/か/S/g' | sed 's/き/S/g' | sed 's/く/S/g' | sed 's/け/S/g' | sed 's/こ/S/g' |\
sed 's/さ/S/g' | sed 's/し/S/g' | sed 's/す/S/g' | sed 's/せ/S/g' | sed 's/そ/S/g' |\
sed 's/た/S/g' | sed 's/ち/S/g' | sed 's/つ/S/g' | sed 's/て/S/g' | sed 's/と/S/g' |\
sed 's/な/S/g' | sed 's/に/S/g' | sed 's/ぬ/S/g' | sed 's/ね/S/g' | sed 's/の/S/g' |\
sed 's/は/S/g' | sed 's/ひ/S/g' | sed 's/ふ/S/g' | sed 's/へ/S/g' | sed 's/ほ/S/g' |\
sed 's/ま/S/g' | sed 's/み/S/g' | sed 's/む/S/g' | sed 's/め/S/g' | sed 's/も/S/g' |\
sed 's/や/S/g' | sed 's/ゆ/S/g' | sed 's/よ/S/g' |\
sed 's/ら/S/g' | sed 's/り/S/g' | sed 's/る/S/g' | sed 's/れ/S/g' | sed 's/ろ/S/g' |\
sed 's/わ/S/g' | sed 's/を/S/g' | sed 's/ん/S/g' | sed 's/ゐ/S/g' | sed 's/ゑ/S/g' |\
sed 's/が/S/g' | sed 's/ぎ/S/g' | sed 's/ぐ/S/g' | sed 's/げ/S/g' | sed 's/ご/S/g' |\
sed 's/ざ/S/g' | sed 's/じ/S/g' | sed 's/ず/S/g' | sed 's/ぜ/S/g' | sed 's/ぞ/S/g' |\
sed 's/だ/S/g' | sed 's/ぢ/S/g' | sed 's/づ/S/g' | sed 's/で/S/g' | sed 's/ど/S/g' |\
sed 's/ば/S/g' | sed 's/び/S/g' | sed 's/ぶ/S/g' | sed 's/べ/S/g' | sed 's/ぼ/S/g' |\
sed 's/ぱ/S/g' | sed 's/ぴ/S/g' | sed 's/ぷ/S/g' | sed 's/ぺ/S/g' | sed 's/ぽ/S/g' |\
sed 's/っ/S/g' | sed 's/ゃ/S/g' | sed 's/ゅ/S/g' | sed 's/ょ/S/g' |\
sed 's/ ̄/S/g' | sed 's/_/S/g' |\
sed 's/(/S/g' | sed 's/)/S/g' |\
sed 's/○/S/g' |\
sed 's/〔/S/g' | sed 's/〕/S/g' | sed 's/。/S/g' | sed 's/、/S/g' |\
sed 's/\[/S/g' |\
sed 's/p/S/g' |\
sed 's/0/S/g' | sed 's/1/S/g' | sed 's/2/S/g' | sed 's/3/S/g' | sed 's/4/S/g' |\
sed 's/5/S/g' | sed 's/6/S/g' | sed 's/7/S/g' | sed 's/8/S/g' | sed 's/9/S/g' |\
sed 's/0/S/g' | sed 's/1/S/g' | sed 's/2/S/g' | sed 's/3/S/g' | sed 's/4/S/g' |\
sed 's/5/S/g' | sed 's/6/S/g' | sed 's/7/S/g' | sed 's/8/S/g' | sed 's/9/S/g' |\
sed 's/\]/S/g' |\
sed 's/K/S/g' |\
sed 's/・/S/g' |\
sed 's/ /S/g' |\
sed 's/(/S/g' |\
sed 's/\./S/g' |\
sed 's/\・/S/g' |\
sed 's/)/S/g' |\
sed 's/《/S/g' |\
sed 's/》/S/g' |\
sed 's/-/S/g' |\
sed 's/{/S/g' |\
sed 's/}/S/g' |\
sed 's/〈/S/g' |\
sed 's/〉/S/g' |\
sed 's/[文]/S/g' |\
sed 's/{上段}/S/g' |\
sed 's/{画}/S/g' |\
sed 's///S/g' |\
sed 's/\/S/g' |\
sed 's/[/S/g' |\
sed 's/×/S/g' |\
sed 's/]/S/g' |\
sed 's/\t/S/g' |\
sed 's/□/S/g' |\

sed 's/S
 /S/g' |\
sed 's/
 S/S/g' |\

sed 's/SSSSSSS/S/g' |\
sed 's/SSSSSS/S/g' |\
sed 's/SSSSS/S/g' |\
sed 's/SSSS/S/g' |\
sed 's/SSS/S/g' |\
sed 's/SS/S/g' |\
tr " " $'\n' | tr "S" $'\n' | grep '..' | sort | uniq -c | sort -nr | awk '{print "\|" $NF "\|" $(NF-1) "\|" }'

シェアボタン: このページをSNSに投稿するのに便利です。

コメント

返信元返信をやめる

※ 悪質なユーザーの書き込みは制限します。

最新を表示する

NG表示方式

NGID一覧