Hah圧縮

ページ名:Hah圧縮

目次

概要

hah圧縮 (hah compress) とは、長大語を短縮するために考案された圧縮法である。名前の由来は、情報科学で使われる「ハッシュ(hash)関数」の「ハッシュ」をhah圧縮法で圧縮した結果である。応用の範囲が広いため、工学的な手法を好む者が改良案や発展的な方法を提案しているため、時々話題に挙がる。

オリジナルの手法については ponta氏による投稿 を参照のこと。

種類

オリジナルの手法に加え、それを拡張した様々な手法が考案されている。

オリジナルの手法

  1. 圧縮したい文字列を N (≧3) 文字ごとに区切る。
  2. 区切った部分文字列それぞれに対し、最初と最後の文字のみを取り出し、それ以外の文字は削除する。
  3. 取り出した文字を繋ぎ合わせる。
  4. 完成した文字列が言語の音韻構造に合わない場合は、手順 2 において削除した文字列内の母音字や子音字を適宜補う。

例1:

  • jugemujugemugokounosurikire (寿限無寿限無 五劫の擦り切れ)

を圧縮する。区切りの長さは N=4 とする。

  1. juge / muju / gemu / goko / unos / urik / ire
  2. je / mu / gu / go / us / uk / ie
  3. jemugugousukie
  4. (上記の文字列は日本語として発音可能なのでこの手順を行う必要はない)

例2:

  • ryuuguunootohimenomotoyuinokirihazusi

を圧縮する。区切りの長さは同様に N=4 とする。

  1. ryuu / guun / ooto / hime / nomo / toyu / inok / irih / azus / i
  2. ru / gn / oo / he / no / tu / ik / ih / as / i
  3. rugnoohenotuikihasi
  4. gn の部分が日本語で発音不可能なので、この部分に相当する圧縮前の guun から u を補い rugunoo~ とする。

ランダム hah 圧縮

  1. 圧縮したい文字列をランダムに並び替える。
  2. 以下、並び替えた文字列に対してオリジナルの手法を施す。

ソート型 hah 圧縮

  1. 圧縮したい文字列のそれぞれ文字に対して、その位置を表す数を与えてペアにする。
  2. 文字に関して何らかの順序 (辞書順など) でソートを行う。
  3. ソートした文字列にオリジナルの手法を施す (音節構造に合わせて文字を補うことはしない)。
  4. 手順 1 で各文字に与えた数に関してソートを行う。
  5. 完成した文字列が言語の音韻構造に合わない場合は、適宜文字を補う。

例:

  • gokounosurikire

を圧縮する。文字のソートはラテン文字順とし、区切りの長さは N=4 とする。

  1. g0 o1 k2 o3 u4 n5 o6 s7 u8 r9 i10 k11 r12 e13
  2. e13 g0 i10 k2 k11 n5 o1 o3 o6 r9 r12 s7 u4 u8
    1. e13 g0 i10 k2 / k11 n5 o1 o3 / o6 r9 r12 s7 / u4 u8
    2. e13 k2 / k11 o3 / o6 s7 / u4 u8
    3. e13 k2 k11 o3 o6 s7 u4 u8
  3. k2 o3 u4 o6 s7 u8 k11 e13 → kouosuke
  4. (上記の文字列は日本語として発音可能なのでこの手順を行う必要はない)

母子音字別hah圧縮

  1. 圧縮したい文字列のそれぞれの文字に対して、その位置を表す数を与えてペアにする。
  2. 文字に関して言語での母音字と子音字に分けてリストにする。
  3. それぞれのリストに対してオリジナルの手法を施す。
  4. 母音字と子音字とを連結し一つのリストにする。
  5. 最初に各文字に与えた数に関してソートを行う。
  6. 完成した文字列が言語の音韻構造に合わない場合は、適宜文字を補う。

例:

  • jugemujugemugokounosurikire 

を圧縮する。文字が母音字か子音字かはヘボン式に準じるとし、区切りの長さはN=4とする。

  1. j0 u1 g2 e3 m4 u5 j6 u7 g8 e9 m10 u11 g12 o13 k14 o15 u16 n17 o18 s19 u20 r21 i22 k23 i24 r25 e26 
  2. [u1 e3 u5 u7 e9 u11 o13 o15 u16 o18 u20 i22 i24 e26], [j0 g2 m4 j6 g8 m10 g12 k14 n17 s19 r21 k23 r25]
    1. [u1 e3 u5 u7 / e9 u11 o13 o15 / u16 o18 u20 i22 / i24 e26], [j0 g2 m4 j6 / g8 m10 g12 k14 / n17 s19 r21 k23 / r25]
    2. [u1 u7 / e9 o15 / u16 i22 / i24 e26], [j0 j6 / g8 k14 / n17 k23 / r25]
    3. [u1 u7 e9 o15 u16 i22 i24 e26], [j0 j6 g8 k14 n17 k23 r25]
  3. u1 u7 e9 o15 u16 i22 i24 e26 j0 j6 g8 k14 n17 k23 r25
  4. j0 u1 j6 u7 g8 e9 k14 o15 u16 n17 i22 k23 i24 r25 e26 → jujugekounikire 
  5. (日本語として発音可能なのでこの手順を行う必要はない。)

参考

ハッシュ値



特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。

シェアボタン: このページをSNSに投稿するのに便利です。


最近更新されたページ

左メニュー

左メニューサンプル左メニューはヘッダーメニューの【編集】>【左メニューを編集する】をクリックすると編集できます。ご自由に編集してください。掲示板雑談・質問・相談掲示板更新履歴最近のコメントカウン...

黙字

黙字とは、表音文字[1]を使用する言語に於いて、綴られているにもかかわらず発音されない文字のことである。サイレントとも言う。自然言語に於ける黙字自然言語に於いては主に以下のような歴史的な理由で黙字が存...

類型論

言語類型論抱合語孤立語膠着語屈折語総合的言語分析的言語特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

音韻論

音韻弁別的素性音素母音子音音節アクセントイントネーション韻律特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

音韻規則記述言語

音韻規則記述言語(PRDL; Phonetic Rule Description Language)とは、デネブさんによって提唱された、言語音の条件異音などを簡潔に記述するためのドメイン固有言語である...

音韻

ここでは、自然言語において起こり得る音韻の変化について説明する。目次1 母音関連1.1 母音調和1.2 ウムラウト1.3 アクセントのある音節の母音が変化する2 子音関連2.1 語中の有声音、無声音の...

音声記号の入力方法

芸術言語研究(カテゴリー)芸術言語の創り方・芸術言語の哲学このページの対象言語Se分類芸術言語モユネ分類ART音声記号の入力方法では,各種音声記号を入力する方法について解説する。目次1 文字コード1....

音声学

音声国際音声記号(IPA)国際音声記号への拡張調音調音部位調音方法特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

韓国日本語2

通り韓国日本語2.jpg特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

韓国日本語

写真の通り韓国日本語.jpg特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

集合化造語法

集合化造語法とは、短期間にたくさんの単語を作るための意味を創造する手法である。補完造語法と合わせることでより効果的になる。概要・方法この造語法の流れは以下の二つの手順で意味をあらかじめ考えておく必要が...

限定性と修正性

限定性と修正性は動詞の性質を示す用語である。言語の特徴を探る手掛かりとなる。簡単な内容は表1に記載表 1限定性修正性格の指定未定義文脈依存修飾必須任意抽象度高低限定性動詞に含まれる項が未定義で指定する...

関係方式

関係方式とは、辞書の保存方式の一つである。クノーツアクアにより提唱された。説明この方式では語句に含まれる意味や用法をカード毎に分割し、それらを組み合わせて辞書を作っていく。カードは形式毎に異なる種類の...

関与原理

関与原理(英: relatedness principle)とは、おかゆの発案による、意味役割の標示に関する原理である。関与原理は、関与という意味役割を提示する。これはいわば、あらゆる具体的な意味役割...

遺伝造語法

遺伝造語法とは、カルノス・アクアが考案した造語法の一種である。発端は、生物の遺伝の選択を造語にも生かせないか?というところからである。目次1 方法2 特徴3 用法・用量4 関連記事方法まず、何らかの共...

達丸漢字

写真2枚漢字1.jpg追記ほとんどなさそうです特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

達丸日本語

達丸日本語.jpgまず最初に達丸日本語から書きはじ‘めます。更新していく予定です 2023 4/1 (土) 21:24 現在 3つあります  googleplay アプリのcloudy で作成中ですま...

造語論

造語論とは、人工言語を制作する際の考え方の一つで、語句を作る際の考え方である。目次1 クノーツ法1.1 題目(テーマ)1.2 対象(ターゲット)1.3 目的(コンセプト)1.3.1 語法(ヴィジョン)...

辞書の読み物性

辞書の読み物性とは人工言語の辞書の読みごたえに関する指標の一つである。本来は "Fafs falira sashimi"氏が2014年に考案し、2015年7月に辞書の情報密度を表す数値として提案した。...

転写

転写とは、ある言語の発音を他の文字体系で表記することである。例えば日本の固有名詞(地名や人名など)をローマ字表記したり、英語圏の固有名詞をカタカナ表記したりすることなどである。あくまでも発音に基づいて...