PDIC形式

ページ名:PDIC形式

PDIC 形式とは、PDIC において使われる辞書フォーマットである。

目次

概要

この形式には大きく分けると以下の三つの形式で記すことができる。それぞれで保存方法が異なるので注意が必要である。

  • バイナリ形式
  • CSV 形式
  • 一行テキスト形式

バイナリ形式版

バイナリ形式版では、複数のブロックで構成されたデータ部とブロックの順序・見出し語などを記録したインデックス部に分かれている。

使われている文字コードは Win32 版では Shift_JIS が、Unicode 版では BOCU-1 である。

見出し語を探る際にはまずインデックス部で検索し、そのあとに該当したデータ部を検索するため、少ないアクセス数で高速に検索することができ、単語を追加・削除・編集をする際にも、必要に応じてインデックス部やデータ部を書き換えるだけで済む。

画像や音声、文書データなどの埋め込みや暗号化・圧縮などにも対応している。

詳細な仕様は#外部リンクを参照。

CSV 形式版

CSV 形式版は、PDIC でのインポートやエクスポートを目的とした形式で、CSV (カンマ区切り)をベースとしているため表計算ソフトを使った編集が可能である。

PDIC からの出力時に使われている文字コードは Win32 版では Shift_JIS CRLF が、Unicode 版では BOM ありの UTF16-LE CRLF である。(入力時にはいくつかの文字コードに対応している)

一つの単語のレコードは一行で保管され、各項目間はカンマで区切っていく。ただし初めのレコードはヘッダーとして機能し、項目の順序を規定できる。デフォルトの項目の順序は以下のような並びである。

項目名種類内容備考
word文字列見出し語
trans文字列訳語
exp文字列用例
level数値単語レベル0 - 15
memory数値暗記マーク0 : 暗記マーク無し

1 : 暗記マーク有り

modify数値修正マーク0 : 修正マーク無し

1 : 修正マーク有り

pron文字列発音記号
filelink文字列ファイルリンク(OLEデータ)
keyword文字列検索キーワード

CSV の仕様上、項目内にカンマ(,)またはダブルクォーテーション(")を含む場合は、項目全体をダブルクォーテーション(")で囲まなくてはいけない(ダブルクォーテーションで囲まれている項目内部でダブルクォーテーションを使いたい場合は、それを二つ並べること("")で表現する)。この条件にあてはまらなければ、ダブルクォーテンションマークによる囲みは必須ではないが、PDICでの出力時には、数値以外の項目は全てダブルクォーテーションマークで囲まれている。

一行テキスト形式版

一行テキスト形式版は、CSV 形式と同じくインポートやエクスポートを目的とした形式で、一つの単語の情報が一行だけで表されている。

PDIC からの出力時に使われている文字コードは Win32 版では Shift_JIS CRLF が、Unicode 版では BOM ありの UTF16-LE CRLF である。(入力時にはいくつかの文字コードに対応している)

書式は以下の様になっている。

<見出し語> /// <訳語> / <用例>

用例がない場合は以下のように省略できる。

<見出し語> /// <訳語>

訳語、用例内で改行をする際は改行したい箇所に 「スペース + バックスラッシュ + スペース」と置く。例えば「a(改行)b」であれば「a \ b」のように記述する。

ただしこの形式では、仕様上前後を空白に挟まれたスラッシュやバックスラッシュ、空白と行頭または行末に挟まれたスラッシュやバックスラッシュを含むことができない。また、「見出し語・訳語・用例」以外の項目を記述することができない。

PDICには、この形式を読み込む時、全角句読点などがすべて半角のカンマに書き換えられてしまうという不具合がある。

雑記

アルカの幻日辞典や俗アルカ辞典は、BOM 無しの UTF-8 CRLF の一行テキスト形式が用いられている。

関連記事

外部リンク

  • PDIC / Unicode 紹介ページ
  • PDIC / Unicode 使い方ページ
  • 辞書の仕様 (バイナリ辞書について公式の解説)
  • PDIC/Unicodeの辞書型式 (バイナリ辞書について炭酸ソーダがまとめたもの)
  • 幻日辞典
  • 俗アルカ辞典


特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。

シェアボタン: このページをSNSに投稿するのに便利です。


最近更新されたページ

左メニュー

左メニューサンプル左メニューはヘッダーメニューの【編集】&gt;【左メニューを編集する】をクリックすると編集できます。ご自由に編集してください。掲示板雑談・質問・相談掲示板更新履歴最近のコメントカウン...

黙字

黙字とは、表音文字[1]を使用する言語に於いて、綴られているにもかかわらず発音されない文字のことである。サイレントとも言う。自然言語に於ける黙字自然言語に於いては主に以下のような歴史的な理由で黙字が存...

類型論

言語類型論抱合語孤立語膠着語屈折語総合的言語分析的言語特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

音韻論

音韻弁別的素性音素母音子音音節アクセントイントネーション韻律特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

音韻規則記述言語

音韻規則記述言語(PRDL; Phonetic Rule Description Language)とは、デネブさんによって提唱された、言語音の条件異音などを簡潔に記述するためのドメイン固有言語である...

音韻

ここでは、自然言語において起こり得る音韻の変化について説明する。目次1 母音関連1.1 母音調和1.2 ウムラウト1.3 アクセントのある音節の母音が変化する2 子音関連2.1 語中の有声音、無声音の...

音声記号の入力方法

芸術言語研究(カテゴリー)芸術言語の創り方・芸術言語の哲学このページの対象言語Se分類芸術言語モユネ分類ART音声記号の入力方法では,各種音声記号を入力する方法について解説する。目次1 文字コード1....

音声学

音声国際音声記号(IPA)国際音声記号への拡張調音調音部位調音方法特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

韓国日本語2

通り韓国日本語2.jpg特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

韓国日本語

写真の通り韓国日本語.jpg特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

集合化造語法

集合化造語法とは、短期間にたくさんの単語を作るための意味を創造する手法である。補完造語法と合わせることでより効果的になる。概要・方法この造語法の流れは以下の二つの手順で意味をあらかじめ考えておく必要が...

限定性と修正性

限定性と修正性は動詞の性質を示す用語である。言語の特徴を探る手掛かりとなる。簡単な内容は表1に記載表 1限定性修正性格の指定未定義文脈依存修飾必須任意抽象度高低限定性動詞に含まれる項が未定義で指定する...

関係方式

関係方式とは、辞書の保存方式の一つである。クノーツアクアにより提唱された。説明この方式では語句に含まれる意味や用法をカード毎に分割し、それらを組み合わせて辞書を作っていく。カードは形式毎に異なる種類の...

関与原理

関与原理(英: relatedness principle)とは、おかゆの発案による、意味役割の標示に関する原理である。関与原理は、関与という意味役割を提示する。これはいわば、あらゆる具体的な意味役割...

遺伝造語法

遺伝造語法とは、カルノス・アクアが考案した造語法の一種である。発端は、生物の遺伝の選択を造語にも生かせないか?というところからである。目次1 方法2 特徴3 用法・用量4 関連記事方法まず、何らかの共...

達丸漢字

写真2枚漢字1.jpg追記ほとんどなさそうです特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

達丸日本語

達丸日本語.jpgまず最初に達丸日本語から書きはじ‘めます。更新していく予定です 2023 4/1 (土) 21:24 現在 3つあります  googleplay アプリのcloudy で作成中ですま...

造語論

造語論とは、人工言語を制作する際の考え方の一つで、語句を作る際の考え方である。目次1 クノーツ法1.1 題目(テーマ)1.2 対象(ターゲット)1.3 目的(コンセプト)1.3.1 語法(ヴィジョン)...

辞書の読み物性

辞書の読み物性とは人工言語の辞書の読みごたえに関する指標の一つである。本来は "Fafs falira sashimi"氏が2014年に考案し、2015年7月に辞書の情報密度を表す数値として提案した。...

転写

転写とは、ある言語の発音を他の文字体系で表記することである。例えば日本の固有名詞(地名や人名など)をローマ字表記したり、英語圏の固有名詞をカタカナ表記したりすることなどである。あくまでも発音に基づいて...