Logo

そらもよう

海外作家の翻訳作品

 本日公開の作品に、ワシントン・アーヴィング「スリーピー・ホローの伝説」を推薦した。「チベット旅行記」のような隠れた名作があるにせよ、翻訳以外では、著名な作品は大体公開されてしまっていて、これはという作品が見当たらなかったためだ。「何故、翻訳の著名な作品がないの?」という疑問は度々見かける。理由はシンプル、著者だけではなく翻訳者の著作権も失効していることが公開の条件だからだ。今年公開になった作品でも原田義人によるカフカ、神西清によるツルゲーネフ、チェーホフ、佐藤緑葉によるスティーブンソン、瀬沼夏葉によるチェーホフなど、有名な作品が並ぶ。校正中の中には、モーパッサン、ゲーテ「ファウスト」、ドストエフスキー「カラマゾフの兄弟」がある。来年には公開できることを期待したい。また、校正待ちの中には、ルナール「にんじん」「博物誌」、アーヴィング「リップ・ヴァン・ウィンクル」、ブロンテ「ジエィン・エア」、ホーマー「オヂュッセーア」などがある。これらの作品は、校正者を待っているのである。そして、明日1月1日に新たに著作権が失効する作家の中には、翻訳を残してくれた人々がいる。聖書関連の矢内原忠雄、ゲーテ、ロランの翻訳をした片山敏彦がそうだ。少しずつでも、海外の作家の作品も公開できるようになるのである。(門)

左ルビの開始/終了型記法を確定

追加案を示していた左ルビの開始/終了型記法を、以下の通り確定します。

  [#左にルビ付き]……[#左に「○○」のルビ付き終わり]

近日中に改訂予定の「注記一覧」に、追加します。
ご検討、ありがとうございました。(倫)

左ルビ注記、開始/終了型記法の追加

青空文庫のテキスト版には、文章そのものに加えて、ルビやレイアウト、強調用の記号などが、もとの作品でどう使われているか、記録してある。
注記と呼んでいるそれらの書き方には、約束事が設けてある。それが守られているから、青空文庫対応の表示ソフトは、ルールを逆にたどって、テキスト版から、紙の本のようなページを組み直すことができる。

2010年元日、青空文庫で使うものをまとめた「注記一覧」の案を示し、意見を聞いて調整した後、4月1日に確定した。
その後、ルビのように、文字脇に小さなサイズで付く注釈の書き方に穴があるのに気づき、案を示して検討し、採用へと進めた。先日は、[#改見開き]を追加した。

こうして育ててきた注記に、もう一つ穴が残っているのに気づいた。
これまでの青空文庫の作業では、おそらく一度もであっていな珍しいケース。ただ、決めておかないと、出くわしたときに困る。
どこが穴になっていたか。穴を塞ぐための記法は、どんなものが考えられるか、共同作業場の「追加を検討したい注記記法」「左ルビの開始/終了記法」に記した。

注記を追ってこられた方なら、昨年、文字脇に小さなサイズで付く注釈の書き方を決めたとき、こちらにも気づいて、一緒に決めておけば良かったものをと思われるだろう。
確かに、あの時決めたものの類型だ。
だから、書き方の候補としては、次に示すこの形以外には、想定しにくいと思う。

  [#左にルビ付き]……[#左に「○○」のルビ付き終わり]

これから1週間、追加予定のこの記法案に対するコメントを受け付ける。
ご意見ある方は、reception@aozora.gr.jpに寄せていただきたい。(倫)

寄付金を原資とした校正について

本日公開した、戸坂潤「現代日本の思想対立」の校正者欄には、「青空文庫(校正支援)」と入れている。
この作品は、青空文庫の費用で校正した。

青空文庫では、誰かが入力したものを、別の誰かが読んでから、公開している。
入力できたものは、もちろんすぐにも公開したい。だが、できたと思うものの中には、高い確率で誤りが、それもかなりの数、紛れ込んでいる。
間違いがあることは、承知で使ってもらうという選択もあるだろう。そうすれば、より多くの作品を、素早くネットに上げられる。気づいた人が誤りを指摘し、その都度直していけば、やがて質は高まっていくとの期待も。
だが、その道は選ばなかった。
書き手が残した作品は、大切に扱いたい。作業ミスを減らすために努めてから公開することは、その第一歩と考えた。広く利用してもらうには、質に対する信頼も必要だろう。公開して指摘があれば正す、いわゆる分散校正的アプローチと、底本を脇に誰かが読んでいくのとでは、質の向上効果に極端な差が出るという実体験もあった。
ならば、標準の作業工程に校正を組み入れようと考えた。

テキスト化は、悪戦だ。
そこに、質を目指してのぞめば、状況はさらに悪化する。歪みは、校正に手が付かないまま、公開に至れない大量の作品の滞留となってあらわれた。
「現代日本の思想対立」の入力ファイルは、2001年7月28日に届いた。公開までに、10年以上かかったことになる。

校正者不足という問題は、青空文庫が始まった当初からあった。
一度、有償校正に踏み切ったこともある。
JIS漢字コードの拡張スケジュールに合わせて、青空文庫の作業の中でみつかった、JISでは表せない文字について報告する必要があり、その手を打った。(「●青空文庫の財政基盤」の「【第二期 1998年11月~1999年8月】」で経緯を報告している。)
これで成果も上がったが、大きなボランティアの枠の中に、一部、有償の作業を組み込むことへの困難にも直面させられた。
結果的に、一時期採用した専従者制度は続けないこととし、有償の校正も打ち切った。

行きつ戻りつの中で、募ったのは校正待ちの長期化だ。
再度有償校正を進めてみようと考えたきっかけは、青空文庫に対する寄付だった。
スマートフォーンやタブレット型機の普及が下地となって、青空文庫の利用が進んだ。縦組みで、底本の組版を忠実に再現してくれる表示ソフトが、いくつも開発された。複数の開発者から、青空文庫にとってはきわめて高額な寄付を賜った

2009年9月、その使い道について、青空文庫メーリングリストに相談した。有償校正で、長く待っているものを公開に向けて進めてはという提案があった。
長期校正待ちを選んで、校正に取り組んでくれた人がいる。
彼らがどう受け止めるか引っかかって、その際は踏み切れなかった。だが、今年5月、再度メーリングリストに、校正にしぼって寄付金を使うことを諮った。
この間、長期校正待ちを選んで読んでくれた方、何人かに、意見を聞いた。
そのはじめての成果が、「現代日本の思想対立」だ。

公認会計士の監査を受けるようになった第7期(2005年9月1日-2006年8月31日)以降の寄付金総額が、およそ190万円ある。これを原資、上限として、長期の校正待ち作品の有償校正を進めようと考えている。
適用は、原則として古い順。
成果物には、「青空文庫(校正支援)」と入れる。

無料公開、公有作品の制限のない利用という原則を貫き、資金がなくても最低限の維持だけはできるようにと、金をかけない、弱者の戦略を選んだ。
それによる成果は上がったと思うが、壁もまた、常に目の前にあった。
寄付は、電子翻刻という悪戦に立ち向かう、青空文庫へのエールだ。後押ししてくださるのなら、弱みが集中してあらわれているところに、使わせてもらおうと腹をくくった。
入力ファイルは、続々と積み上げられる。これで状況が大きく変わるわけではない。前進のエネルギーは、相変わらず、「青空文庫の提案」への共感からしか得られず、成果の大半は、私たちの手と目の業のみから生まれる。
そのことをあらためて確認しながら、有償校正の採用についての報告を終える。
「できるなら、協力しあって作業を進めましょう。」
「青空文庫の提案」に記した言葉をもう一度胸で繰り返しながら、私からの報告を終える。(倫)

[#改見開き]の書式確定

ページを改め、次の右ページから始める注記記法に対するコメント期間を終了した。

 [#改見開き]

を、そのまま採用する。
今回の提案に先立って、Twitterで、この記法の必要性と「改見開き」という呼び名について、ご意見をいただいた。ありがとうございました。(倫)

第12期(2010年9月1日~2011年8月31日)会計報告

2011年8月末に終了した青空文庫第12期の会計報告をいたします。
第11期につづき、第12期においても大きな支出となる行事や製作物はありませんでした。
拡充版CSV」を含む、データベースのいくつかの機能を追加したソフトウェアを作製し青空文庫の資産として計上しました。
前期に引き続き寄付をいただきました。改めて感謝の気持ちを申し上げます。(青空文庫会計部)

「青空文庫工作員作業マニュアル」を改訂

青空文庫工作員作業マニュアル」を、本日から第二版に切り替える。

2004年2月1日に最後にあらためてから、マニュアルには、長く手を入れられなかった。
この間、新たに採用した作業方針は、個別の文書で示しはしたものの、マニュアルに反映できず、そこに残された古い規定が、作業する人を混乱させてきた。
この問題を解消するために、次の目標を掲げて改訂に着手した。
  • 外字注記の形式や、アクセント符号付きのラテン文字の処理などについて残していた、ルール変更前の古い記述を、今の方針にそった形にあらためる。
  • 「こ」「か」「が」と読む「ケ」のようにみえる文字の扱いなど、他の文書で作業方針を示していたものを盛り込む。
  • 運用の中で方針を探ってきた、図版の取り扱いや、担当作品の制限、長期作業中作品の引き継ぎなどを盛り込む。
  • 青空文庫注記について網羅的にまとめた「注記一覧」の新設を踏まえて、この文書との連携をはかる。
  • 誤りをただし、曖昧な記述の明確化をはかる。
これにそってまとめ、先にここ「そらもよう」で示した改訂原案に対して、コメントが寄せられた。
それらを検討する中から、「×」を文字脇に添えたものを記述するための「ばつ傍点」注記と、図版や写真の説明を対象とした、「キャプション」注記を新設することにした。

新しく採用したこれらの記法は、「注記一覧」に記載すると共に、テキストをXHTMLに変換するプログラムも、これに対応させなければならない。
その作業に、取りかかる。

加えて「注記一覧」には、これ以外にも、あらためなければいけない点がある。

第一に、ルビのように文字脇に付く注記の、開始/終了型に関する規定の記載。昨年10月24日に、そらもようで告知したまま、「注記一覧」への反映を怠ってきたこの記法を書き込む。
第二に、ページを改める際の新しい記法も、追加したいと考えている。

「注記一覧」の「1 ページや段をあらためる処理」で、「改ページ」と「改丁」については、規定してある。
ここに、ページを改めて、次の右ページから始める形に対応した「改見開き」を加えたい。
記法は、次の形を考えている。

 [#改見開き]

青空文庫の注記を用いて、自分のファイルを作ろうとする人の立場から、このケースに付いても決めて欲しいとの要望がTwitterで寄せられた
これを受けて、共同作業場にこれに関するページを設けた。

本来であればこれも、今回のマニュアル改訂原案に盛り込んで、コメント期間中に諮るべきだったが、取り落としていた。
あらためてここに、この記法の追加を提案する。
今日から2週間、12月3日までをコメント期間として設定する。
ご意見があれば、reception@aozora.gr.jpに寄せていただきたい。

底本の写真や図版は、従来のマニュアルでは、ファイルに「含めない」としてきた。
今回の改訂で、著作権上の問題がなければ、「含める」を原則とすると、方針をあらためた。
これに伴って、写真や図版の画像を作成する際の目安をマニュアルに示したところ、色深度の質を上げてほしいとの要望が寄せられた。
点検グループ内で実験し、質とサイズのバランスをみて、カラー3万2000色、グレースケール256階調と、それぞれ当初提案より一段レベルを上げたものを、目安として記載することにした。

改訂原案に対してコメントしてくださった皆さん、今回の作業に先立って、Twitterや共同作業場で作業方針についてご検討いただいた方々に、あらためてお礼を申し上げます。
マニュアル第二版を足場に、青空文庫をさらに耕していきましょう。(倫)

「青空文庫工作員作業マニュアル」改訂原案へのコメント受け付けを終了

マニュアル改訂原案への、コメント受け付けを終了する。
この間頂戴したご意見を点検グループで検討し、とると判断したものを入れて、改訂へと進める。

×を傍点のように文字脇にそえたものについては、「ばつ傍点」注記の新設を考える。前方参照型、開始/終了型を、左右双方に付く場合について規定することになるだろう。
いただいたコメントをきっかけに、必要性を認識したキャプション注記も、新設を考えたい。

目安とするカラー画像の色深度を、256色から1677万色に変更するという提案に対しては、ファイルサイズを大きくしてそこまでする必要があるか、戸惑いを感じた。掲示板「こもれび」での問いかけに対しても、コメントが付かなかった。
判断に迷うが、先で変更したとしても影響のほとんど生じない目安の設定の話なので、点検グループで相談し、えいやっと決めたい。

ご検討、ありがとうございました。(倫)

「青空文庫工作員作業マニュアル」改訂原案を公開

「青空文庫工作員作業マニュアル」の改訂原案を、点検グループで用意した。
改訂の目的と主な変更点をまとめた「…変更点一覧」と原案を、本日公開し、11月7日(月曜日)までレビュー期間を設ける。
改善のための提案を、reception@aozora.gr.jpまで寄せていただけると、ありがたい。

マニュアルは、1997年の7月に青空文庫を開いた直後、「私も作業しよう」と言ってくれる人があらわれて、あわてて用意した。
0.9版を名乗った最初のバージョンを公開したのは、同年12月4日。以来、細かく繰り返してきた改訂が、2004年2月1日を最後に止まっていた。

そこから、作業方針に変化がなかったわけではない。
使うと決めている範囲にない漢字の注記形式は少しずつ変えたし、「À」や「ö」などのアクセント符号付きラテン文字の表記には、アクセント分解を採用した。
「こ」「か」「が」と読む「ケ」のような文字の取り扱いについて方針を定め、昨年には、記法を一部変更、新設して「注記一覧」をまとめた。

作業マニュアルには、これらの大きな変更を長く盛り込めず、新しく作業協力を申し入れてくれた人には、「一部に古い記述を残している」と断りながら、紹介せざるをえなかった。

本日公開の、河口慧海「チベット旅行記」で、青空文庫の著作権切れ作品は、10501となる。
私が入力しよう。私が校正しようと名乗り出てくれた人の、働きの賜物だ。
改訂を果たし、公有ファイルを青空文庫に積もうと志す人に、ためらいなくマニュアルを紹介したいと願っている。(倫)

「入力ファイルを「テキスト版」に仕上げるために」を改訂

青空文庫の作業の基本は、もとにした本の文字を入れていくことだ。
これが全体の、9割以上を占める。

残りの1割弱には、約束事が関わってくる。
振り仮名はどう入れるか。レイアウトはどう扱うか。漢字がみつからないときは、どうするか。
すぐには答えが出せないこれらについて、経験を積みながら、少しずつ「こうしよう」と決めていった。

この1割弱の決め事が、最初に青空文庫のファイルを作ろうとする人を戸惑わせる。
作業マニュアルを用意しているのだが、いささか長い。
申し訳ないことだが、更新を欠いていて、古い規定をそのまま残している。

そこで、作業の流れにそった、簡便な手引きをと考えて、「入力ファイルを「テキスト版」に仕上げるために」を提供してきた。
これもしばらく更新できずに、約束事を網羅して新設した、「注記一覧」に触れていなかった。
そこをあらため、今では記載の必要性の薄れた内容をカットして、新しい場所に置き直した。

青空文庫の文書には、「記載内容が古い」ことと、「置き場所が不適当」という二つの問題を抱えたものがある。
今回改訂した「…仕上げるために」は、当初、点検グループ内の作業メモとして書かれたという経緯があって、メンバーの私的領域に置いてきたが、改訂に合わせて、青空文庫の本体に移した。
当面は、新旧の双方に、改訂したものを置いておくが、ブックマークは、切り替えてほしい。
新:http://www.aozora.gr.jp/KOSAKU/textfile_checklist/
旧:http://attic.neophilia.co.jp/aozora/task/textfile_checklist/
「ケ」のようにみえる文字の処理について規定した、「区点番号5-17と5-86の使い分け指針」は、青空文庫メーリングリストで、断続的に数年にわたって検討した内容を、方針としてまとめたものだ。
きっかけとなった疑問や、重要なコメント、提案を、論議の過程で、点検メンバーの一人がメモしては、自分のサーバーに上げていった。「…使い分け指針」も、その流れで、私的領域においてきたが、今回合わせて、青空文庫本体に置き直す。
新:http://www.aozora.gr.jp/KOSAKU/small_or_large/guide_line.html
旧:http://attic.neophilia.co.jp/aozora/task/small_or_large/guide_line.html
この機会に、「指針」の考え方をあらためて確認しておこう。

「ケ」のような形をした、「こ」「か」「が」と読み分けられる文字は、片仮名ではない。
漢字の「个」に由来する文字だ。

青空文庫が入力に用いている JIS X 0208 は、これが区点「5-86」の「ヶ」に対応すると定めている。
ならば、規定に従おうというのが、その考え方だ。

言葉を補って経緯をたどれば、JIS X 0208 は、本来は漢字とするべきこの文字を誤って、小書き片仮名ケとして規格に組み込んだ。
1997年の改訂時、これが問題視され、誤りへの対応方針が示された。
それまでは漢字と全く異なる位置に配置されてきた「仝」「々」「〆」「〇」とともに、片仮名に配置されてきた「ヶ」に音訓が設定された。
「音訓」とは、「漢字の音と訓」だ。
この字は本来漢字であり、対応する区点は「5-86」とすると、1997年の改訂規格は方針を示した。
青空文庫は、これに従っている。

内容の古さと置き場所は、他の文書でもチェックする必要がある。見直しを、続けたい。(倫)

「JIS X 0208と0213規格票の包摂関連項目」を修正

入力を始めると、もとにした本の字の形と、パソコンのフォントが微妙に違っていて、「これで入れて良いのか。それとも、他にもっとぴったりあったものを探すべきなのか」迷うことがある。
それで良いか悪いかの指標は、青空文庫では、「JIS X 0208に明示された185番までの包摂規準に加え、JIS X 0213で追加された186~199番」に求めている。

この包摂規準、高価な規格票には掲載されているのだが、作業する人皆に、もってもらうわけにはいかない。
そこで、記載内容を「JIS X 0208と0213規格票の包摂関連項目」としてファイルにした。
2001年6月に公開してから、そのままにしてきたこの文書に、以下の修正を加えた。

2002年5月の「JIS X 0208:1997正誤票」で追加された、包摂規準「152-1)」を、JIS X 0208と0213双方の当該位置に加えた。
同正誤票で連番170)の“適用除外(規定)”に追加された「仭48-33」を、同じくJIS X 0208と0213双方の当該位置に加えた。
その他の変更点は、「修正履歴」に記載している。

外字注記辞書」を整備できた今、個々の字をどう入力すべきかの答えは、「辞書」に求めてもらった方が簡便だ。
ただ、その記載内容のもととなっている包摂規準が、どのようにできているかの把握には、今回修正したこの資料がふさわしい。(倫)

アクセスランキングに生じた問題への対処

最新のXHTML版アクセスランキング(2011年7月)には、宮沢賢治「やまなし」が三箇所に現れ、そのうち二つからは同じ図書カードにリンクしている。確認してみると、同じような症状が、過去には他の作品でもあった。
文字遣いの違うものが、別個に集計されるのは想定通り。ただ、同じ図書カードへのリンクは、予想していなかった。
集計プログラムに問題があったのではと確認してみると、原因は、いらなくなったファイルの消し忘れだった。

誤りがあるなどしてファイルを差し替えると、通常は上書きされる。
ところが、データベースのファイルの管理方式を初期に変更したため、旧形式で登録したものが残ることがある。こうしたものは、手作業で公開サーバーから削除してきたが、消し忘れがあった。
確認できたもので、宮沢賢治「オツベルと象」の新字旧仮名版、「やまなし」「よだかの星」の新字新仮名版で、古いファイルが残っていた。

青空文庫の索引からたどれば、古いファイルが開かれることはない。ところがGoogleの検索結果が、古いファイルを指していたために、消し忘れ側にえんえんと、直接のアクセスが生じていた。
それが集計結果に現れて、最新と消し忘れの二種類が、ランクインしていた。
本来の「やまなし」新字旧仮名版のアクセス数は、両者を合わせたもので、順位はもっと上にくる。

消し忘れを削除したので、来月の集計結果からは、ダブリの問題はなくなるはずだ。(倫)

「青空文庫・外字注記辞書【第八版】」を「2011年8月6日:改訂第八版訂正版」として訂正公開

本日、「青空文庫・外字注記辞書【第八版】」を「2011年8月6日:改訂第八版訂正版」として訂正公開しました。

Macでは「Adobe Reader」附属のフォントが「Adobe-Japan1-6」に全面対応でないため、「Adobe-Japan1-6」にあって「Adobe-Japan1-5」にない漢字が文字化けしておりました。改訂第八版訂正版ではこれらの文字を花園フォントで埋め込みました。
と同時に下記の注記部分の使用文字と例示字体がくいちがっていましたので訂正しました。
変更前:※[#「券」の「刀」に代えて「手」]
変更後:※[#「劵」の「力」に代えて「手」]
ご使用になられまして、文字の説明部分や、表示部分などに不具合がありましたら、reception@aozora.gr.jp宛にメールでご連絡ください。 また、JIS以外の漢字は少ししか含まれておりませんので、底本の文字が、外字注記辞書に記載されていない場合も多々あると考えられます。そのような場合もreception@aozora.gr.jp宛にメールでご連絡くだされば幸甚です。

入力・校正作業に、「青空文庫・外字注記辞書【第八版】訂正版」を大いにご利用下さい。(川)

青空文庫のXHTML,TEXTの読み方

青空文庫にやって来て、自分の好きな作品を見つけて、「いますぐXHTML版で読む」をクリックしてその作品をWebブラウザー上に表示させた時に、うわぁ、これじゃとても読めないよ、という印象を持つ人はとても多いと思う。特に紙の本にどっぷりと使っていた人ほど拒否反応は激しい。もちろんこのままでは良くないと考えたので、当初はエキスパンドブックというファイルフォーマットを用意して、縦書き、ルビ表示、ページめくりの、なるべく読みやすい環境を提供しようと努力はしていました(詳しく言えば、青空文庫はエキスパンドブックありきで始まったのですが、まあ、それはそれとして)。ところがそんなフォーマットはすぐに廃れて新しいものに取って代わられてしまうし、違うフォーマットを採用して欲しいとの要望も多いし、そのすべてのフォーマットに対応していたらどつぼにハマりそうな状態でした。だったら青空文庫は基本的なテキスト版とXHTML版だけを用意して、その読みやすさを追求するのは周りの人がやってね、ということになりました。そのような経緯からボイジャーのazurなんていう青空文庫を読むためのブラウザも開発されたし、いや、それ以前にプログラマーたちによって青空文庫形式に対応したテキストビューワーが多数開発されていました。さらに当時流行っていたPDAなどで読む環境も整えられて行きました(昔の「TEXTの読み方」参照)。

そんなPDAが流行っていた月日はあっという間に過ぎ去って、スマートフォンやタブレットが主流の時代になって、嬉しいことにさらに青空文庫の読みやすさは磨きがかけられて行きました。と同時に、青空文庫もやっと少しずつ一般の人にも認知されはじめ、コンピューターに得意な人ばかりが青空文庫に訪れるわけではなくなって来ました。つまり、Webブラウザー上に現れたXHTMLファイルを見て、「こんなデジタルデータは何か手を使えば読みやすくなるんじゃないか」という発想を持つ人ばかりが訪れるわけではなくなって来ました。10年前に比べれば格段に読みやすさが向上しているのに、「やっぱり紙の本でなければダメだ」とすぐさまあきらめて帰ってしまう人が続出(Twitterの「青空文庫」によるキーワード検索情報による)してしまうことになったのです。それじゃまずいということで、「青空文庫のXHTML,TEXTの読み方」というページを用意しました。ざっと概略しか述べてないし、あっという間に記述が古くなってしまうかもしれないのですが、ああ、こういうふうにすれば読みやすくなるのか、と気づいてくれれば嬉しいです。(AG)

「青空文庫・外字注記辞書【第八版】」を公開

本日、青空文庫・外字注記辞書【第八版】を公開しました。

2007年07月07日に「青空文庫・外字注記辞書【第五版】」を公開、2007年11月07日にPDF版【第六版】を公開、2008年02月04日に【第七版】を公開しました。あれから約三年たちました。 2011年02月28日のそらもようで案内しました「0213にない外字へのUnicodeの書き込み」に対応した外字注記辞書【第八版】を公開できる運びとなりました。 つきましてはテキスト版の冒頭に置いている「【テキスト中に現れる記号について】」の文言を、下記のように変更しますので、テンプレート等の差し替えをお願いいたします。

注記記号[#]の後の丸括弧内の補足説明を、以下のようにあらためました。
変更前:(数字は、JIS X 0213の面区点番号、または底本のページと行数)
変更後:(数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数)
また、「0213にない外字へのUnicodeの書き込み」以外の改訂箇所の主立った部分は下記のとおりです。詳しくは外字注記辞書【第八版】改訂内容を御覧下さい。
  • 項目「音声記号付きギリシア文字(全角文字)」を「ダイアクリティカルマーク付きギリシア文字」に変更し、他の非漢字の外字と同じ扱いで入力することを前提とした外字注記を追加しました。
  • 項目「準仮名・漢字」にサブ項目「準仮名・漢字」「合字」「変体仮名」をたてました。
  • 「𢈘」を部首「广」以外に部首「鹿」にも追加し、注記部分の文言を変更しました。
    ※[#「(鹿-比)の、縦画二本を下に延ばし、左右にはらいを添える」、第4水準2-94-51]
    ※[#「廉-(朔のへん-屮)」の「帚-冖-巾」に代えて「コ」、第4水準2-94-51]
  • 「巨」と「」を同一視していましたが、「JIS X 0213」の外字注記中の字体表現は規格票の例示字体をなぞる形で行いますので、区別して注記しました。あわせて、これを部分字体とする「JIS X 0213」以外の漢字を底本であたり直し、一部の字体表現を改めました。該当する漢字は13個です。詳しくは外字注記辞書【第八版】改訂内容を御覧下さい。
  • 「均」がフォントによって「土へん+勹<冫」になったり「土へん+鈞のつくり」になったりするため、外字注記に用いることをやめました。規格票の例示字体をなぞる形で注記するにあたり該当するものは下記の一つです。
    鋆 ※[#「均/金」の「鈞のつくり」に代えて「勹<二」、第4水準2-90-86]
    鋆 ※[#「(土へん+勹<二)/金」、第4水準2-90-86]
ご使用になられまして、文字の説明部分や、表示部分などに不具合がありましたら、reception@aozora.gr.jp宛にメールでご連絡ください。
また、JIS以外の漢字は少ししか含まれておりませんので、底本の文字が、外字注記辞書に記載されていない場合も多々あると考えられます。そのような場合もreception@aozora.gr.jp宛にメールでご連絡くだされば幸甚です。

入力・校正作業に、「青空文庫・外字注記辞書【第八版】」を大いにご利用下さい。(川)

分割しての宮沢賢治、萩原朔太郎作品の公開

本日公開した、宮沢賢治「青柳教諭を送る」以下、102の詩編は、底本では「文語詩未定稿」にまとめられている。今月公開するその他の賢治の詩編も、ここから入力した。
「文語詩未定稿」というまとまりは、底本編集時にもうけられたものだ。そのままでは、編集著作権に触れる可能性があると考え、公開を控えてきた。短いものを多数、ばらばらにすることで読みにくくなるが、権利侵害を避けることを優先し、この形で公開することにした。
なお、萩原朔太郎の詩編、短歌、俳句、擬古文で、同様の観点から、ばらすことを予定している。
これらを入力、校正してくだっさったjunkさん、土屋隆さん、kompassさん、小林繁雄さんを、校了後、大変長くお待たせしてしまった。申し訳ありません。(倫)

ミラーサイトでも図書カードへのリンクと目次

2010年5月以降に公開したり、作り直したりしたXHTML版には、機能が二つ加わっている。ファイル末の「●図書カード」のクリックでカードに飛べるようになり、見出しの入った作品の冒頭には、目次が表示されるようになった。
これを実現するためのJavaScriptを、ミラーサイト(mirror.aozora.gr.jp)にはこれまで置いていなかった。報告が遅れたが、6月17日に設置して、両機能が効くようになった。ミラーサイトを提供していただいているONTV様の、ご理解とご協力に感謝します。(倫)

青空に積んだ公有作品1万

 7年前に7年間で4000に到達した時(著作権有りを含む)、メッセージをそらもように寄せた。それから7年、6000のファイルを積み重ねて、予想より早く10000に到達した(こちらは、著作権切れのファイルのみ)。7年前のメッセージには、「青空文庫が、文学だけではない「日本語の文章」のコレクションとなってゆくこと」を期待するとしていた。7年経って、そこはどうだろう。文学に傾きすぎる傾向は、あまり変わらなかったかもしれない。それでも、毎年新しい作家が加わることで、随分と賑やかになってきたと思う。
 10000のファイルが公開出来るのは、14年間の積み重ねであり、そこには青空文庫の歴史がある。もう一つの観点からも、この「上海」は歴史を感じさせる。実は、最初に「上海」の入力に着手するという手があがったのは1999年、実に12年前のことなのである。10年が経過し、そこから入力作業を青空文庫を始めようと言いだした野口さんに引き継いでもらった。点検部屋の一人として引き継ぎの調整に関わった縁で、小林さんとともに、校正をすることにした。引き継ぎから2年、入力、校正が終わり、ようやく公開に結びつけることが出来た。1999年から12年間、この作品を待っていてくれた人がいるかもしれない。現在、点検部屋の一人として、長期「作業中」作品の進捗状況を問い合わせ(通称「めざまし」プロジェクト)を担当している。その担当者としては、「作業の継続が難しい時には、いつでも連絡をして下さい、誰かにバトンを引き継いでもらうのも手です」というメッセージを改めて、ここに残したい。(門)

日本でも一昨年から昨年あたりにかけてTwitterを利用する人が急激に増え始め、そこから青空文庫と言うサイトを初めて知る人が爆発的に増えたような気がします。13年目にしてやっと青空文庫が一般的な認知を得られたような実感をTwitter経由で味わってます。それにTwitterと言うツールは面白いもので、今までの掲示板やブログのコメントよりも格段に青空文庫に対する賛辞のコメントを目にする機会が増えました。Twitterとはそのような、深く考えると気恥ずかしいような美辞麗句を簡単に言えるツールなのかもしれません。とは言え、相変わらず青空文庫には問題点が多く、そんな賛辞ばかりに気を良くして浮かれていてもいけないんですけれど。でも13年間のほとんどが、様々な人からの問題点の指摘とその解決に明け暮れ、キリキリと胃の痛くなるような日々が続き、もう青空文庫なんて辞めちゃったほうが良いよなあ、なんて泣いた夜があったことを考えると、少しぐらいは浮かれ気分を満喫しても良いんじゃないかと思います。Twitterで「青空文庫」のキーワードで検索した結果出て来るTweetの、いろんな形で青空文庫を楽しんでいる人たちに向けて、この1万作品目の横光利一「上海」も送ります。(AG)

 私が青空文庫の活動に参加したのは1999年のことだった。初めて登録していただいたのは南方熊楠の「十二支考(一)虎に関する史話と伝説民俗」で、1999年3月だった。それが青空文庫の何冊目に当たるのか調べてみた。残念ながら3月の記録は残っていなかったけれど、10月4日のトップページの記録が web 上に残っていて、それを見ると、その日公開されたのは葉山嘉樹の3作品で673冊目だった。
 あれから12年。途中、より深く青空文庫に関わりはじめ、「取りあえずの目標は10000冊、10000冊」といつも心の中でひそかに唱えていた。
 その目標がとうとう達成した。それなりに感慨深いものがあるのは確かなのだが、プロ野球選手がよく言う「単なる通過点」の方が今はぴったりしているような気がする。
 その10000冊を本棚に並べてみると、まだまだ空所が多いだろう。けれど、一穿ちの積み重ねが洞門を開いたように、一歩一歩が日本地図を完成させたように、いつかはこの本棚も満ち溢れる日がやってくるに違いない。
「次の目標は……もう一桁上です」と言ったら、そら言になるでしょうか?
 何だかそれも「通過点」であるような気もする。その瞬間を私自身は見られないかもしれないけれども。(繁)

ブクログのパブー 青空文庫漫画コンテスト アンソロジー

青空文庫の収録作品をモチーフにした、漫画コンテストが開かれた。
主催は、電子書籍作りと販売の仕組み、「ブクログのパブー」を運営している、株式会社 paperboy&co. だ。

先日選考結果が発表され、芥川龍之介の同名作品をもとにした、萱島雄太さんの「鼻」が大賞をとった。
この作品のほか、佳作三篇、プロのゲスト作家による八篇、原作のテキストなどをまとめたアンソロジーが編まれた。
ここに、我らが大久保ゆうさんのインタビュー「青空文庫の歩き方」も掲載されている。
6月8日以降は有料となるが、本日まではここから、無料でPDFとEPUB版を引き落とせる。

新しい創作の手がかり、足がかりとして、青空文庫を使ってくださった皆さん、ありがとうございました。(倫)

折口信夫「死者の書」の校正をご担当いただいている方にお願い

折口信夫「死者の書」の校正、および校正予約中の夢野久作「狂歌師赤猪口兵衛」、岡本綺堂「小坂部姫」をご担当いただいている方に申し上げます。

作業を引き継げないかとの打診を受けて、進捗状況とお気持ちの確認のためメールをお送りしましたが、お返事がありませんでした。
reception@aozora.gr.jp宛に、ご一報をお願いします。

本日から一ヶ月、ご連絡を待ちます。
一月を経て、連絡を取り合えない場合は、これらの入力を引き継いでいただこうと思います。

作業の継続が難しくなった際は、皆さん、どうぞお気軽に、reception@aozora.gr.jpまでご連絡ください。
メールアドレス変更の際は、reception@aozora.gr.jp宛にご一報をお願いします。(門)

ツルゲーネフ イワン「はつ恋」の入力をご担当いただいている方にお願い

ツルゲーネフ イワン「はつ恋」の入力をご担当いただいている方に申し上げます。

作業を引き継げないかとの打診を受けて、進捗状況とお気持ちの確認のためメールをお送りしましたが、メールが届きませんでした。
reception@aozora.gr.jp宛に、ご一報をお願いします。

本日から一ヶ月、ご連絡を待ちます。
一月を経て、連絡を取り合えない場合は、これらの入力を取り消しのステータスに変更したいと思います。

作業の継続が難しくなった際は、皆さん、どうぞお気軽に、reception@aozora.gr.jpまでご連絡ください。
メールアドレス変更の際は、reception@aozora.gr.jp宛にご一報をお願いします。(門)

収録作品数1万点

新しい日がきて、収録作品数が一つ増え、1万に達した。
日本はこれから、立て直しの長い坂を、一歩一歩上る。
狭い領域だが、私たちもなお、青空を仰いで進みたい。

東日本大震災で亡くなられた方に心から御冥福を祈ると共に、被災された方々には今はただただお見舞いを申し上げるほかありません。(青空文庫呼びかけ人、点検グループ一同)

アクセスランキング1、2月分を更新

2月分のアクセスランキングを、1日遅れで公開した。また、1月分を再計算して、差し替えた。Botによる、存在しないURLへのアクセス をカウントしていたことに気づいたため、これを排除するようあらためた。(倫)

「アメリカ大統領就任演説」、ジェームス・マシュー・バリ「ケンジントン公園のピーターパン」「ピーターパンとウエンディ」、ロバート・ルイス・スティーブンソン「ジキルとハイド」「宝島」の登録末梢

作品ファイルへのリンクが切れ、読めない状態が長く続いてきた、「アメリカ大統領就任演説」、ジェームス・マシュー・バリ「ケンジントン公園のピーターパン」「ピーターパンとウエンディ」、ロバート・ルイス・スティーブンソン「ジキルとハイド」「宝島」の登録を、抹消しました。

外字注記にUnicodeを記入

青空文庫のファイルは、第1第2水準の漢字などを定めた、JIS X 0208という文字コードで作っている。
この範囲にない文字は、外字注記という形式で書く。

外字のうち、0208にないものを補う形で定められたJIS X 0213にあるものには、注記に、その面区点番号を入れてきた。
一方、0213にもないものには、底本のどこに現れるかだけを書いてきた。
その方針をあらためて、0213外のものに、Unicodeを書いてはと考えた。

点検グループ、青空文庫メーリングリスト、共同作業場、Twitterなどで相談して、以下の形で書くことにした。
変更前:※[#「口+世」、ページ数-行数]
変更後:※[#「口+世」、U+546D、ページ数-行数]
JIS X 0208と0213には、細かな字体差をもって違う字とみるか、同じものとみるかの目安となる、包摂規準が設けてある。物差しがあるので、この範囲のものについては、入れて良いか否か、判定しやすい。
一方、Unicodeでは、判断に迷う場合が、多くなるだろうと考えた。
もし、日本で第5水準以上をまとめることになったとき、また、Unicodeのものの扱いを、誰かが自分たちなりに決めようとした際、底本で再確認しやすいようにと、0213外のものには「ページ数-行数」を入れてきた。
こうした事情には、今も変わりはないと考え、この方針は維持することにした。

0213にない外字へのUnicodeの書き込みは、この案内をもって「正式に採用」という扱いにする。
これから公開するファイルや、作り替えるものに対象となる文字があれば、Unicodeを書き込む。

作業時に使ってもらっている「外字注記辞書」は、この形式に従って作り直す。
注記一覧」の記述も、改めなければならない。
作業にあたられる皆さんには、「外字注記辞書」と「注記一覧」の準備が整った段階で、あらためて、Unicodeの書き込みをお願いする。
それまでは、必要なものへの書き込みは、点検グループで行う。
ただ、外字注記辞書に、字体説明とコードは記載済みなので、「U+」の形にあらためて、先行して書き込んでいただいてもかまわない。

この変更に伴って、テキスト版の冒頭に置いている【テキスト中に現れる記号について】の文言を、一部修正した方が良いと考えた。

注記記号[#]の後の丸括弧内の補足説明を、以下のようにあらためる。
変更前:(数字は、JIS X 0213の面区点番号、または底本のページと行数)
変更後:(数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数)
工作員マニュアルからリンクしている、【テキスト中に現れる記号について】の当該箇所は、今日付けをもって変更する。
テンプレートの差し替えを、お願いしたい。

青空文庫に対応したビュワーの多くが、面区点番号をたよりに外字注記を文字に置き換えている。
今回の変更によって、Unicodeについても同様の処理が可能になるのではと期待している。
青空文庫はあくまで、JIS X 0208の包摂規準でファイルを作っているという事情には変わりない。
ただ、そのように作られたファイルでも、外字注記なしで読みたいという求めはあるだろう。
そのための条件を整え、ビュワー開発者の皆さんのご判断を仰ぎたい。(倫)

中国人名ローマ字表記方針の誤りを訂正

図書カードに記載する事項は、「青空文庫における書誌データのとりかた」に従って採取している。

その規定に、誤りがあった。
【ローマ字表記】で、マッキューン・ライシャワー式について触れているが、これは、朝鮮語をローマ字で表記する方式の一つである。
中国人名にも、これを用いるとした記述を、以下のようにあらためる。
・中国人人物名の「ローマ字表記」は、ピンインをマッキューン・ライシャワー式で書く。(この方式を採用している「平凡社 大百科事典」に従う。)
          ↓
・中国人人物名の「ローマ字表記」は、ピンインで書く。(この方式を採用している「平凡社 大百科事典」に従う。)
また、これまでのデータに、中国人名のローマ字表記を日本語読みでとったものがかなりあったので、訂正した。(倫)

「海潮音」原作者リストに追記

「海潮音」の原作者に関して、岩澤秀紀さんから、ご指摘をいただいた。

「オイゲン・クロアサン」については、ウィキペディアの「Croissant」の曖昧さ回避ページに、「Eugen Croissant (Schriftsteller) (1862-1918), deutscher Schriftsteller」との記述があった。
「ヘリベルタ・フォン・ポシンゲル」については、「Heriberta von Poschinger」で検索すると、生没年を「(1844-1905)」とした記述が確認できた。
教えていただいたこの内容を、「海潮音」の「作品について」に追加した。

原作者リストの作成にあたっては、Jukiさんからも繰り返しお力添えをいただいていた。
遅くなったが、合わせてご報告し、お礼を申し上げたい。(倫)

「海潮音」と「牧羊神」の原作者について

上田敏の訳詩集「海潮音」は、青空文庫にとって難物だ。

1902(明治35)年から1905(明治38)年にかけて雑誌に発表された翻訳詩を集めて、本郷書院から「海潮音」として刊行されたのが、1905(明治38)年10月。
国際的な著作物保護の枠組みであるベルヌ条約に日本が加盟したのは、1899(明治32)年だから、その時点ではすでに、外国の作品は日本でも保護の対象となっていたはずだ。
だが、本郷書院版「海潮音」の奥付には、ただ「訳者 上田敏」とだけある。
これを収録している近代デジタルライブラリーは、著者標目として上田敏のみを記載し、著作権は、保護期間満了としている。
国立国会図書館のOPACでも、様々な出版社から刊行された「海潮音」の著者としては、上田敏のみが示してある。

確認してみると、訳詞が雑誌に掲載され、後に集められて書籍化された時期には、ベルヌ条約の本則で、翻訳権は10年と規定されていた。オリジナルが発表されて10年のうちに、日本で翻訳版が刊行されていなければ、翻訳は自由になっていた。
もし「海潮音」収録の詩がいずれもその対象であれば、出版と図書館の世界で、同書が一貫して上田敏のみの著作物として扱われてきたことには、納得がいく。
だが、そうなのか。

そしてその「海潮音」を、青空文庫はどう扱えばよいのか。

1999(平成11)年7月1日に新字旧仮名版を公開したときは、底本の扱いにそって、上田敏のみを著作権者と位置づけていた。
それに対して、原作者の明記の求めや、彼らの著作権切れは確認できているのかとの指摘があった。
それを受けて確認を試みたが、一部がたどれず、対処しないままにしてしまった。

「海潮音」でもう一つ問題になるのは、登録形式だ。
青空文庫では、登録の基本単位を、「本」ではなく「作品」とし、著作権者との対応を明確に示すようにしている。
異なった書き手による複数の作品が、一つのファイルにおさめられる形は、避けるように調整してきた。
その流儀に従えば、「海潮音」は原作者ごとにわけて登録することになる。

すでに公開してきた新字旧仮名版に加えて、「海潮音」旧字旧仮名版の校正が終わった。
同じく上田敏による訳詩集で、同様の問題をはらむ「牧羊神」旧字旧仮名版も、校了になった。
これらの公開を前にして、青空文庫ではあらためて両作品について検討し、次のように扱うことにした。

両作品が、出版界においても、図書館でも、長く上田敏の作品として遇されてきた事実を踏まえて、「海潮音」と「牧羊神」は原作者ごとに分割せず、ひとまとまりであつかう。
青空文庫のファイルの冒頭には、著者名、訳者名等を記載するが、ここには上田敏だけを掲げる。(翻訳詩に加えて、「海潮音」には、訳者による「序」があるので、著者、訳者双方の扱いとする。)
登録データ上も、上田敏のみを「海潮音」と「牧羊神」に関連づける。
その上で、図書カードの「作品について」に、原作者名と生没年を記載する。生没年情報は、ウィキペディアにより、そこに日本語項目があればそれに、なければ英語項目に、それもなければ項目がたっている言語のうち、もっともふさわしいと判断したものにリンクする。
その上で、なぜそうしたのかを、そらもように書く。

本日公開の「海潮音」「牧羊神」、加えて、公開済みの「海潮音」新字旧仮名版でそのように対処し、この記事をそらもように掲載した。

「海潮音」の原作者では、「オイゲン・クロアサン」と「ヘリベルタ・フォン・ポシンゲル」の手がかりが、ウィキペディアからは得られなかった。
ただし、「海潮音 上田敏訳詩集」新潮文庫、新潮社(1952(昭和27)年11月28日発行、1968(昭和43)年1月15日20刷改版)の矢野峰人による解説中には、以下の記述がある。
オイゲン・クロアサン(Eugen Croissant, 1862-1918)ドイツの抒情詩人。
ヘリベルタ・フォン・ポシンゲル(Heriberte von Poschinger, 1849-?)「ハインツ・オッセン」という筆名のドイツ女流作家にして画家。

「牧羊神」の原作者中、「フェルナン・グレエグ」と「ポオル・フォオル」個人の著作権は、フランスに対する戦時加算分があるので、まだ切れていない。

もちろん、翻訳権10年が適用できれば、没年がわからなかったり、著作権の切れていない彼らの作品を公開することには問題がないが、私たちがその事実を確認できているわけではない。

日本で、外国の著作物が保護されるようになってまもない時期に、当時の海外の新しい詩も収録して、「海潮音」と「牧羊神」は編まれた。
それが、上田敏一人の著作物として扱われてきた経緯には、今の著作権感覚をもってすれば、よくわからないところがある。
今回の青空文庫の対処は、両作品にまつわる不可解を払い切るものではない。
そこのことは承知した上で、この作品を公有テキスト・アーカイブに落着させるために、私たちはこんな答えを書いてみた。(倫)

「総合インデックス」と「図書カード」に使う文字の拡張

「向島寺島町に在る遊里の見聞記」をものした永井荷風は、これを最初「玉の井雙紙」と名付け、後に「濹東綺譚」と改めた。
「濹」とは、墨田川(隅田川)の謂。
江戸から明治にかけた一時期、成島柳北が好んで用いて流行ったものの、いつしか、世に縁遠くなっていたこの字で、荷風は「殊更に風雅をよそおわせた」という。
荷風にとってもなじみ薄かったこの「濹」が、第1第2水準の漢字を定めた文字コード(JIS X 0208)にない。

そのJIS X 0208で、青空文庫はファイルを作っている。
そこにない「濹」は、外字注記と呼ぶ、「※[#「さんずい+(壥-土へん-厂)」、第3水準1-87-25]」の形で表してきた。
そんなふうにしても、文字の画像化や、表示ソフトによる「濹」への置き換えといった工夫があって、作品を読む際は、これが直接、目に触れることは少ない。

ただ、作品名や人物名を書誌データとしてとる際も、ファイル作成時と同じく、「JIS X 0208になければ外字注記」としてきたために、「総合インデックス」や「図書カード」には必ず、この形がそのまま表示される。

実は、青空文庫の公開サイトは、JIS X 0208にない文字も、表示できるように作ってある。
使う文字を拡張すると決めれば、「総合インデックス」と「図書カード」から、外字注記は消せる。

永井荷風「濹東綺譚」の公開が近づいている。
成島柳北の号である、「濹上漁史」を、人物として登録することにもなった。
これまでは、ファイルに合わせて制限してきたが、これを機会に、書誌データには、JIS X 0208にない文字も使ってみてはと考えた。

そうしても、公開サイトでは、なにがどう変わったか、気づく人はいないだろう。
うるさい外字注記が、静かに消えるだけだ。

ただ、作品に関するデータをCSV形式で提供している、「公開中 作家別作品一覧」と「作業中 作家別作品一覧」、加えて現在、暫定公開中の、「公開中 作家別作品一覧拡充版」には、影響が見える形ででる。

文字化けなしに開いてもらえるように、CSVは今後も、Shift_JISでだす。
今回、使用に踏み切るJIS X 0208にない文字は、このShift_JISでは使えないため、CSV中では、数値文字参照と呼ばれる代替的な手法で表される。
例えば「濹」は、「濹」となる。
ただし、インターネット検索してもらえれば、「濹」が何の字かは、すぐわかる。

使える文字を拡張するとなると、細かな字体差の扱いを変更するか否かが問題になる。
結論のみ書けば、JIS X 0208の包摂規準は維持して、これまで外字注記してきたものを文字に置き換えるにとどめる。
「森鴎外」を「森鷗外」に変更することはしない。

来る3月15日までを、拡充CSVの暫定公開期間と位置づけている。
この間、実験的に、使用文字を拡張してみる。
なんらか、不都合があれば、reception@aozora.gr.jp、掲示板、#aozorabunkoなどで声をかけてほしい。
対処を、相談しましょう。(倫)

黒岩涙香「死美人」、小島烏水「すたれ行く富士の古道」「天竜川」「日本アルプスなる名称」「冬の富士」、牧野信一「井伏鱒二」「喧嘩咄」「交遊記」「趣味に関して」「書斎を棄てて」「女優」「その村を憶いて」「タンタレスの春」「真夏の朝のひととき」の入力、宮本百合子「信子」の校正をご担当いただいている方にお願い

黒岩涙香「死美人」、小島烏水「すたれ行く富士の古道」「天竜川」「日本アルプスなる名称」「冬の富士」、牧野信一「井伏鱒二」「喧嘩咄」「交遊記」「趣味に関して」「書斎を棄てて」「女優」「その村を憶いて」「タンタレスの春」「真夏の朝のひととき」の入力、宮本百合子「信子」の校正をご担当いただいている方に申し上げます。

長く取り組んでいただいているこれらの進行状況について、メールをお送りしましたが、未だお気持ちの確認に至っていません。
reception@aozora.gr.jp宛に、ご一報をお願いします。

本日から一ヶ月、ご連絡を待ちます。
一月を経て、連絡を取り合えない場合は、これらの作業を取り消し扱いとさせてもらいます。

作業の継続が難しくなった際は、皆さん、どうぞお気軽に、reception@aozora.gr.jpまでご連絡ください。
メールアドレス変更の際は、reception@aozora.gr.jp宛にご一報をお願いします。(倫)

「大統領就任演説」「ピーターパン」「ジキルとハイド」「宝島」のリンク切れについて

「アメリカ大統領就任演説」、ジェームス・マシュー・バリ「ケンジントン公園のピーターパン」「ピーターパンとウエンディ」、ロバート・ルイス・スティーブンソン「ジキルとハイド」「宝島」の翻訳を登録していただいている方に申し上げます。
ファイルのリンクが切れています。
承知しているメールアドレスに連絡を入れましたが、届きません。
どうすれば良いか、ご相談したいと思います。
reception@aozora.gr.jpに、メールをください。

本日から一ヶ月、ご連絡を待ちます。
一月を経て、お気持ちを確認できない場合は、登録を解除させてもらおうと思います。(倫)

拡充版CSVに図書カードURLを追加

1月13日に案内した拡充版CSVに、さっそく、図書カードのURLを追加してはという提案があった。
他に誤りもみつかったので、合わせてあらためた。

図書カードのURLは、「最終更新日」と「人物ID」のあいだのN列に、「図書カードURL」として加えた。
テキスト版がなくて、HTML/XHTML版のある作品で、ファイルのURLが正しく表示されない問題を修正した。

3月15日までは、暫定公開期間と位置づけている。
要素の追加や削除も含めて、今後もコメントをいただけるとありがたい。(倫)

公開サイトにかかわるいくつかの変更

拡充CSVの準備と並行して、公開サイトを手直しした。

・「収録作品数」
トップページ下の「収録作品数」には、これまでトータルの数字のみを掲げてきたが、「著作権なし」、「著作権あり」の内訳も示すようにした。

・「仮名遣い種別」を「文字遣い種別」に
漢字と仮名の「新」「旧」どちらが、その作品で使われているか、リストや図書カードに表示している。図書カードではこれに、「仮名遣い種別」という見出しをつけていたが、漢字についても触れている点を踏まえて、「文字遣い種別」にあらためた。

・「旧字新仮名」の追加
「文字遣い種別」の選択肢に、「旧字新仮名」を追加した。
戦後、国語改革が進んでいくさなかの出版物に、こうしたものがあることを、データベースを作った後になって知った。

・「新着情報」に前年分へのリンクを追加
「新着情報」は、その年の分だけを掲載し、年が変わると前のものが見られなくなっていた。それを、最後のページから、前年分が開けるようにした。(倫)

ウラ・アオゾラブンコへのリンクを削除

去る1月12日、ウラ・アオゾラブンコが、事前の予告通り閉鎖された。
青空文庫に足りたない点を補うという狙いで、発表順の作品リストが提供されていて、まだ手が付いていないものになにがあるか、ここで確認できた。作者に関するいろいろな人のコメントを集めた「回想録」が、興味深かった。
青空文庫の図書カードからリンクさせてもらっていたが、別れを惜しみつつ、外すことにする。

なお、Wayback Machineには、すこし前のものがアーカイブされている。(倫)

拡充版CSVの暫定公開開始

青空文庫に登録されている作品のデータを、公開ずみのものと作業中のものにわけ、一覧表にして提供してきた。(「公開中 作家別作品一覧」と「作業中 作家別作品一覧」)

ただ、この一覧には、公開された作品ファイルのURLが含まれていなかった。
最終更新日がわかれば、最近、どんなファイルが差し替えられたかわかるのだが、それもなかった。
作品の初出のデータも、えられなかった。

提供項目をふやせば、青空文庫からより多くのものを、より簡単に引き出せるのではないかと考え、公開中一覧の拡充版の追加を検討した。
どんな項目を、どんな形で盛り込むか、共同作業場の「データベースからの情報提供(青空文庫API)」を中心に話し、叩き台を暫定公開することにした。
このページの「ア」の上、「→「公開中 作家別作品一覧拡充版:全て(CSV形式、zip圧縮)」をダウンロード」のクリックで引き落とせる。

これから3月15日までこの暫定版に対するコメントを受け付け、改めるべき点を改め、仕様を確定して、4月から本公開としたい。
コメントは、reception@aozora.gr.jp宛のメールでも、掲示板「こもれび」への書き込みでも。#aozorabunkoとつけてもらえれば、twitterも読めると思う。

暫定版は、これまでのものと同じく、「作家別」に仕立ててある。
並び順はまず、人物の「姓読みソート用」(S)、「名読みソート用」(T)で決まる。同じ人物の作品中では、作品名の「ソート用読み」(D)、「副題読み」(F)の順。
「作品著作権フラグ」(K)は、著者の他、翻訳者等、その作品に関わった人物のうち、一人でも「人物著作権フラグ」(Z)が「あり」であれば、「あり」になる。
(M)の「最終更新日」は、その作品に関するデータベース項目のどこかが、書き換えられた日だ。ファイルの更新の他、データの追加や訂正があっても、新しくなる。
底本、底本の親本は、それぞれ二枠まで用意している。三つ目以上は、出力されない。
「XHTML/HTML」(AX~BB)には、XHTMLがあればそれを。なければHTMLを。それもなければ、空欄となる。

暫定版には、図書カードのURLが入っていない。これはあった方が良いか。
ご意見を待つ。(倫)

「輝盡亭主人漫録」の登録を抹消

町野修三「輝盡亭主人漫録」の登録を、著作権者側のお申し入れにより、抹消します。(倫)

新しい人へ

今年はじめて青空文庫を訪れる人に、あらためて、この試みを紹介しておきたい。

青空文庫には、およそ700人の書き手による、1万を少し欠ける作品が登録されている。
毎日新しいものを公開するよう心がけているので、トップページ下の「収録作品数」のカウンターは、日ごとに回る。
2010年には、1157ふえた。青空文庫が始まったのが1997年の夏だから、年平均では740ほど。昨年は、やや多めに公開できた。

これらを誰が入力し、誰が校正したかは、ファイル末で確認できる。
ここにある全ての作品が、彼らの無償の働きの賜物だ。

毎年の元日、青空文庫は新しい作家を迎える。
今年の顔ぶれは、今日公開した「私の履歴書」の浅沼稲次郎、「亜剌比亜人エルアフイ」の犬養健、「空中征服」の賀川豊彦、「中世の文学伝統」の風巻景次郎、カフカの「変身」を訳した原田義人、「新アラビヤ夜話 序」の佐藤緑葉、「回顧と展望」の高木貞治、「ゲテ魚好き」の火野葦平、「酔狂録」の吉井勇、「古寺巡礼」の和辻哲郎だ。

トップページに今日は、「Happy Public Domain Day」の看板を掲げた。
今日からリストに加わった彼らの作品は昨日まで、著作権法によって保護されていた。死後50年まで続くその縛りがとけて、これからは誰でも、インターネットで公開したり、自由に複製したりできる。いわば、この社会で広く分かち合える、公有物となる。
そのことを、祝福しようという趣旨だ。

もっぱら権利保護の仕組みとして受け止められる著作権制度は、守るべきものの範囲と期間を定めて、その対象は保護するけれど、そうでないものや期限をすぎたものの利用は促そうとする仕組みでもある。
保護と利用、その均衡点として設定されているのが、作者の死後50年を経てはじめて迎える1月1日だ。

公有となった作品に加え、青空文庫には、保護期間内の作品も登録されている。
これらは、著作権者が自ら望んで、公開したものだ。
読まれてこその作品と受け止め、インターネットを利用した図書館型の仕組みを、そのための道具として活用しようとする人がいる。
私たちに受け止めるだけの十分な力があれば、彼らのものを増やせる可能性がある。

青空文庫で実際に読める作品は、トップページからたどれる「総合インデックス」で、確認できる。

提供されるファイルは、テキスト版とXHTML版の二種類だ。
前者を選ぶと、ルビを表す記号や組版情報の書き込まれたテキストが開かれる。後者を選ぶと、もう少し見栄えの良いものをウェッブブラウザーで読める。
ただここにも、縦組やページめくりといった機能はない。
電子書籍元年のかけ声とともにたくさん現れた、読書のための機器やソフトウエアにくらべると、格段に見劣りがする。

2010年に言い立てられた電子書籍元年を、最初に青空文庫を呼びかけた者たちは、1990年代の前半に体験した。
提供ファイルは、テキスト版とXHTML版と書いたが、初期に公開された作品では、ボイジャーが開発したエキスパンドブック版も用意していた。
およそ20年前に、私たちに本の未来を思い描かせてくれたのが、この電子書籍作成ソフトだった。
Macintosh用の横組だけからスタートしたが、縦組、ページめくり、ルビ、様々な組版技法への対応、加えて、音声や動画、インターネットへのリンクも組み込めて、Windowsにも対応した。
紙では得られなかった、本の可能性を広げる新しさに目がいった一方で、パソコンで自分自身が本を仕上げられる点にも惹かれた。作る側にたって、本を身近な道具に引き寄せられると思った。
ではその可能性を生かして、なにをするのか。
そこから生まれたのが、電子図書館を今すぐ、自分たちで作ろうという提案だ。
そんな経緯だったから、1997年に始めた時点では、青空文庫の基本ファイルは、エキスパンドブックだった。
Macintoshではもう、開くこともできないだろうが、Windowsなら多分、まだ読める。しっかり作り込まれた縦組のページをめくると、シャッと音まで聞こえた。

そのエキスパンドブックを、青空文庫は2002年になって廃止した。
かわって提供ファイルの中心に据えたのが、それまでは下準備くらいの気持ちで用意していた、テキストだった。
2010年の電子書籍元年には、「まず文字だけからはじめたとしても、そこにとどまっていては本の未来は開けない。音や動画やリンクを駆使した、新しいものを作ろう」といった声が聞こえた。
だが、青空文庫は、そうした未来観が描く道筋の真逆をたどった。

そうしようと決めたのは、突き詰めれば、私たちの持ち寄れる時間の決定的な乏しさからだ。
入力にも校正にも、緊張を維持して、長く取り組む必要がある。作り込んだ電子書籍ファイルのまとめには、時間に加えて特別な修練も求められる。
青空文庫からの呼びかけにこたえてくれた人にとっても、生活の中から作業時間をひねり出し、数ヶ月、時には、数年にわたって作業を続けるのは、並大抵のことではない。
その一方で、取り組みたい作品は、いくらでもみつかる。著作権の保護期間を過ぎた作家は、年ごとにふえていく。
その絶望的な不均衡に直面する中で、では私たちにとっての最後の砦はなにかと考えた時、決して手放すことのできないものは、テキストと確認した。

そう踏ん切ると同時に、いったん捨てることになる読みやすさを、将来取り戻すためのシナリオも、自分たちなりに組み立てた。
エキスパンドブック版で、もとにした本の組版を再現するための「作業指示」として、これまでも「ここからは3字分下がっている」とか「この文字には傍点がついている」などと、入力テキストに書き込んでもらっていた。この注記の書き方を、もっと厳密に決めれば、それを手がかりにプログラムに組版を再現させられるはずだ。
当面は、変換プログラムを作って、テキスト版からXHTML版を作るところまで青空文庫でやる。組版情報を、広く受け入れられたXHTMLのルールにそって書き込んでおけば、いずれはそれを解釈し、捨てざるを得なかった読みやすさを再現する、縦組、ページめくり対応の表示ソフトが生まれうるのではないか。

そしてもう一つ、組版情報を書き込んだテキストとXHTMLの提供にとどめれば、一つのフォーマットにしばられる懸念もなくなる。
ボイジャーは、すばらしい電子書籍を、他に先駆けて提供してくれたが、エキスパンドブックを下支えするパソコンのOSは、進化し続ける。時には、一新される。読むことに使える機器は、新しく生まれ続ける。将来にわたって、それらで開けるようにするためには、変わり続け、増え続けるシステムに、逐一、対応する必要がある。大きな体力がいる。加えて、アップルのQuickTimeに基盤を置くエキスパンドブックには、そもそもこの技術の動向に制約されるという事情があった。
テキストとXHTMLにしぼると腹をくくれば、せっかく作ったファイルが、将来読めなくなるのではという不安からは自由になれた。

かくして2002年、青空文庫は、未来から過去へと引き返そうと決めた。
いったん捨てた、読みやすさの再獲得に関しては、その後、予想外のことが起きた。
2004年、ボイジャーはXHTML版に書き込んだ組版情報をフルに再現する、azurを開発してくれた。
驚かされたのはその後、テキスト版から直接、組版を再現するソフトが、次々と書かれ始めたことだ。

1990年代初頭の、エキスパンドブックとの出会いから青空文庫の体験、未来から過去へと引き返すファイル選択を経て、今、思う。
電子書籍とは煎じ詰めれば、インターネット上のテキストだ。
テキスト版はまさに、ただのテキスト。XHTML版は、ウェッブの一ページに他ならない。だが、そこに組版情報が一貫したルールで書き込まれ、著者名と作品名のリスト構造の中に配置され、書誌情報がそえてあれば、一つのファイル、一つのページは、電子書籍という特別ななにかになる資格を得る。
それに目を留めて、組版再現のソフトを書いてくれる人が現れれば、可能性としての電子書籍は現実のものとなる。

こうした力学を機能させる一助となれと願って、青空文庫では昨年、どんな組版を、テキスト上ではどう書くのかをまとめた、「注記一覧」を用意した。まず、私たち自身が、一貫した約束に従って注記し続けるために。加えて、注記を表示に再現するソフトの作り手を支援するために。
そうして書かれたテキストを、XHTMLに変換するためのプログラムも作り直し、「組版案内」で公開した。

あなたがはじめて開く青空文庫のファイルは、煩雑だったり、みすぼらしかったり、なんの変哲もなかったりするだろう。
ただし、様々な機器の上で、それを読みやすく、見栄えよく表示する仕組みやソフトがそろっていることにも、やがて気づかれるのではないかと思う。

組織も、財政的基盤もなく、働く人の自発的な意思のみをたのむ弱者の選びとった戦略は、その意味では機能した。
ただし、私たちは、弱い者の力の限界にも、常に直面させられてきた。
入力はとうに終わっているにもかかわらず、10年にもわたって、校正できない作品がある。
収録作品数は、紙の本の冊にはあたらない。いくつか開けてみればわかる通り、多くは短い一作だ。13年半をかけて、それをようやく、1万だけ仕上げられた。
そして今や、書籍の電子化は、強者がしのぎを削る場となった。
国立国会図書館、Google、Amazon、アメリカの非営利団体、インターネット・アーカイブらも、ページ画像のデジタル化の手法で、青空文庫とはくらべものにならない規模の成果を上げている。

今年、あなたが出会う青空文庫とは、そんな試みだ。
弱い者が弱いままに始め、強みを求めないことでなにがしかの成果を上げた私たちは、きっと力乏しいこのままに進むだろう。足腰は弱いが、その存在意義が完全に消え去るまで、私たちの誰かは、この仕組みを支え続けると思う。
人の働き場所は、至るところにある。
この社会を少し、雑巾がけできないかと考えたとき、目指すべき青山もまた、どこにもみつかる。
その中で、私たちは「青空文庫の提案」に呼応してここに集まり、少しばかりの成果を上げて、なお一歩でも半歩でも、進みたいと願っている。
あなたが開くのは、そんな試みの成果だ。(倫)

トップページへ