W3C

CSS Speech Module

2017 年 2 月 1 日付 W3C 編集者草案

このバージョン
https://drafts.csswg.org/css3-speech/
最新発行バージョン
http://www.w3.org/TR/css3-speech/
以前のバージョン
http://www.w3.org/TR/2012/CR-css3-speech-20120320/
https://www.w3.org/TR/2011/WD-css3-speech-20110818/
フィードバック
www-style@w3.org with subject line “[css-speech] … message topic …” (archives)
編集
Daniel Weck (DAISY Consortium)
前任編集者
Dave Raggett (W3C/Canon)
Daniel Glazman (Disruptive Innovations)
Claudio Santambrogio (Opera Software)
Copyright © 2017 W3C® (MIT, ERCIM, Keio, Beihang). W3C liability, trademark and permissive document license rules apply.

要約

CSS ( Cascading Style Sheets )は、( HTML や XML などの)マークアップ文書から, スクリーン, 紙, 発話( speech ), 等々 の媒体への具現化( rendering )を記述するための言語である。 Speech モジュールは、作者が,発話合成を通して, 加えて 随意で音声指示も利用して,文書の音声化( rendering )を宣言的に制御できるようにするための、聴覚 CSS プロパティを定義する。 この標準は Voice Browser Activity との協同の下,開発された。 CSS (Cascading Style Sheets) is a language that describes the rendering of markup documents (e.g. HTML, XML) on various supports, such as screen, paper, speech, etc. The Speech module defines aural CSS properties that enable authors to declaratively control the rendering of documents via speech synthesis, and using optional audio cues. Note that this standard was developed in cooperation with the Voice Browser Activity.

この文書の位置付け

これは編集者草案の公開の複製です… 【 以下、この節の他の内容は CSS 日本語訳 共通ページ に委譲 】

この文書は、 Last Call Working Draft (18 August 2011) に基づくものであり, disposition of comments からの結論が反映された変更点が含められています。 This document is based on the Last Call Working Draft (18 August 2011) and includes changes that reflect the outcome of the disposition of comments.

仕様が 勧告案 の段階に昇格するためには、 勧告候補からの昇格基準 が満たされなければなりません。 仕様が 2012 年 9 月 20 日より前に勧告案に昇格することはありません。 勧告候補の期間内には、テスト一式および実装報告が作成されることになります。 Before the specification can progress to Proposed Recommendation, the CR exit criteria must be met. The specification will not become Proposed Recommendation before 20 September 2012. A test suite and an implementation report will be made during the Candidate Recommendation period.

次の特色機能はリスク下にあり、実装側からの十分な関心が得られなかった場合,勧告候補の期間内に取り下げられる可能性があります: voice-balance, voice-duration, voice-pitch, voice-range, voice-stress The following features are at-risk and may be dropped at the end of the Candidate Recommendation period if there has not been enough interest from implementers: ‘voice-balance’, ‘voice-duration’, ‘voice-pitch’, ‘voice-range’, and ‘voice-stress’.

【用語の対訳】

この仕様で特に用いられている主な語彙の対訳を以下に示す。 これらは,主に、他の(特に視覚的な) CSS 関連の仕様には見られない語であって, かつ この仕様が定義する語ではなく, かつ 原語が自明でない と考えられる語として挙げている († 一般に目にする機会が少ないか, または 決まった定訳がないか, または 定訳はあるが他の語の対訳としてもあり得るか, または 定訳と異なる対訳を用いているか, または 外来語として記される方が多い などの理由で)

対訳 原語 備考
ボイス voice 視覚媒体におけるフォントに役割が類似する。
音声 audio
音声化する render, rendered aurally
音声化(体言) rendering, aural rendering
〜による音声化 rendition
発話する speak “読み上げ” と対訳される方が多いと思われるが,語義/語幹の観点から “話” を入れた語を利用する。 ( “読み上げ” は “read out” などの対訳にも利用されている。)
発話(体言) speech 同上
発話速度 speaking rate
発話合成 speech synthesis “合成発話” は “synthetic speech”
発話合成器 speech synthesizer
TTS text-to-speech 発話合成の技術/システム
出力音量 volume 聴感音量( loudness )と区別
聴感音量 loudness 出力音量( volume )と区別
聴覚 aural
聴覚アイコン auditory icon
聴覚環境 auditory environment
聴き取り listening
聴き取り者 listener
指示音 cue
音声指示 audio cue
休止 rest ポーズ( pause )と似るが,聴覚ボックスモデルの中での位置, および連接 時のふるまいが異なる
韻律 prosodic 参考
韻律境界 prosodic boundary 固有の持続時間を伴う無音
分断 break 休止やポーズなどにより生じる間(ま)
連接 adjoining 境界を共有する隣接
音響, 音 sound
無音 silence, silent 音は出ないが時間は消費する
半音 semitone
音高 pitch
音階 scale
音素 phoneme
発声 announce
発音 pronunciation
音標 phonetic 発音表記に用いられる記法/文字
再生する play
再生(体言) playback
自然言語 language 人工言語と区別
相殺する collapse 視覚ボックスモデルのマージンの相殺( collapse )の概念と類似
相殺(体言) collapsing 同上

1. 序論, 設計目標

この節は参考である。 Note that this section is informative.

聴覚­情報の呈示は、一般的に,視覚に障碍のある人, あるいは印字不能な環境において利用される。 例えば, “スクリーンリーダー(画面読み取り器)” は、視覚的インタフェースの下で,利用者たちが, 彼らにとり他の仕方ではアクセスできないような情報のやりとりを,可能にする。 また、個人の身体的な情報アクセス能力とは関係なく,内容の (読み取り とは対照的に) 聴き取り が望まれる, 場合によっては要求されるような状況もある。 具体的には: 電子本の再生, 車の運転時, 工業用/医療用 機器の操作方法の習得, 在宅鑑賞システムとのやりとり, 年少者のための読み方の指導, 等々。 The aural presentation of information is commonly used by people who are blind, visually-impaired or otherwise print-disabled. For instance, "screen readers" allow users to interact with visual interfaces that would otherwise be inaccessible to them. There are also circumstances in which listening to content (as opposed to reading) is preferred, or sometimes even required, irrespective of a person's physical ability to access information. For instance: playing an e-book whilst driving a vehicle, learning how to manipulate industrial and medical devices, interacting with home entertainment systems, teaching young children how to read.

Speech モジュールにて定義される CSS プロパティにより、作者は,聴覚次元の下での文書の呈示を宣言的に制御できるようになる。 文書の音声化は、[ 発話合成( “TTS” — Text to Speech の頭字語 — としても知られている), および 聴覚アイコン(この仕様の中では, “音声指示” と称される) ]の組み合わせにより行われる。 CSS Speech プロパティは、[ 発話の[ 音高や速度 ], 音についての各種レベル, TTS ボイス,その他 ]を制御する能力を提供する。 これらのスタイルシート­プロパティは、視覚的プロパティと併用したり(混成媒体),視覚的­呈示に対する聴覚による完全な代替にもなり得る。 The CSS properties defined in the Speech module enable authors to declaratively control the presentation of a document in the aural dimension. The aural rendering of a document combines speech synthesis (also known as "TTS", the acronym for "Text to Speech") and auditory icons (which are referred-to as "audio cues" in this specification). The CSS Speech properties provide the ability to control speech pitch and rate, sound levels, TTS voices, etc. These stylesheet properties can be used together with visual properties (mixed media), or as a complete aural alternative to a visual presentation.

2. 背景情報, CSS 2.1

この節は参考である。 Note that this section is informative.

CSS Speech モジュールは、 CSS 2.1 の Aural 参考付録の作り直しである。 その仕様には,媒体型として "aural" が述べられていたが,( "speech" (発話)媒体型への支持を受けて)廃止予定にもなっている。 [CSS21] 仕様は "speech" 媒体型を予約してはいるが、実際には,対応するプロパティを定義していない。 Speech モジュールは "speech" 媒体型に適用し得る CSS プロパティについて述べ、特に聴覚次元のための,新たな “ボックス” モデルを定義する。 The CSS Speech module is a re-work of the informative CSS2.1 Aural appendix, within which the "aural" media type was described, but also deprecated (in favor of the "speech" media type). Although the [CSS21] specification reserves the "speech" media type, it doesn't actually define the corresponding properties. The Speech module describes the CSS properties that apply to the "speech" media type, and defines a new "box" model specifically for the aural dimension.

内容­作成者は、 "speech" 媒体型の指定を[ link 要素の media 属性を通して, あるいは @media at-規則により, あるいは @import 文の中で ]行うことにより、[ TTS 合成を備える UA ]専用の CSS プロパティを,条件付きで働くように含ませられる。 その種の条件文の有効範囲で著作されたスタイルは、 Speech モジュールをサポートしない UA からは無視される。 Content creators can conditionally include CSS properties dedicated to user agents with text to speech synthesis capabilities, by specifying the "speech" media type via the media attribute of the link element, or with the @media at-rule, or within an @import statement. When styles are authored within the scope of such conditional statements, they are ignored by user agents that do not support the Speech module.

3. SSML との関連性

この節は参考である。 Note that this section is informative.

この仕様の中の一部の特色機能は、 SSML ( Speech Synthesis Markup Language ) 1.1 [SSML] に述べられる機能に概念的に類似する。 しかしながら, CSS モデルの特殊性から、 SSML の構文や意味論との互換性は,部分的な範囲に限られる。 Speech モジュールの各種プロパティの定義には、 SSML の類似の機能との関連性を明確化するため,必要に応じて参考情報が含められている。 Some of the features in this specification are conceptually similar to functionality described in the Speech Synthesis Markup Language (SSML) Version 1.1 [SSML]. However, the specificities of the CSS model mean that compatibility with SSML in terms of syntax and/or semantics is only partially achievable. The definition of each property in the Speech module includes informative statements, wherever necessary, to clarify their relationship with similar functionality from SSML.

4. CSS 値

【 この節の内容は CSS 日本語訳 共通ページ に委譲 】

5. 例

下の例は、 HTML の見出しを, paul と称されるボイスにより,( normal より強い) moderate 強調を利用して,発話合成器に発話させる方法、および 各 見出しに対する TTS 音声化の開始­前に,音声指示(与えられた URL に在る録音済みの音声クリップ)を挿入する方法を示すものである。 ステレオ音響システムにおいては、 CSS クラス heidi が付与された段落( p 要素 )が左­音声チャンネルに(および,女性ボイス, その他により)音声化され, クラス peter のものが右チャンネルに(および,男性ボイス, その他により)音声化される。 クラス special が付与された span 要素では、テキストの出力音量レベルが 通常より低くされた上で、それが発話された後に強いポーズが導入されることにより,韻律境界が作成される( HTML の span はその親の段落から voice-family を継承することに注意)。 This example shows how authors can tell the speech synthesizer to speak HTML headings with a voice called "paul", using "moderate" emphasis (which is more than normal) and how to insert an audio cue (pre-recorded audio clip located at the given URL) before the start of TTS rendering for each heading. In a stereo-capable sound system, paragraphs marked with the CSS class "heidi" are rendered on the left audio channel (and with a female voice, etc.), whilst the class "peter" corresponds to the right channel (and to a male voice, etc.). The volume level of text spans marked with the class "special" is lower than normal, and a prosodic boundary is created by introducing a strong pause after it is spoken (note how the span inherits the voice-family from its parent paragraph).

h1, h2, h3, h4, h5, h6 {
  voice-family: paul;        /* 特定のボイス名 */
  voice-stress: moderate;    /* 強調するときの度合い */
  cue-before: url(../audio/ping.wav); /* 音声指示 */
  voice-volume: medium 6dB;  /* 聴感音量+出力音量の補正量 */
}
p.heidi {
  voice-family: female;      /* 女性ボイス */
  voice-balance: left;       /* 左チャンネル */
  voice-pitch: high;         /* 高めの音高 */
  voice-volume: -6dB;        /* 出力音量の補正量 */
}
p.peter {
  voice-family: male;        /* 男性ボイス */
  voice-balance: right;      /* 右チャンネル */
  voice-rate: fast;          /* 速い発話 */
}
span.special {
  voice-volume: soft;        /* 控えめな聴感音量 */
  pause-after: strong;       /* 強いポーズ */
}
<h1>ポールです。見出しの読み上げを担当します。</h1>
<p class="heidi">こんにちは、私はハイジよ。</p>
<p class="peter">
  <span class="special">聴こえますか?</span>
  僕はピーター。
</p>

6. 聴覚­整形モデル

聴覚媒体のための CSS 整形モデルは、 視覚ボックスモデル に類似するような,入れ子にされた文脈の中で生じる[ 音と無音 ]の並びに基づいている。 ここでは それを, 聴覚 “ボックス” モデル と称することにする。 聴覚 “キャンバス” は、[ 合成発話と音声指示 ]が共存し得るような,[ 2チャンネル(ステレオ)空間, および時間軸 ]の次元 聴覚次元 からなる。 選択要素 【 “CSS 選択子により選択されている要素” — 論の対象にされているプロパティが適用される要素 — この仕様を通して,この意味で用いられる 】 は、(内側から外側にかけて)順に[ rest, cue, pause ]プロパティで囲まれる。 これらは それぞれ,聴覚において[ padding, border, margin ]プロパティに等価なものと捉えられる。 疑似要素[ ::before, ::after[CSS21] が利用されたときは,要素の内容と rest の狭間に挿入される。 The CSS formatting model for aural media is based on a sequence of sounds and silences that occur within a nested context similar to the visual box model, which we name the aural "box" model. The aural "canvas" consists of a two-channel (stereo) space and of a temporal dimension, within which synthetic speech and audio cues coexist. The selected element is surrounded by ‘rest’, ‘cue’ and ‘pause’ properties (from the innermost to the outermost position). These can be seen as aural equivalents to ‘padding’, ‘border’ and ‘margin’, respectively. When used, the ‘:before’ and ‘:after’ pseudo-elements [CSS21] get inserted between the element's contents and the ‘rest’.

次の図式に、選択要素(図中の "<element>" )に適用される, 視覚ボックスモデル聴覚ボックスモデル のプロパティの間の等価性を示す: The following diagram illustrates the equivalence between properties of the visual and aural box models, applied to the selected <element>:

  1. pause-before
    margin-top
  2. cue-before
    border-top
  3. rest-before
    padding-top
  4. 要素
  5. rest-after
    padding-bottom
  6. cue-after
    border-bottom
  7. pause-after
    margin-bottom
図式による聴覚 “ボックス” モデル: 中央に選択要素が位置し,その 左側には(内側から外側にかけて)[ rest-before, cue-before, pause-before ]が並び, 右側には(内側から外側にかけて)[ rest-after, cue-after, pause-after ]が並ぶ。 ここで、[ rest-*padding ]に, [ cue-*border ]に, [ pause-*margin ]に,概念的に類似する。 The aural 'box' model, illustrated by a diagram: the selected element is positioned in the center, on its left side are (from innermost to outermost) rest-before, cue-before, pause-before, on its right side are (from innermost to outermost) rest-after, cue-after, pause-after, where rest is conceptually similar to padding, cue is similar to border, pause is similar to margin.

7. ミキシング­プロパティ

7.1. voice-volume プロパティ

名前voice-volume
silent | [[x-soft | soft | medium | loud | x-loud] || <decibel>]
初期値medium
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値 silent, または[ それ以外のキーワード値と,非ゼロのデシベル差分(オプション) ]の組 ‘silent’, or a keyword value and optionally also a decibel offset (if not zero)

voice-volume プロパティは、 発話合成器から生成される音声­波形の振幅を,作者が制御できるようにする。 また、選択要素の聴覚ボックスモデルにおける,音声指示の相対的な出力音量レベルの調整にも利用される。 The ‘voice-volume’ property allows authors to control the amplitude of the audio waveform generated by the speech synthesiser, and is also used to adjust the relative volume level of audio cues within the aural box model of the selected element.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]prosody 要素volume 属性に類似するが,留意すべき不一致があることに注意。 例えば, CSS Speech 出力音量キーワードとデシベル単位は、選択要素に対する 値の継承と組み合わせの仕組みから,排他的でない。 Note that although the functionality provided by this property is similar to the volume attribute of the prosody element from the SSML markup language [SSML], there are notable discrepancies. For example, CSS Speech volume keywords and decibels units are not mutually-exclusive, due to how values are inherited and combined for selected elements.

silent
(大きさのある)音は生成されない(テキストは “無音として” 読まれる)ことを指定する。 Specifies that no sound is generated (the text is read "silently").
これは、負の無限デシベルの利用と同じ効果になることに注意。 また、 voice-volume プロパティの値が silent にされた要素と, speak プロパティの値が none にされた要素との間には,相違があることにも注意。 前者では、選択要素は,要素の前後のポーズも含め,それが発話されたかのように同じ時間を占めつつ, 大きさのある音は生成されない(ただし,選択要素の聴覚ボックスモデル内の子孫は voice-volume 値を上書きできるので、音声出力を生成し得る)。 一方で後者では、選択要素は聴覚次元の中に音声化されず,再生のための時間も割り当てられられない(ただし,選択要素の聴覚ボックスモデル内の子孫は speak 値を上書きできるので、音声出力を生成し得る)。 Note that this has the same effect as using negative infinity decibels. Also note that there is a difference between an element whose ‘voice-volume’ property has a value of ‘silent’, and an element whose ‘speak’ property has the value ‘none’. With the former, the selected element takes up the same time as if it was spoken, including any pause before and after the element, but no sound is generated (descendants within the aural box model of the selected element can override the ‘voice-volume’ value, and may therefore generate audio output). With the latter, the selected element is not rendered in the aural dimension and no time is allocated for playback (descendants within the aural box model of the selected element can override the ‘speak’ value, and may therefore generate audio output).
x-soft
soft
medium
loud
x-loud
これらのキーワードは、それぞれが,[ 知覚される聴感音量( loudness )についての聴き取り者の要件を満たすような 実装依存の値 ]に対応付けられる出力音量レベルに 対応する。 後に示されているもの程,より大きくなる(厳密には,より小さくない)。 これらの音声レベルは,概して、利用者が聴覚環境に応じて 音についてのオプションを調節できるような,選好の仕組みを通して提供される。 各種キーワード: x-soft は 利用者が 聴き取れる最小の 出力音量レベルに, x-loud は 利用者が 容認し得る最大の 出力音量レベルに, medium は 利用者にとり 好ましい 出力音量レベルに, softloud は それらの中間の値に,対応する。 This sequence of keywords corresponds to monotonically non-decreasing volume levels, mapped to implementation-dependent values that meet the listener's requirements with regards to perceived loudness. These audio levels are typically provided via a preference mechanism that allow users to calibrate sound options according to their auditory environment. The keyword ‘x-soft’ maps to the user's minimum audible volume level, ‘x-loud’ maps to the user's maximum tolerable volume level, ‘medium’ maps to the user's preferred volume level, ‘soft’ and ‘loud’ map to intermediary values.
<decibel>

実数, "dB" (デシベル単位) ]の並びで与えられ、次の値に相対的な(正負の)変化を表現する: A number immediately followed by "dB" (decibel unit). This represents a change (positive or negative) relative to the given keyword value (see enumeration above), or to the default value for the root element, or otherwise to the inherited volume level (which may itself be a combination of a keyword value and of a decibel offset, in which case the decibel values are combined additively). When the inherited volume level is ‘silent’, this ‘voice-volume’ resolves to ‘silent’ too, regardless of the specified <decibel> value. Decibels represent the ratio of the squares of the new signal amplitude (a1) and the current amplitude (a0), as per the following logarithmic equation: volume(dB) = 20 log10 (a1 / a0)

  1. (上に列挙された)キーワード値も与えられていれば それ。
  2. 他の場合,ルート要素に対しては既定値 【すなわち,初期値】
  3. 他の場合,継承される出力音量レベル(それ自身,キーワード値とデシベル差分の組み合わせをとり得る — この場合のデシベル値は加法的に組み合わせられる)。

    この場合、継承された出力音量レベルが silent であるならば、この voice-volume も,指定された <decibel> 値に関係なく silent に解決される。

デシベルは,次の対数による等式に従う,新たな信号振幅( a1 )と現在の振幅( a0 )の比率の二乗を表現する:

出力音量( dB ) = 20 × log10 ( a1 ÷ a0 )

−6.0dB は 音声信号の振幅において およそ半分, +6.0dB は およそ 2 倍になる。 Note that -6.0dB is approximately half the amplitude of the audio signal, and +6.0dB is approximately twice the amplitude.

知覚される聴感音量は、利用者の聴き取り環境, 選好, 身体能力など,様々な要因に依存することに注意。 x-soft から x-loud までの有効な出力音量の変動範囲は、音声出力の(聴感音量­上の)ダイナミックレンジを表現する。 この範囲は概して,騒がしい環境下では圧縮されることになる — すなわち、 x-soft に対応する 知覚される聴感音量は,静かな環境下のときより実質的に x-loud に近付くことになるであろう。 また、思慮分別が求められる聴き取り環境(図書館や夜中の読書など)など, x-soft, x-loud の両者とも低い出力音量レベルに対応する状況もあるだろう。 Note that perceived loudness depends on various factors, such as the listening environment, user preferences or physical abilities. The effective volume variation between ‘x-soft’ and ‘x-loud’ represents the dynamic range (in terms of loudness) of the audio output. Typically, this range would be compressed in a noisy context, i.e. the perceived loudness corresponding to ‘x-soft’ would effectively be closer to ‘x-loud’ than it would be in a quiet environment. There may also be situations where both ‘x-soft’ and ‘x-loud’ would map to low volume levels, such as in listening environments requiring discretion (e.g. library, night-reading).

7.2. voice-balance プロパティ

名前voice-balance
<number> | left | center | right | leftwards | rightwards
初期値center
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値 −100 〜 100 の範囲の <number> に解決される指定値。 the specified value resolved to a <number> between ‘-100’ and ‘100’ (inclusive)

voice-balance プロパティは、音響ステージの,側面方向にまたがる 音声出力の空間的な分布を制御する: 聴き取り者から見て,一方の端は左手側, 他方の端は右手側に。 作者は、左右端の中間の段階を指定して,結果における 左右軸に沿う音声分離 を表現できる。 The ‘voice-balance’ property controls the spatial distribution of audio output across a lateral sound stage: one extremity is on the left, the other extremity is on the right hand side, relative to the listener's position. Authors can specify intermediary steps between left and right extremities, to represent the audio separation along the resulting left-right axis.

SSML マークアップ言語 [SSML] には、このプロパティにより提供される機能に該当するものがないことに注意。 Note that the functionality provided by this property has no match in the SSML markup language [SSML].

<number>
−100 〜 100 の範囲の実数。 範囲外の値は範囲内に切り詰められる。 負数は左側を表現し, 正数は右側を表現する。 0 は、左右の音声分離を聴き分け得ない,中央点を表現する(ステレオ音響システムの下では、これは,左右スピーカへの音声信号の分布が等しいことに対応する)。 A number between ‘-100’ and ‘100’ (inclusive). Values smaller than ‘-100’ are clamped to ‘-100’. Values greater than ‘100’ are clamped to ‘100’. The value ‘-100’ represents the left side, and the value ‘100’ represents the right side. The value ‘0’ represents the center point whereby there is no discernible audio separation between left and right sides (in a stereo sound system, this corresponds to equal distribution of audio signals between left and right speakers).
left
-100 と同じ。 Same as ‘-100’.
center
0 と同じ。 Same as ‘0’.
right
100 と同じ。 Same as ‘100’.
leftwards
音を左へ移動させる — 継承 voice-balance 値から 20 を減算した上で −100 に切り上げて得られる数により。 Moves the sound to the left, by subtracting 20 from the inherited ‘voice-balance’ value, and by clamping the resulting number to ‘-100’.
rightwards
音を右へ移動させる — 継承 voice-balance 値に 20 を加算した上で 100 に切り下げて得られる数により。 Moves the sound to the right, by adding 20 to the inherited ‘voice-balance’ value, and by clamping the resulting number to ‘100’.

UA に接続される音響システムに備わる音声ミキシングには、その特色機能として種々のものがあり得る。 [ モノ, ステレオ, サラウンド ]の音響システムに予期されるふるまいは、それぞれ,次の様に定義される: user agents may be connected to different kinds of sound systems, featuring varying audio mixing capabilities. The expected behavior for mono, stereo, and surround sound systems is defined as follows:

  • UA がモノラル(すなわち,単独のスピーカからなる)音響システムを通して音声を生産する下では、 voice-balance プロパティの効果はない。 When user agents produce audio via a mono-aural sound system (i.e. single-speaker setup), the ‘voice-balance’ property has no effect.
  • UA がステレオ音響システム(例えば 2スピーカやヘッドフォン)を通して音声を生産する下では、音声信号の左右間の分布は,著作された voice-balance プロパティに対する値に 精確に合致し得る。 When user agents produce audio through a stereo sound system (e.g. two speakers, a pair of headphones), the left-right distribution of audio signals can precisely match the authored values for the ‘voice-balance’ property.
  • UA が多チャンネル(例えば 専用のセンターチャンネルも備える 5スピーカからなるサラウンド音響システム)を通した音声信号のミキシングも可能な下では、 voice-balance プロパティの適用による結果の 音声信号の物理的な分布は、聴き取り者からは,基本的なステレオ配置から音が鳴らされているかのように知覚されるべきである。 例えば, center 値のふるまいを模倣するために,センターチャンネルも左/右スピーカと併用されてもよい。 When user agents are capable of mixing audio signals through more than 2 channels (e.g. 5-speakers surround sound system, including a dedicated center channel), the physical distribution of audio signals resulting from the application of the ‘voice-balance’ property should be performed so that the listener perceives sound as if it was coming from a basic stereo layout. For example, the center channel as well as the left/right speakers may be used altogether in order to emulate the behavior of the ‘center’ value.

CSS Speech モジュールの将来の改訂には、作者が実質的に “方位角” と “仰角” の値を指定できるような,三次元の音声のためのサポートも含められ得る。 従って、将来的には,現在の仕様を利用して著作された内容は、三次元の音声をサポートする CSS Speech のバージョンに準拠する UA からも消費され得る。 この可能性に備えるため、現在の voice-balance プロパティに可能化されている値は, “方位角” による角度との互換性が維持されるように設計されている。 より精確には、現在の左右間の音声軸(側面方向の音響ステージ)と,聴き取り者から見た周囲 360 度 平面との対応付けが、次の様に定義される: Future revisions of the CSS Speech module may include support for three-dimensional audio, which would effectively enable authors to specify "azimuth" and "elevation" values. In the future, content authored using the current specification may therefore be consumed by user agents which are compliant with the version of CSS Speech that supports three-dimensional audio. In order to prepare for this possibility, the values enabled by the current ‘voice-balance’ property are designed to remain compatible with "azimuth" angles. More precisely, the mapping between the current left-right audio axis (lateral sound stage) and the envisioned 360 degrees plane around the listener's position is defined as follows:

  • 0 は、ゼロ­度( center )に対応する。 これは、聴き取り者の “背後から” ではなく, “正面から” になる。 The value ‘0’ maps to zero degrees (‘center’). This is in "front" of the listener, not from "behind".
  • -100 は, −40 度( left )に対応する。 負の角度は,(音声ステージを真上から眺めて)反時計回りの方向を表す。 The value ‘-100’ maps to -40 degrees (‘left’). Negative angles are in the counter-clockwise direction (the audio stage is seen from the top).
  • 100 は, 40 度( right )に対応する。 正の角度は,(音声ステージを真上から眺めて)時計回りの方向を表す。 The value ‘100’ maps to 40 degrees (‘right’). Positive angles are in the clockwise direction (the audio stage is seen from the top).
  • −100 〜 100 の範囲の値は、数値的に線形に比例するように, −40 〜 40 度の範囲の角度に対応する。 例えば, −50 は −20 度に対応する。 Intermediary values on the scale from ‘-100’ to ‘100’ map to the angles between -40 and 40 degrees in a numerically linearly-proportional manner. For example, ‘-50’ maps to -20 degrees.

文書­作者により指定される左右間の音声分布は、利用者による音響システムの設定により,干渉され得ることに注意。 概して、現代的な音響システムは,(基本的なステレオ スピーカ­システムも含め)種々の “サラウンド” モードを備えており、知覚される 音声信号の空間的な配置が大きく変えられる傾向にある。 三次元の音響ステージによる錯覚効果は、しばしば,[ 位相変位, デジタル遅延, 出力音量 制御(チャンネル­ミキシング), その他の技法 ]の組み合わせを利用して得られる。 一部の利用者は、自身のシステムを,音声化される音を単独のモノ­チャンネルに “ダウングレード” することすらある — この場合, voice-balance プロパティの効果は明らかに知覚し得なくなる。 従って、著作された内容の音声化における忠実さは,利用者による その種のカスタマイズに依存する。 voice-balance プロパティは,単に欲される最終結果を指定するものに過ぎない。 Note that sound systems may be configured by users in such a way that it would interfere with the left-right audio distribution specified by document authors. Typically, the various "surround" modes available in modern sound systems (including systems based on basic stereo speakers) tend to greatly alter the perceived spatial arrangement of audio signals. The illusion of a three-dimensional sound stage is often achieved using a combination of phase shifting, digital delay, volume control (channel mixing), and other techniques. Some users may even configure their system to "downgrade" any rendered sound to a single mono channel, in which case the effect of the ‘voice-balance’ property would obviously not be perceivable at all. The rendering fidelity of authored content is therefore dependent on such user customizations, and the ‘voice-balance’ property merely specifies the desired end-result.

多くの発話合成器は、モノ音しか生成しないので,本来的に voice-balance プロパティをサポートしないことに注意。 そのため、左右軸に沿う音の分布は,合成の後処理の段階(発話が可能化されている UA が,文書­内に著作された種々の音声ソースを混合する段階)で生じる。 Note that many speech synthesizers only generate mono sound, and therefore do not intrinsically support the ‘voice-balance’ property. The sound distribution along the left-right axis consequently occurs at post-synthesis stage (when the speech-enabled user agent mixes the various audio sources authored within the document)

8. 発話プロパティ

8.1. speak プロパティ

名前speak
auto | never | always
初期値auto
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値指定値

speak プロパティは、テキストを音声化するかどうかを決定する。 The ‘speak’ property determines whether or not to render text aurally.

SSML マークアップ言語 [SSML] には、このプロパティにより提供される機能に該当するものがないことに注意。 Note that the functionality provided by this property has no match in the SSML markup language [SSML].

auto
displaynone にされている場合、算出値は never に解決される。 他の場合、算出値は auto に解決され,使用値は always になる。 Resolves to a computed value of ‘never’ when ‘display’ is ‘none’, otherwise resolves to a computed value of ‘auto’ which yields a used value of ‘always’.
display プロパティの none 値は,選択要素の子孫からは上書きされ得ない一方で、 speakauto 値は, neveralways 利用して上書きし得ることに注意。 Note that the ‘none’ value of the ‘display’ property cannot be overridden by descendants of the selected element, but the ‘auto’ value of ‘speak’ can however be overridden using either of ‘never’ or ‘always’.
never
この値は、(ポーズ, 指示音, 休止, 実際の内容も含め)要素が音声化されないようにする(すなわち,要素は聴覚次元の下では効果を持たなくなる)。 This value causes an element (including pauses, cues, rests and actual content) to not be rendered (i.e., the element has no effect in the aural dimension).
影響される要素の子孫では,この値の上書きが許容されるので、このレベルで displaynone を利用していたとしても,子孫は実際に音声化の一部を成し得ることに注意。 しかしながら、先祖­要素の[ ポーズ, 指示音, 休止 ]は,聴覚次元の下では “アクティブでない” 状態に維持されるため、ポーズの相殺や[ 連接する休止における加法的なふるまい ]には,寄与しない。 Note that any of the descendants of the affected element are allowed to override this value, so descendants can actually take part in the aural rendering despite using ‘display: none’ at this level. However, the pauses, cues, and rests of the ancestor element remain "deactivated" in the aural dimension, and therefore do not contribute to the collapsing of pauses or additive behavior of adjoining rests.
always
要素は音声化される(要素の display 値や先祖の[ displayspeak ]値に関わらず)。 The element is rendered aurally (regardless of its ‘display’ value, or the ‘display’ or ‘speak’ values of its ancestors).
この値の利用により、要素は,視覚的キャンバス上には描画されなくても,聴覚次元の下では音声化されるようになることに注意。 Note that using this value can result in the element being rendered in the aural dimension even though it would not be rendered on the visual canvas.

8.2. speak-as プロパティ

名前speak-as
normal | spell-out || digits || [ literal-punctuation | no-punctuation ]
初期値normal
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値指定値

speak-as プロパティは、定義済みの選択肢のリストに基づいて,テキストがどの方式で音声化されるかを決定する。 The ‘speak-as’ property determines in what manner text gets rendered aurally, based upon a predefined list of possibilities.

このプロパティにより提供される機能は、 SSML マークアップ言語 [SSML]say-as 要素 に概念的に類似するものであることに注意。 (可能な値は W3C Note [SSML-SAYAS] にて述べられている)。 設計­目標は似ていても、 CSS モデルでは,発音­規則の基本的な集合に制限される。 Note that the functionality provided by this property is conceptually similar to the say-as element from the SSML markup language [SSML] (whose possible values are described in the [SSML-SAYAS] W3C Note). Although the design goals are similar, the CSS model is limited to a basic set of pronunciation rules.

normal
要素の内容の音声化に,自然言語に依存する発音­規則を利用する。 例えば句読点類はそのままの形では発話されず, 代わりに,適切なポーズとして “自然に” 音声化される。 Uses language-dependent pronunciation rules for rendering the element's content. For example, punctuation is not spoken as-is, but instead rendered naturally as appropriate pauses.
spell-out
テキストを文字ごとに読み綴る(頭字語や略語に有用になる)。 アクセント文字が稀な自然言語の下では、代替のアクセントなしの綴りによる,アクセントの脱落も許可される。 例として、英語では,単語 "rôle" を "role" と記し得るので、適合­実装は, "rôle" を “R O L E” と読み綴ることになる。 Spells the text one letter at a time (useful for acronyms and abbreviations). In languages where accented characters are rare, it is permitted to drop accents in favor of alternative unaccented spellings. As as example, in English, the word "rôle" can also be written as "role". A conforming implementation would thus be able to spell-out "rôle" as "R O L E".
digits
数を, 1 個の数字ごとに発話する。 例えば、 "twelve" は “one two” と, "31" は “three one” と発話されることになるであろう。 【 おそらく,選択要素の自然言語が英語に設定されている下では。 前者については意外/違和感も — その様な発話が想定されているのなら,通常は 10 進­記数法で記されるだろうし、そのような発話を避けるために "twelve" と記されることも考えられる — この辺りは,利用者­側の設定に委ねるのが適当にも思われる。 日本語の下での "十二", "31" はそれぞれ “いち, に”, “さん, いち” と発話されることになるが、 "twelve" が “いち, に” と発話されるべきなのかどうかは,よくわからない。 】 Speak numbers one digit at a time, for instance, "twelve" would be spoken as "one two", and "31" as "three one".
発話合成器は についての知識を持ち得る。 speak-as プロパティは、 UA による数の音声化に対するある程度の制御を可能化し, テキストを実際の発話合成器に渡す前の前処理の段階として実装し得る。 Speech synthesizers are knowledgeable about what a number is. The ‘speak-as’ property enables some level of control on how user agents render numbers, and may be implemented as a preprocessing step before passing the text to the actual speech synthesizer.
literal-punctuation
セミコロン, 括弧類, 等々の句読点類は、適切なポーズとして “自然に” 音声化される代わりに, (その記号が何か判る様な)名前で発話される。 Punctuation such as semicolons, braces, and so on is named aloud (i.e. spoken literally) rather than rendered naturally as appropriate pauses.
no-punctuation
句読点類は音声化されない: 発話されず,またポーズとしても音声化されない Punctuation is not rendered: neither spoken nor rendered as pauses.

9. ポーズ­プロパティ

9.1. pause-beforepause-after プロパティ

名前pause-before
<time> | none | x-weak | weak | medium | strong | x-strong
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値
名前pause-after
<time> | none | x-weak | weak | medium | strong | x-strong
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値

pause-beforepause-after ]プロパティは、[[ 選択要素の発話合成による音声化の[ 前/後 ]に生じる ], あるいは[[ cue-beforecue-after ]が指定されている場合は聴覚ボックスモデル内の指示音の[ 前/後 ]に生じる ]]ような,韻律境界(固有の持続時間を伴う無音)を指定する。 The ‘pause-before’ and ‘pause-after’ properties specify a prosodic boundary (silence with a specific duration) that occurs before (or after) the speech synthesis rendition of the selected element, or if any ‘cue-before’ (or ‘cue-after’) is specified, before (or after) the cue within the aural box model.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]break 要素 に類似するが、 CSS Speech の聴覚ボックスモデル内における pause 韻律境界の適用には,特別な配慮を要する(例えばポーズの相殺)。 Note that although the functionality provided by this property is similar to the break element from the SSML markup language [SSML], the application of ‘pause’ prosodic boundaries within the aural box model of CSS Speech requires special considerations (e.g. "collapsed" pauses).

<time>
ポーズを絶対的な時間単位(秒やミリ秒, 例えば +3s, 250ms )により記す。 非負の値のみ許容される。 Expresses the pause in absolute time units (seconds and milliseconds, e.g. "+3s", "250ms"). Only non-negative values are allowed.
none
0ms に等価(発話プロセッサからは韻律分断は生産されない)。 Equivalent to 0ms (no prosodic break is produced by the speech processor).
x-weak
weak
medium
strong
x-strong
要素の狭間のポーズを発話出力における韻律分断の強度として記す。 正確な時間は実装依存になる。 後に示されているもの程,より強くなる(厳密には,より弱くない)。 Expresses the pause by the strength of the prosodic break in speech output. The exact time is implementation-dependent. The values indicate monotonically non-decreasing (conceptually increasing) break strength between elements.

より強い­内容­境界には,概してポーズも伴われることに注意。 例えば,段落と段落の間の分断は、概して,文の中の単語と単語の間の分断よりも ずっと重みがある。 Note that stronger content boundaries are typically accompanied by pauses. For example, the breaks between paragraphs are typically much more substantial than the breaks between words within a sentence.

次の例に、( UA スタイルシートにて定義される)特定の要素に対する 韻律分断の既定の強度を,著作されたスタイルにより上書きする方法を示す: This example illustrates how the default strengths of prosodic breaks for specific elements (which are defined by the user agent stylesheet) can be overridden by authored styles.

p { pause: none } /* 
pause-before: none; pause-after: none */

9.2. pause 略式プロパティ

名前pause
<‘pause-before’> <‘pause-after’>?
初期値個々のプロパティを見よ
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値個々のプロパティを見よ

pause プロパティは、 pause-before, pause-after のための略式プロパティである。 2 個の値が与えられた場合、 1 個目の値が pause-before になり, 2 個目の値が pause-after になる。 値が 1 個だけ与えられた場合、両プロパティに適用される。 The ‘pause’ property is a shorthand property for ‘pause-before’ and ‘pause-after’. If two values are given, the first value is ‘pause-before’ and the second is ‘pause-after’. If only one value is given, it applies to both properties.

プロパティ値の例: Examples of property values:

h1 { pause: 20ms; } /* pause-before: 20ms; pause-after: 20ms */
h2 { pause: 30ms 40ms; } /* pause-before: 30ms; pause-after: 40ms */
h3 { pause-after: 10ms; } /* pause-before: 未指定; pause-after: 10ms */

9.3. ポーズの相殺

この節に現れる “ボックス” は、すべて,聴覚ボックスモデルにおけるそれを表すとする。

ポーズは、ボックスから その前/後のボックスまでの,最小の距離を定義する。 連接するポーズは、それらの中から 最も強いキーワードによる分断と, 最も長い絶対的な時区間が選定されることにより,併合される。 例えば、 strongweak の比較においては strong が選択され, 1s250ms の比較においては 1s が選択され, strong250ms の比較においては それらの効果が合算される。 The pause defines the minimum distance of the aural "box" to the aural "boxes" before and after it. Adjoining pauses are merged by selecting the strongest named break and the longest absolute time interval. For example, "strong" is selected when comparing "strong" and "weak", "1s" is selected when comparing "1s" and "250ms", and "strong" and "250ms" take effect additively when comparing "strong" and "250ms".

次の各 項にて挙げる 2 つのポーズは、互いに連接するとされる: The following pauses are adjoining:

  1. ボックスの pause-after と, ボックスの最後の子の pause-after — ただし,ボックスが rest-aftercue-after も持たない場合に限る。 The ‘pause-after’ of an aural "box" and the ‘pause-after’ of its last child, provided the former has no ‘rest-after’ and no ‘cue-after’.
  2. ボックスの pause-before と, ボックスの最初の子の rest-before — ただし,ボックスが rest-beforecue-before も持たない場合に限る。 The ‘pause-before’ of an aural "box" and the ‘pause-before’ of its first child, provided the former has no ‘rest-before’ and no ‘cue-before’.
  3. ボックスの pause-after と, ボックスの次の同胞の pause-before The ‘pause-after’ of an aural "box" and the ‘pause-before’ of its next sibling.
  4. ボックスの pause-before と, ボックスの pause-after — ただし,ボックス内に音声化される内容が全くない場合( speak を見よ), または ボックスは次をすべて満たしている場合に限る:

    The ‘pause-before’ and ‘pause-after’ of an aural "box", if the the "box" has a ‘voice-duration’ of "0ms" and no ‘rest-before’ or ‘rest-after’ and no ‘cue-before’ or ‘cue-after’, or if the the "box" has no rendered content at all (see ‘speak’).

相殺されたポーズの並びは,そのいずれかのポーズ成分が 別のポーズに連接する場合、その別のポーズにも連接するものと見なされる。 A collapsed pause is considered adjoining to another pause if any of its component pauses is adjoining to that pause.

pause は、要素の内容と cue との狭間から, cue の外側へ移動されたことに注意。 これは CSS 2.1 の Aural 参考付録 [CSS21] に対し、後方互換でない。 Note that ‘pause’ has been moved from between the element's contents and any ‘cue’ to outside the ‘cue’. This is not backwards compatible with the informative CSS2.1 Aural appendix [CSS21].

10. 休止プロパティ

10.1. rest-beforerest-after プロパティ

名前rest-before
<time> | none | x-weak | weak | medium | strong | x-strong
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値
名前rest-after
<time> | none | x-weak | weak | medium | strong | x-strong
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値

rest-beforerest-after ]プロパティは、それぞれ,聴覚ボックスモデル内の要素の発話合成による音声化の[ 前/後 ]に生じる, 1 個の韻律境界(固有の持続時間を伴う無音)を指定する。 The ‘rest-before’ and ‘rest-after’ properties specify a prosodic boundary (silence with a specific duration) that occurs before (or after) the speech synthesis rendition of an element within the aural box model.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]break 要素 に類似するが, CSS Speech の聴覚ボックスモデル内における rest 韻律境界の適用には,特別な配慮を要する(例えば,点在する音声指示, 隣接する休止の加法的なふるまい)。 Note that although the functionality provided by this property is similar to the break element from the SSML markup language [SSML], the application of ‘rest’ prosodic boundaries within the aural box model of CSS Speech requires special considerations (e.g. interspersed audio cues, additive adjacent rests).

<time>
休止を絶対時間単位(秒やミリ秒, 例えば +3s, 250ms )により記す。 非負の値のみ許容される。 Expresses the rest in absolute time units (seconds and milliseconds, e.g. "+3s", "250ms"). Only non-negative values are allowed.
none
0ms に等価(発話プロセッサからは韻律分断は生産されない)。 Equivalent to 0ms (no prosodic break is produced by the speech processor).
x-weak
weak
medium
strong
x-strong
休止を発話出力における 韻律分断の強度として記す。 正確な時間は実装依存になる。 後に示されているもの程,より強くなる(厳密には,より弱くない)。 Expresses the rest by the strength of the prosodic break in speech output. The exact time is implementation-dependent. The values indicate monotonically non-decreasing (conceptually increasing) break strength between elements.

ポーズ­プロパティ とは対照的に, 休止は要素の内容と[ cue-beforecue-after ]の内容との狭間に挿入される。 連接する休止は加法的に扱われ,相殺されない。 As opposed to pause properties, the rest is inserted between the element's content and any ‘cue-before’ or ‘cue-after’ content. Adjoining rests are treated additively, and do not collapse.

10.2. rest 略式プロパティ

名前rest
<‘rest-before’> <‘rest-after’>?
初期値個々のプロパティを見よ
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値個々のプロパティを見よ

rest プロパティは rest-beforerest-after のための略式である。 2 個の値が与えられた場合、 1 個目の値が rest-before になり, 2 個目の値が rest-after になる。 値が 1 個だけ与えられた場合、両プロパティに適用される。 The ‘rest’ property is a shorthand for ‘rest-before’ and ‘rest-after’. If two values are given, the first value is ‘rest-before’ and the second is ‘rest-after’. If only one value is given, it applies to both properties.

11. 指示音プロパティ

11.1. cue-beforecue-after プロパティ

名前cue-before
<uri> <decibel>? | none
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値
名前cue-after
<uri> <decibel>? | none
初期値none
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値

cue-beforecue-after ]プロパティは、聴覚ボックスモデル内の選択要素の[ 前/後 ]に再生されることになる,聴覚アイコン(すなわち,録音済みの, あるいは生成済みの音クリップ)を指定する。 The ‘cue-before’ and ‘cue-after’ properties specify auditory icons (i.e. pre-recorded / pre-generated sound clips) to be played before (or after) the selected element within the aural box model.

このプロパティにより提供される機能は、 SSML マークアップ言語 [SSML]audio 要素 に関連して現れ得るが、事実,大きな不一致があることに注意。 例えば,聴覚ボックスモデルにより,音声指示は選択要素の出力音量レベルに結び付けられることになり、 CSS Speech の聴覚アイコンが提供する機能は, SSML の audio 要素に比べ制限される。 【?】 Note that although the functionality provided by this property may appear related to the audio element from the SSML markup language [SSML], there are in fact major discrepancies. For example, the aural box model means that audio cues are associated to the selected element's volume level, and CSS Speech's auditory icons provide limited functionality compared to SSML's audio element.

<uri>
聴覚アイコン­リソースとして指定する URI 。 UA が指定された聴覚アイコンを音声化し得ない場合(例えば,ファイル­リソースが見つからない, 未サポートの音声コーデックなど)、ベル音などの代替の指示音を生産することが推奨される。 The URI designates an auditory icon resource. When a user agent is not able to render the specified auditory icon (e.g. missing file resource, or unsupported audio codec), it is recommended to produce an alternative cue, such as a bell sound.
none
聴覚アイコンは利用されないことを指定する。 Specifies that no auditory icon is used.
<decibel>
実数, "dB" (デシベル単位) ]の並びで与えられる。 これは、選択要素の聴覚ボックスモデル内の voice-volume プロパティの算出値に相対的な(正または負の)変化を表現する(その結果、音声指示の出力音量レベルは voice-volume プロパティの変化に伴って変化する)。 省略された場合の暗黙的な値は 0dB に算出される。 A number immediately followed by "dB" (decibel unit). This represents a change (positive or negative) relative to the computed value of the ‘voice-volume’ property within the aural box model of the selected element (as a result, the volume level of an audio cue changes when the ‘voice-volume’ property changes). When omitted, the implied value computes to 0dB.
voice-volume プロパティの算出値が silent (無音)の場合、音声指示も無音にされる(この指定 <decibel> 値に関わらず)。 他の場合の voice-volume 値は、常に,出力音量レベル­キーワード( voice-volume の定義を見よ)に相対的に指定される。 この出力音量レベルは、利用者にとり “好ましい” 設定に調節された聴感音量の尺度に対応する。 voice-volume 継承値にデシベル差分がすでに含まれている場合、音声指示に固有の dB 差分が加法的に組み合わせられる。 When the computed value of the ‘voice-volume’ property is ‘silent’, the audio cue is also set to ‘silent’ (regardless of this specified <decibel> value). Otherwise (when not ‘silent’), ‘voice-volume’ values are always specified relatively to the volume level keywords (see the definition of ‘voice-volume’), which map to a user-calibrated scale of "preferred" loudness settings. If the inherited ‘voice-volume’ value already contains a decibel offset, the dB offset specific to the audio cue is combined additively.

デシベルは、次の対数­等式に従う,現在の信号振幅( a0 )に対する 新たな信号振幅( a1 )の比率の二乗を表す: Decibels express the ratio of the squares of the new signal amplitude (a1) and the current amplitude (a0), as per the following logarithmic equation: volume(dB) = 20 log10 (a1 / a0)

出力音量( dB ) = 20 × log10 ( a1 ÷ a0 )

−6.0dB は 音声信号の振幅において およそ半分, +6.0dB は およそ 2 倍になる。 Note that -6.0dB is approximately half the amplitude of the audio signal, and +6.0dB is approximately twice the amplitude.

voice-volume を通して出力音量が無音にされている 音声指示と, none 値にされた音声指示には、相違があることに注意。 前者は,再生されつつも, (大きさのある)音が生成されないかのように 同じ時間を占める一方、後者は存在そのものがないものにされる(すなわち,聴覚次元の中で指示音に割り当てられる時間は無い)。 Note that there is a difference between an audio cue whose volume is set to ‘silent’ and one whose value is ‘none’. In the former case, the audio cue takes up the same time as if it had been played, but no sound is generated. In the latter case, the there is no manifestation of the audio cue at all (i.e. no time is allocated for the cue in the aural dimension).

プロパティ値の例: Examples of property values:

a {
  cue-before: url(/audio/bell.aiff) -3dB;
  cue-after: url(dong.wav);
}

h1 {
  cue-before: url(../clips-1/pop.au) +6dB;
  cue-after: url(../clips-2/pop.au) 6dB;
}

div.caution { cue-before: url(./audio/caution.wav) +8dB; }

11.2. 音声指示と発話合成の,出力音量レベルの相関

この節は参考である。 Note that this section is informative.

選択要素の聴覚ボックスモデル内における[ 音声指示と発話合成 ]の出力音量レベルは、相関する。 例えば,出力音量レベルが( <decibel> 値の指定により) +0dB に設定されたときの音声指示の効果は、その再生­時に知覚される聴感音量が, voice-volume プロパティの算出値から決まる[ 選択要素の発話合成による音声化の聴感音量 ]に近くなることが欲される。 voice-volume プロパティに対する算出値 silent による結果は, “強制的” に(すなわち,音声指示に指定されている <decibel> 値に関わらず)無音にされた音声指示になることに注意。 The volume levels of audio cues and of speech synthesis within the aural box model of a selected element are related. For example, the desired effect of an audio cue whose volume level is set at +0dB (as specified by the <decibel> value) is that its perceived loudness during playback is close to that of the speech synthesis rendition of the selected element, as dictated by the computed value of the ‘voice-volume’ property. Note that a ‘silent’ computed value for the ‘voice-volume’ property results in audio cues being "forcefully" silenced as well (i.e. regardless of the specified audio cue ‘decibel’ value)

voice-volume プロパティの出力音量キーワードは、著作­時には知り得ないような利用者の要求(例えば聴覚環境, 個人的な選好)に合致させるために,利用者から調節される。 したがって、上述の[[ 音声指示と発話合成 ]の聴感音量の近似的な揃え ]を得るためには、作者は,[ 音声指示の(平均の †1 )出力音量レベル ]が,[[ “通例的な” 聴き取り条件 †2 の下での利用が意図された voice-family ]に基づく,発話合成による音声化の出力 ]に合致することを確保するべきである。 発話プロセッサには,生成される TTS 音声の波形振幅に対する直接的な制御能力が備わっており、 UA は,音声指示の出力音量を調整できる †3 ので、これは,利用者により調節される出力音量レベル †4 に相対的な[ 聴覚­ボックス­モデル内の[ TTS と指示音 ]音声ストリームの両者の聴感音量 ]を 実装が上手く扱えるようにするための,基底線を設定する。

  • †1 — イントネーション, 強勢( stress ), 等々による音声ストリームにおける変動により、知覚される聴感音量には,ばらつきが生じ得るので。
  • †2 — すなわち,周波数スペクトルに渡り 中央に均等化された( equalization ),既定のシステム出力音量レベル。
  • †3 — すなわち,デジタル化された音クリップの本来の波形振幅に基づいて音声信号を増幅させたり減衰させる。
  • †4 — voice-volume プロパティにて定義されるキーワードを見よ。

The volume keywords of the ‘voice-volume’ property are user-calibrated to match requirements not known at authoring time (e.g. auditory environment, personal preferences). Therefore, in order to achieve this approximate loudness alignment of audio cues and speech synthesis, authors should ensure that the volume level of audio cues (on average, as there may be discrete variations of perceived loudness due to changes in the audio stream, such as intonation, stress, etc.) matches the output of a speech synthesis rendition based on the ‘voice-family’ intended for use, given "typical" listening conditions (i.e. default system volume levels, centered equalization across the frequency spectrum). As speech processors are capable of directly controlling the waveform amplitude of generated text-to-speech audio, and because user agents are able to adjust the volume output of audio cues (i.e. amplify or attenuate audio signals based on the intrinsic waveform amplitude of digitized sound clips), this sets a baseline that enables implementations to manage the loudness of both TTS and cue audio streams within the aural box model, relative to user-calibrated volume levels (see the keywords defined in the ‘voice-volume’ property).

知覚される音声特性(例えば聴感音量)と[ デジタル化された音声信号に適用される処理(例えば信号圧縮) ]の間には複雑な関連性があるため、ここでは,減衰が 概して[ 0dB(クリッピング限界に近い最大の音声­入力) 〜 −60dB (全くの無音) ]の範囲に渡るデシベル単位で指示されるような,単純な場面を想定する。 この文脈の下では、“標準的な” 音声クリップは,これらの値の間を変動することになる。 聴感音量が最大になるピーク­レベルは(歪みを避けるために) −3dB 近くにされ,それに伴う音声節の平均( RMS )出力音量レベルは なるべく高く(すなわち,増幅の際の背景雑音を避けるために静か過ぎない程度に)される。 これにより,聴き取り者に提供される音声は、概ね, TTS 出力と継ぎ目無く組み合わせ得るように(すなわち、録音済みの音声と発話合成とを切り替える際の出力音量レベルの相違が,聴き分けられなくなる程に)なるであろう。 その種の慣行をサポートする業界標準は存在しないが、種々の TTS エンジンが、利得や減衰が指定されていないときには,比較的­強めの音声信号を生成する傾向にある。 ボイスや穏やかな音楽のためには、 −15dB RMS が標準として相応しいものと見られる。 Due to the complex relationship between perceived audio characteristics (e.g. loudness) and the processing applied to the digitized audio signal (e.g. signal compression), we refer to a simple scenario whereby the attenuation is indicated in decibels, typically ranging from 0dB (i.e. maximum audio input, near clipping threshold) to -60dB (i.e. total silence). Given this context, a "standard" audio clip would oscillate between these values, the loudest peak levels would be close to -3dB (to avoid distortion), and the relevant audible passages would have average (RMS) volume levels as high as possible (i.e. not too quiet, to avoid background noise during amplification). This would roughly provide an audio experience that could be seamlessly combined with text-to-speech output (i.e. there would be no discernible difference in volume levels when switching from pre-recorded audio to speech synthesis). Although there exists no industry-wide standard to support such convention, different TTS engines tend to generate comparably-loud audio signals when no gain or attenuation is specified. For voice and soft music, -15dB RMS seems to be pretty standard.

11.3. cue 略式プロパティ

名前cue
<‘cue-before’> <‘cue-after’>?
初期値個々のプロパティを見よ
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値個々のプロパティを見よ

cue プロパティは cue-before, cue-after のための略式である。 2 個の値が与えられた場合、 1 個目の値が cue-before になり, 2 個目の値が cue-after になる。 値が 1 個だけ与えられた場合、両プロパティに適用される。 The ‘cue’ property is a shorthand for ‘cue-before’ and ‘cue-after’. If two values are given the first value is ‘cue-before’ and the second is ‘cue-after’. If only one value is given, it applies to both properties.

略式­記法の例: Example of shorthand notation:

h1 {
  cue-before: url(pop.au);
  cue-after: url(pop.au);
}
/* 
…は、次と等価:

...is equivalent to:
 */
h1 {
  cue: url(pop.au);
}

12. ボイス特性プロパティ

12.1. voice-family プロパティ

名前voice-family
[[<name> | <generic-voice>],]* [<name> | <generic-voice>] | preserve
初期値 実装依存 implementation-dependent
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値指定値

voice-family プロパティは、いくつかの優先順位付けられた代替を指示する,カンマ区切りの成分値からなるリストを指定する(これは,視覚的スタイルシートの font-family に類似する)。 各 成分値は、合致のための判定基準を指定することにより,発話合成ボイスインスタンスの候補に指定される(この論題については ボイス選択 節を見よ)。 The ‘voice-family’ property specifies a prioritized list of component values that are separated by commas to indicate that they are alternatives (this is analogous to ‘font-family’ in visual style sheets). Each component value potentially designates a speech synthesis voice instance, by specifying match criteria (see the voice selection section on this topic).

<generic-voice> = [<age>? <gender> <integer>?]

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]voice 要素 に類似するが、 CSS Speech は, SSML による精巧なボイス­自然言語­選択に等価なものは提供しない。 この技術上の制限は, Speech モジュールの将来の改訂においては緩和され得る。 Note that although the functionality provided by this property is similar to the voice element from the SSML markup language [SSML], CSS Speech does not provide an equivalent to SSML's sophisticated voice language selection. This technical limitation may be alleviated in a future revision of the Speech module.

<name>
値は,特定のボイスインスタンス(例えば: Mike, comedian, mary, carlos2, "valley girl", 等々)。 各ボイス名は、引用符で括られた CSS 文字列 か, または[ 1 個以上の[ 引用符で括られていない CSS 識別子 ]の 【スペース区切りによる】 並び ]として,与えられなければならない。 Values are specific voice instances (e.g., Mike, comedian, mary, carlos2, "valley girl"). Voice names must either be given quoted as strings, or unquoted as a sequence of one or more identifiers.
その結果,引用符で括られていないボイス名においては、各トークンの開始の所の ほとんどの記号類や数字は,エスケープされなければならないことになる。 Note that as a result, most punctuation characters, or digits at the start of each token, must be escaped in unquoted voice names.
1 個のボイス名として 【スペース区切りの】 識別子の並びが与えられた場合、その算出値は,並びの中のすべての識別子を[ 単独のスペースで区切って連結した文字列 ]に変換して得られる名前になる。 If a sequence of identifiers is given as a voice name, the computed value is the name converted to a string by joining all the identifiers in the sequence by single spaces.
性別( <gender> )キーワード( male, female, neutral )やキーワード inherit, preserve に合致するようなボイス名は、これらのキーワードと区別できるように引用符で括られなければならない。 キーワード initial, default も、将来­利用のために予約済みであり,ボイス名として利用される際には引用符で括られなければならない。 Voice names that happen to be the same as the gender keywords (‘male’, ‘female’ and ‘neutral’) or that happen to match the keywords ‘inherit’ or ‘preserve’ must be quoted to disambiguate with these keywords. The keywords ‘initial’ and ‘default’ are reserved for future use and must also be quoted when used as voice names.
[SSML] における一連のボイス名は、スペース区切りで与えられるので,空白を含み得ない。 Note that in [SSML], voice names are space-separated and cannot contain whitespace characters.
[ 空白, 数字, [ ハイフン以外の記号類 ]]のいずれかを含んでいるボイス名は、コードの明確さを向上させるため,引用符で括られていない形が妥当な場合でも, 引用符で括ることが推奨される。 例えば: voice-family: "john doe", "Henry the-8th"; It is recommended to quote voice names that contain white space, digits, or punctuation characters other than hyphens - even if these voice names are valid in unquoted form - in order to improve code clarity. For example: voice-family: "john doe", "Henry the-8th";
<age>
キーワード[ child, young, old ]の いずれかを値にとり,ボイス選択において合致が望まれる 年齢層を指示する。 Possible values are ‘child’, ‘young’ and ‘old’, indicating the preferred age category to match during voice selection.
[SSML] における年齢との対応付けには[ child = 6 歳, young = 24 歳, old = 75 歳 ]が推奨されることに注意。 プロセッサ依存のボイス照合アルゴリズムは、より柔軟な年齢­範囲を利用してよい。 Note that a recommended mapping with [SSML] ages is: ‘child’ = 6 y/o, ‘young’ = 24 y/o, ‘old’ = 75 y/o. More flexible age ranges may be used by the processor-dependent voice-matching algorithm.
<gender>
キーワード[ male, female, neutral ]の いずれか。 それぞれ[ 男性, 女性, 中性 ]のボイスを指定する。 One of the keywords ‘male’, ‘female’, or ‘neutral’, specifying a male, female, or neutral voice, respectively.
個人の年齢や性別と, 認識し得るボイスの種類との関連度の解釈は、実質的にいくつもの判定基準(文化的, 言語学上の, 生物学的, 等々)に依存するので、現実的には統一的な形で定義し得ない。 従って,この仕様により提供される機能は、ある程度の誤差と引き換えに,幅広い発話­文脈にほどよく適用し得るような 単純化されたモデルを表現する。 この仕様の将来バージョンでは、発話プロセッサ実装の標準化の普及に伴い,ボイス照合アルゴリズムの精度も高められ得る。 Note that the interpretation of the relationship between a person's age or gender, and a recognizable type of voice, cannot realistically be defined in a universal manner as it effectively depends on numerous criteria (cultural, linguistic, biological, etc.). The functionality provided by this specification therefore represent a simplified model that can be reasonably applied to a broad variety of speech contexts, albeit at the cost of a certain degree of approximation. Future versions of this specification may refine the level of precision of the voice-matching algorithm, as speech processor implementations become more standardized.
<integer>
好ましい変種を指示する整数(例えば “子供の男性ボイスのうち 2 個目 のもの”)。 正­整数のみが許容される。 値 1 は,合致するすべてのボイスの中で最初のものを指す。 An integer indicating the preferred variant (e.g. "the second male child voice"). Only positive integers (i.e. excluding zero) are allowed. The value "1" refers to the first of all matching voices.
preserve
内容マークアップにより生じ得る自然言語の変化に関わり無く,継承による voice-family 値の利用を指示する(ボイス選択と自然言語の取り扱いについては下の節を見よ)。 この値がルート要素に適用される際には, inherit としてふるまう。 Indicates that the ‘voice-family’ value gets inherited and used regardless of any potential language change within the content markup (see the section below about voice selection and language handling). This value behaves as ‘inherit’ when applied to the root element.
選択要素の子孫は、他の voice-family 値(例えば 名前( <name> ), 性別( <gender> ), 年齢( <age> ) )により明示的に上書きされない限り, preserve 値を自動的に継承することに注意。 Note that descendants of the selected element automatically inherit the ‘preserve’ value, unless it is explicitly overridden by other ‘voice-family’ values (e.g. name, gender, age).

無効な宣言の例: Examples of invalid declarations:

voice-family: john/doe;
    /* 
スラッシュはエスケープされるべきであるforward slash character should be escaped
 */
voice-family: john "doe";
    /* 
識別子の並びは文字列を含み得ないidentifier sequence cannot contain strings
 */
voice-family: john!;
    /* 
感嘆符はエスケープされるべきであるexclamation mark should be escaped
 */
voice-family: john@doe;
    /* 
文字 “@マーク” はエスケープされるべきである"at" character should be escaped */
voice-family: #john;
    /* 
識別子はハッシュマークから開始し得ないidentifier cannot start with hash character */
voice-family: john 1st;
    /* 
識別子は数字から開始し得ないidentifier cannot start with digit */

12.1.1. ボイス選択と, 内容の自然言語

voice-family プロパティは、発話合成ボイスインスタンスの選択についての指示を与えるために利用される。 発話機能を備える UA は、この選択­処理の一部に,選択要素に対するマークアップ内容による自然言語も織り込まなければならない。 voice-family プロパティ値が子孫­要素に継承される際に,内容­階層の下層へ伝播される[ 名前( <name> ), 性別( <gender> ), 年齢( <age> ), および好ましい “変種” ( <integer> インデックス) ]は、ボイス選択のヒント情報である。 内容­構造­内のどこであれ、自然言語は,指定されている CSS ボイス特性より優先される(すなわち,より優先順位が高い)。 The ‘voice-family’ property is used to guide the selection of the speech synthesis voice instance. As part of this selection process, speech-capable user agents must also take into account the language of the selected element within the markup content. The "name", "gender", "age", and preferred "variant" (index) are voice selection hints that get carried down the content hierarchy as the ‘voice-family’ property value gets inherited by descendant elements. At any point within the content structure, the language takes precedence (i.e. has a higher priority) over the specified CSS voice characteristics.

ボイス選択アルゴリズムの概要を以下に挙げる(方言による差異を吸収するため、ここでの “自然言語” の定義は緩められていることに注意): The following list outlines the voice selection algorithm (note that the definition of "language" is loose here, in order to cater for dialectic variations):

  1. 選択内容 【 選択要素の内容 】 の自然言語に対し,可用なボイスインスタンスが 1 個しかない場合、指定された CSS ボイス特性に関わり無く,このボイスが利用されなければならない。 If only a single voice instance is available for the language of the selected content, then this voice must be used, regardless of the specified CSS voice characteristics.
  2. 選択内容の自然言語に対し,複数のボイスインスタンスが可用な場合、選ばれるボイスは, 指定された名前, または[ 性別, 年齢, 好ましいボイスの変種 ]に最も近く合致するものになる。 “最良­合致” の実際の定義は,プロセッサ依存である。 例えば,大人の男性/女性のボイスのみが可用なシステムにおいては、 "voice-family: young male" に対しては、音高が高い女性­ボイスの方が妥当であろう — このボイスの調子が少年に近いであろうから。 提供されているどの voice-family 成分値にも 特性が合致するボイスインスタンスが無い場合、(選択内容の自然言語に適するものの中で)最初に可用なボイスインスタンスが利用されなければならない。 【 “最初” — どの順序で? 】 If several voice instances are available for the language of the selected content, then the chosen voice is the one that most closely matches the specified name, or gender, age, and preferred voice variant. The actual definition of "best match" is processor-dependent. For example, in a system that only has male and female adult voices available, a reasonable match for "voice-family: young male" may well be a higher-pitched female voice, as this tone of voice would be close to that of a young boy. If no voice instance matches the characteristics provided by any of the ‘voice-family’ component values, the first available voice instance (amongst those suitable for the language of the selected content) must be used.
  3. 選択内容の自然言語に利用し得るボイスが無い場合、 UA には,適切な TTS ボイスが無いことを利用者に知らせることが推奨される。 If no voice is available for the language of the selected content, it is recommended that user agents let the user know about the lack of appropriate TTS voice.

内容フローの中で CSS ボイス特性が変化するようなどの場所でも、 発話合成器ボイスは,再評価されなければならない(すなわち,選択­処理が再び行われなければならない)。 preserve キーワード(これは、選択内容の自然言語のために設計されたものではないボイスを利用して,埋め込みの外国語テキストを発話させる場合などに有用になり得る — 下に例示される様に)が利用されていない限り、内容の自然言語が変化する度に,ボイスも再計算されなければならない。 The speech synthesizer voice must be re-evaluated (i.e. the selection process must take place once again) whenever any of the CSS voice characteristics change within the content flow. The voice must also be re-calculated whenever the content language changes, unless the ‘preserve’ keyword is used (this may be useful in cases where embedded foreign language text can be spoken using a voice not designed for this language, as demonstrated by the example below).

ボイスの動的な算出は,不慮のタイムラグをもたらし得るので、 UA は再生を開始する前に,文書­木の中の具体的なボイスインスタンスの解決を試みるべきである。 Note that dynamically computing a voice may lead to unexpected lag, so user agents should try to resolve concrete voice instances in the document tree before the playback starts.

プロパティ値の例: Examples of property values:

h1 { voice-family: announcer, old male; }
p.romeo  { voice-family: romeo, young male; }
p.juliet { voice-family: juliet, young female; }
p.mercutio { voice-family: young male; }
p.tybalt { voice-family: young male; }
p.nurse { voice-family: amelie; }
<p class="romeo" xml:lang="en-US">


次のフランス語テキストは英語のボイスで発話されることになる:

The French text below will be spoken with an English voice:

  <span style="voice-family: preserve;" xml:lang="fr-FR"
  >Bonjour monsieur !</span>


次の英文テキストは,(親の "p" 要素から継承されるもの)クラス "romeo" に対応するボイスとは異なるボイスで発話される:

The English text below will be spoken with a voice different
  than that corresponding to the class "romeo"
(which is inherited from the "p" parent element):

  <span style="voice-family: female;">Hello sir!</span>
</p>

12.2. voice-rate プロパティ

名前voice-rate
[normal | x-slow | slow | medium | fast | x-fast] || <percentage>
初期値normal
適用対象すべての要素
継承される
百分率 既定値に相対的 refer to default value
媒体発話
算出値 [ キーワード値と,キーワードに相対的な 100% でない百分率(オプション) ]の組 a keyword value, and optionally also a percentage relative to the keyword (if not 100%)

voice-rate プロパティは、毎分あたりの語数により,生成される合成発話の速度を操作する。 The ‘voice-rate’ property manipulates the rate of generated synthetic speech in terms of words per minute.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]prosody 要素rate 属性に類似するが,留意すべき不一致があることに注意。 例えば, CSS Speech 速度キーワードと百分率による追加の修飾は、選択要素に対する 値の継承と組み合わせの仕組みから,排他的でない。 Note that although the functionality provided by this property is similar to the rate attribute of the prosody element from the SSML markup language [SSML], there are notable discrepancies. For example, CSS Speech rate keywords and percentage modifiers are not mutually-exclusive, due to how values are inherited and combined for selected elements.

normal
現在アクティブなボイスが発話合成器により生産されるときの,既定の速度を表現する。 これはプロセッサごとに固有であり,自然言語, 方言, [ ボイスの “個性” ]に依存する。 Represents the default rate produced by the speech synthesizer for the currently active voice. This is processor-specific and depends on the language, dialect and on the "personality" of the voice.
x-slow
slow
medium
fast
x-fast
これらは 実装/ボイスごとに固有の発話速度であり、後に示されているもの程,より速くなる(厳密には,より遅くない)。 例えば,英語に対する通例的な値は(毎分あたりの語数で)[ x-slow = 80 語, slow = 120 語, medium = 180 語 〜 200 語, fast = 500 語 ]になる。 A sequence of monotonically non-decreasing speaking rates that are implementation and voice -specific. For example, typical values for the English language are (in words per minute) x-slow = 80, slow = 120, medium = between 180 and 200, fast = 500.
<percentage>

負でない百分率値のみ許容され、次の値に相対的な変化を表現する:

  1. (上に列挙された)キーワード値も与えられていれば それ。
  2. 他の場合,ルート要素に対しては既定値 【すなわち,初期値】
  3. 他の場合,継承されている発話速度(それ自身もキーワード値と百分率の組み合わせになり得る — この場合の率は,累積される)。

例えば 50% は、 発話速度が 0.5 倍されることを意味する。 100% を上回る百分率においては,発話速度が(ベースのキーワードに比して)より速くなり、 100% を下回る百分率においては,よりゆっくりになる。

Only non-negative percentage values are allowed. This represents a change relative to the given keyword value (see enumeration above), or to the default value for the root element, or otherwise to the inherited speaking rate (which may itself be a combination of a keyword value and of a percentage, in which case percentages are combined multiplicatively). For example, 50% means that the speaking rate gets multiplied by 0.5 (half the value). Percentages above 100% result in faster speaking rates (relative to the base keyword), whereas percentages below 100% result in slower speaking rates.

継承値の例: Examples of inherited values:

<body>
  <e1>
    <e2>
      <e3>
        …
      </e3>
    </e2>
  </e1>
</body>
body { voice-rate: inherit; }
    /* 
初期値は normal (実際の発話速度の値はアクティブ­ボイスに依存する)

the initial value is 'normal' (the actual speaking rate value depends on the active voice)
 */

e1 { voice-rate: +50%; }
    /* 
算出値は[
normal50%
]の組。
これは, normal の 0.5 倍(発話速度の半分)に対応する速度に解決されることになる。the computed value is ['normal' and 50%], which will resolve to the rate corresponding to 'normal' multiplied by 0.5 (half the speaking rate)
 */

e2 { voice-rate: fast 120%; }
    /* 
算出値は[
fast120%
]の組。
これは, fast の 1.2 倍に対応する速度に解決されることになる。the computed value is ['fast' and 120%], which will resolve to the rate corresponding to 'fast' multiplied by 1.2 */

e3 {
    voice-rate: normal;
    /* 
発話速度を本来のボイス値に “リセット” する。
算出値は normal になる(実効値については,次のコメントを見よ)。

"resets" the speaking rate to the intrinsic voice value, the computed value is 'normal' (see comment below for actual value)
 */

    voice-family: "another-voice";
    /* 
ボイスが別のものにされているので、計算される発話速度は, body のそれに比して( voice-rate の算出値が同じであっても)変わり得る。

because the voice is different, the calculated speaking rate may vary compared to "body" (even though the computed 'voice-rate' value is the same)
 */
} 

12.3. voice-pitch プロパティ

名前voice-pitch
<frequency> && absolute | [[x-low | low | medium | high | x-high] || [<frequency> | <semitones> | <percentage>]]
初期値medium
適用対象すべての要素
継承される
百分率 継承値に相対的 refer to inherited value
媒体発話
算出値

定義済みの音高キーワードのみが指定されている場合はそのキーワード。 他の場合、キーワード値(もし指定されていれば)を[ 現在の voice-family を基に,相対的­差分が指定されていれば それも適用した上で,固定­周波数に変換する ]ことにより計算される,絶対的な周波数。 one of the predefined pitch keywords if only the keyword is specified by itself, otherwise an absolute frequency calculated by converting the keyword value (if any) to a fixed frequency based on the current voice-family and by applying the specified relative offset (if any)

voice-pitch プロパティは、生成される発話出力の “基底線” とされる音高を指定する。 これは、使用される voice-family インスタンスに依存し,発話合成プロセッサごとに変わり得る(およそ,出力の平均­音高に対応する)。 例えば、男性ボイスに一般的な音高は 120Hz 周辺になる一方,女性ボイスでは 210Hz 周辺になる。 The ‘voice-pitch’ property specifies the "baseline" pitch of the generated speech output, which depends on the used ‘voice-family’ instance, and varies across speech synthesis processors (it approximately corresponds to the average pitch of the output). For example, the common pitch for a male voice is around 120Hz, whereas it is around 210Hz for a female voice.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]prosody 要素pitch 属性に類似するが,留意すべき不一致があることに注意。 例えば,CSS Speech 音高キーワードと相対的な変化(周波数, 半音単位, 百分率)は、選択要素に対する 値の継承と組み合わせの仕組みから,排他的でない。 Note that although the functionality provided by this property is similar to the pitch attribute of the prosody element from the SSML markup language [SSML], there are notable discrepancies. For example, CSS Speech pitch keywords and relative changes (frequency, semitone or percentage) are not mutually-exclusive, due to how values are inherited and combined for selected elements.

<frequency>
周波数単位(ヘルツまたはキロヘルツ)による値(例えば 100Hz+2kHz )。 ただし, absolute キーワードが指定された下での値は、正数に制約される。 他の場合の[ 負/正 ]の値はそれぞれ,継承値に相対的な[ 減分/増分 ]を表現する。 例えば "2kHz" は,正の差分( "+2kHz" と厳密に等価)になり、 "+2kHz absolute" は,絶対周波数( "2kHz absolute" と厳密に等価)になる。 A value in frequency units (Hertz or kiloHertz, e.g. "100Hz", "+2kHz"). Values are restricted to positive numbers when the ‘absolute’ keyword is specified. Otherwise (when the ‘absolute’ keyword is not specified), a negative value represents a decrement, and a positive value represents an increment, relative to the inherited value. For example, "2kHz" is a positive offset (strictly equivalent to "+2kHz"), and "+2kHz absolute" is an absolute frequency (strictly equivalent to "2kHz absolute").
absolute
指定された場合、このキーワードは,指定された周波数が 絶対的な値を表現することを指示する。 負の周波数が指定された場合に算出される周波数はゼロになる。 If specified, this keyword indicates that the specified frequency represents an absolute value. If a negative frequency is specified, the computed frequency will be zero.
<semitones>
継承値に相対的な,変化(減分または増分)を指定する。 許容される値の構文は[ <number>, "st" (半音 単位­識別子) ]の並びである。 半音­区間は,半音による等分平均律の各 音階(音符と次の音符の間)に対応する。 従って,半音は、そのような音階の下で隣り合う 2 個の音高の周波数の相違として量られる。 1 個の半音で隔てられた 2 つの周波数の比率は, 2 の 12 乗根(約 ( 11011 ÷ 10393 ), あるいは 1.0594631 に(この桁数の精度で)等しい)。 すなわち、半音による差分に対応するヘルツ単位の値は,その差分が適用される初期­周波数に相対的になる(言い換えれば、半音は,固定的なヘルツ単位の数値に対応しない)。 Specifies a relative change (decrement or increment) to the inherited value. The syntax of allowed values is a <number> followed immediately by "st" (semitones). A semitone interval corresponds to the step between each note on an equal temperament chromatic scale. A semitone can therefore be quantified as the difference between two consecutive pitch frequencies on such scale. The ratio between two consecutive frequencies separated by exactly one semitone is the twelfth root of two (approximately 11011/10393, which equals exactly 1.0594631). As a result, the value in Hertz corresponding to a semitone offset is relative to the initial frequency the offset is applied to (in other words, a semitone doesn't correspond to a fixed numerical value in Hertz).
<percentage>
百分率には[ 正/負 ]の値が許容され、それぞれ 継承値に相対的な[ 増分/減分 ]を表現する。 その算出値は、継承値の指定された割合分を,継承値に 加算/減算 することにより計算される。 例えば,継承値が 200Hz のときの 50%+50% に等価)による結果は: 200 + ( 200 × 0.5 ) = 300Hz になり, -50% による結果は: 200 − ( 200 × 0.5 ) = 100Hz になる。 Positive and negative percentage values are allowed, to represent an increment or decrement (respectively) relative to the inherited value. Computed values are calculated by adding (or subtracting) the specified fraction of the inherited value, to (from) the inherited value. For example, 50% (which is equivalent to +50%) with a inherited value of 200Hz results in 200 + (200*0.5) = 300Hz. Conversely, -50% results in 200-(200*0.5) = 100Hz.
x-low
low
medium
high
x-high
これらは,実装/ボイスごとに固有の音高レベルを表し、後に示されているもの程,より高くなる(厳密には,より低くない)。 与えられた要素に対する算出値がキーワードのみの場合(すなわち,相対的­差分が指定されていない)、対応する絶対­周波数は,ボイスが変化する度に再評価されることになる。 逆に,相対的­差分の適用は、[ 相対的­差分が指定された地点における現在のボイス ]に基づく周波数の計算を要するので、[ スタイルのカスケード処理によるボイス変化の下層への伝播 ]に関わらず,絶対的に算出される周波数が継承されることになる。 従って,作者は、ボイス変化に応じて[ キーワードから具体的な, ボイス依存の周波数への変換の再評価 ]の誘発が望まれる場合には、キーワード値を利用するべきである。 A sequence of monotonically non-decreasing pitch levels that are implementation and voice specific. When the computed value for a given element is only a keyword (i.e. no relative offset is specified), then the corresponding absolute frequency will be re-evaluated on a voice change. Conversely, the application of a relative offset requires the calculation of the resulting frequency based on the current voice at the point at which the relative offset is specified, so the computed frequency will inherit absolutely regardless of any voice change further down the style cascade. Authors should therefore only use keyword values in cases where they wish that voice changes trigger the re-evaluation of the conversion from a keyword to a concrete, voice-dependent frequency.

算出された絶対­周波数が負の場合はゼロ­ヘルツに切り上げられる。 発話機能を備える UA は,おそらく、周波数の計算から得られ得る数値­範囲すべてではなく,固有の範囲の値をサポートすることになるであろう。 従って, UA における実効値は、実装依存の下限/上限に切り詰められ得る。 例えば,周波数 0Hz は合法的に計算され得るが、発話合成器の文脈の下では,より意味のある値に切り詰められるであろう。 Computed absolute frequencies that are negative are clamped to zero Hertz. Speech-capable user agents are likely to support a specific range of values rather than the full range of possible calculated numerical values for frequencies. The actual values in user agents may therefore be clamped to implementation-dependent minimum and maximum boundaries. For example: although the 0Hz frequency can be legitimately calculated, it may be clamped to a more meaningful value in the context of the speech synthesizer.

プロパティ値の例: Examples of property values:

h1 { voice-pitch: 250Hz; }
    /* 
継承される絶対­周波数に相対的な正の差分positive offset relative to the inherited absolute frequency */
h1 { voice-pitch: +250Hz; }
    /* 
前の行と同じになるidentical to the line above */
h2 { voice-pitch: +30Hz absolute; }
    /* 
増分ではないnot an increment */
h2 { voice-pitch: absolute 30Hz; }
    /* 
前の行と同じになるidentical to the line above */
h3 { voice-pitch: -20Hz; }
    /* 
継承される絶対­周波数に相対的な負の差分(減分)negative offset (decrement) relative to the inherited absolute frequency */
h4 { voice-pitch: -20Hz absolute; }
    /* 
違法な構文。
値は無視される( absolute キーワードは,負の周波数には許容されない)illegal syntax => value ignored ("absolute" keyword not allowed with negative frequency) */
h5 { voice-pitch: -3.5st; }
    /* 
半音単位, 負の差分semitones, negative offset */
h6 { voice-pitch: 25%; }
    /* 
これは “継承値の 4 分の 1 を継承値に加える” ことを意味するthis means "add a quarter of the inherited value, to the inherited value" */
h6 { voice-pitch: +25%; }
    /* 
前の行と同じになるidentical to the line above */
      

12.4. voice-range プロパティ

名前voice-range
<frequency> && absolute | [[x-low | low | medium | high | x-high] || [<frequency> | <semitones> | <percentage>]]
初期値medium
適用対象すべての要素
継承される
百分率 継承値に相対的 refer to inherited value
媒体発話
算出値 定義済みの音高キーワードのみが指定されている場合はそのキーワード。 他の場合、キーワード値(もし指定されていれば)を[ 現在の voice-family を基に,相対的­差分が指定されていれば それも適用した上で,固定­周波数に変換する ]ことにより計算される,絶対的な周波数。 one of the predefined pitch keywords if only the keyword is specified by itself, otherwise an absolute frequency calculated by converting the keyword value (if any) to a fixed frequency based on the current voice-family and by applying the specified relative offset (if any)

voice-range プロパティは、 “基底線” 音高の可変度 — すなわち,基本周波数 fundamental frequency が発話出力の平均­音高からどの程度 外れられるか — を指定する。 生成される発話の動的な音高­範囲は、高度に活発なボイスにおいては,一般に拡大する。 例えば,発話における意味や強調の伝達に,抑揚変化 inflection が利用されるときなど。 概して、範囲が狭い場合は平坦で単調なボイスを生産する一方,範囲が広い場合は活発なボイスを生産する。 The ‘voice-range’ property specifies the variability in the "baseline" pitch, i.e. how much the fundamental frequency may deviate from the average pitch of the speech output. The dynamic pitch range of the generated speech generally increases for a highly animated voice, for example when variations in inflection are used to convey meaning and emphasis in speech. Typically, a low range produces a flat, monotonic voice, whereas a high range produces an animated voice.

このプロパティにより提供される機能は SSML マークアップ言語 [SSML]prosody 要素range 属性に類似するが,留意すべき不一致があることに注意。 例えば, CSS Speech 音高­範囲キーワードと相対的­変化(周波数, 半音単位, 百分率など)は、選択要素に対する 値の継承と組み合わせの仕組みから,排他的でない。 Note that although the functionality provided by this property is similar to the range attribute of the prosody element from the SSML markup language [SSML], there are notable discrepancies. For example, CSS Speech pitch range keywords and relative changes (frequency, semitone or percentage) are not mutually-exclusive, due to how values are inherited and combined for selected elements.

【 各種 成分値の定義と付随する注釈は voice-pitch のそれと同一なので,和訳は省略する。 】

<frequency>
A value in frequency units (Hertz or kiloHertz, e.g. "100Hz", "+2kHz"). Values are restricted to positive numbers when the ‘absolute’ keyword is specified. Otherwise (when the ‘absolute’ keyword is not specified), a negative value represents a decrement, and a positive value represents an increment, relative to the inherited value. For example, "2kHz" is a positive offset (strictly equivalent to "+2kHz"), and "+2kHz absolute" is an absolute frequency (strictly equivalent to "2kHz absolute").
absolute
If specified, this keyword indicates that the specified frequency represents an absolute value. If a negative frequency is specified, the computed frequency will be zero.
<semitones>
Specifies a relative change (decrement or increment) to the inherited value. The syntax of allowed values is a <number> followed immediately by "st" (semitones). A semitone interval corresponds to the step between each note on an equal temperament chromatic scale. A semitone can therefore be quantified as the difference between two consecutive pitch frequencies on such scale. The ratio between two consecutive frequencies separated by exactly one semitone is the twelfth root of two (approximately 11011/10393, which equals exactly 1.0594631). As a result, the value in Hertz corresponding to a semitone offset is relative to the initial frequency the offset is applied to (in other words, a semitone doesn't correspond to a fixed numerical value in Hertz).
<percentage>
Positive and negative percentage values are allowed, to represent an increment or decrement (respectively) relative to the inherited value. Computed values are calculated by adding (or subtracting) the specified fraction of the inherited value, to (from) the inherited value. For example, 50% (which is equivalent to +50%) with a inherited value of 200Hz results in 200 + (200*0.5) = 300Hz. Conversely, -50% results in 200-(200*0.5) = 100Hz.
x-low
low
medium
high
x-high
A sequence of monotonically non-decreasing pitch levels that are implementation and voice specific. When the computed value for a given element is only a keyword (i.e. no relative offset is specified), then the corresponding absolute frequency will be re-evaluated on a voice change. Conversely, the application of a relative offset requires the calculation of the resulting frequency based on the current voice at the point at which the relative offset is specified, so the computed frequency will inherit absolutely regardless of any voice change further down the style cascade. Authors should therefore only use keyword values in cases where they wish that voice changes trigger the re-evaluation of the conversion from a keyword to a concrete, voice-dependent frequency.

Computed absolute frequencies that are negative are clamped to zero Hertz. Speech-capable user agents are likely to support a specific range of values rather than the full range of possible calculated numerical values for frequencies. The actual values in user agents may therefore be clamped to implementation-dependent minimum and maximum boundaries. For example: although the 0Hz frequency can be legitimately calculated, it may be clamped to a more meaningful value in the context of the speech synthesizer.

継承値の例: Examples of inherited values:

<body>
  <e1>
    <e2>
      <e3>
        <e4>
          <e5>
            <e6>
            …
            </e6>
          </e5>
        </e4>
      </e3>
    </e2>
  </e1>
</body>
body { voice-range: inherit; }
    /* 
初期値は medium (実際の周波数の値は現在のボイスに依存する)

the initial value is 'medium' (the actual frequency value depends on the current voice)
 */

e1 { voice-range: +25%; }
    /* 
算出値は[
medium + 25%
]であり,
( medium に対応する周波数 ) + 0.25 × ( medium に対応する周波数 )
に解決される

the computed value is ['medium' + 25%] which resolves to the frequency corresponding to 'medium' plus 0.25 times the frequency corresponding to 'medium'
 */

e2 { voice-range: +10Hz; }
    /* 
算出値は [FREQ + 10Hz] 。
ここで FREQ は,上の "e1" 規則にて計算される絶対­周波数。

the computed value is [FREQ + 10Hz] where "FREQ" is the absolute frequency calculated in the "e1" rule above.
 */

e3 {
    voice-range: inherit;
    /* 
これは省略し得るが,明確さのために明示的に指定されている

this could be omitted, but we explicitly specify it for clarity purposes
 */

    voice-family: "another-voice";
    /* 
このボイス変化により, body 要素から継承された初期値の medium キーワードは再評価される(すなわち,ボイス依存のキーワード値から具体的な絶対­周波数に変換される)ことになるが、相対的­差分はスタイルのカスケードにより下層へ伝播するので, voice-range の実際の継承値は 上の "e2" 規則にて計算される周波数になる。

this voice change would have resulted in the re-evaluation of the initial 'medium' keyword inherited by the "body" element (i.e. conversion from a voice-dependent keyword value to a concrete, absolute frequency), but because relative offsets were applied down the style cascade, the inherited value is actually the frequency calculated at the "e2" rule above.
 */
}

e4 { voice-range: 200Hz absolute; }
    /* 
現在のボイスに依存しない絶対­周波数で上書きする

override with an absolute frequency which doesn't depend on the current voice
 */

e5 { voice-range: 2st; }
    /* 
算出値は、[
200Hz + 2 個の半音
]の計算から得られる,絶対­周波数(実際の周波数は,それを適用するベース値に依存する半音に対応することに留意)

the computed value is an absolute frequency, which is the result of the calculation: 200Hz + two semitones (reminder: the actual frequency corresponding to a semitone depends on the base value to which it applies)
 */

e6 {
    voice-range: inherit;
    /* 
これは省略し得るが,明確さのために明示的に指定されている

this could be omitted, but we explicitly specify it for clarity purposes
 */

    voice-family: "yet-another-voice";
    /* 
ボイス変化にかかわらず,
voice-range の算出値は "e5" に対するもの(すなわち、現在のボイスから独立な,絶対­周波数による値)と同じになる

despite the voice change, the computed value is the same as for "e5" (i.e. an absolute frequency value, independent from the current voice)
 */
}

12.5. voice-stress プロパティ

名前voice-stress
normal | strong | moderate | none | reduced
初期値normal
適用対象すべての要素
継承される
百分率利用不可
媒体発話
算出値指定値

voice-stress プロパティは、[ 音高の変化, タイミング変化, 聴感音量, 他の聴感上の相違 ]の組み合わせを利用して,通常時に適用される強調の強度を操作する。 従って,これらの値の精確な意味は、発話されている自然言語に依存する。 The ‘voice-stress’ property manipulates the strength of emphasis, which is normally applied using a combination of pitch change, timing changes, loudness and other acoustic differences. The precise meaning of the values therefore depend on the language being spoken.

このプロパティにより提供される機能は、 SSML マークアップ言語 [SSML]emphasis 要素 に類似するものであることに注意。 Note that the functionality provided by this property is similar to the emphasis element from the SSML markup language [SSML].

normal
発話合成器により生産される既定の強調を表現する。 Represents the default emphasis produced by the speech synthesizer.
none
合成器が通常時には強調するテキストを,強調させないようにする Prevents the synthesizer from emphasizing text it would normally emphasize.
moderate
strong
これらの値は強度を表す。 後に示されているものが,より強い(厳密には,より弱くない)。 これらの適用の結果、発話合成器が通常時に生産する強調(すなわち, normal に対応する値)は,より強められる。 These values are monotonically non-decreasing in strength. Their application results in more emphasis than what the speech synthesizer would normally produce (i.e. more than the value corresponding to ‘normal’).
reduced
上とは逆に,単語の強調を抑制する。 Effectively the opposite of emphasizing a word.

HTML 見本を伴うプロパティ値の例: Examples of property values, with HTML sample:

.default-emphasis { voice-stress: normal; }
.lowered-emphasis { voice-stress: reduced; }
.removed-emphasis { voice-stress: none; }
.normal-emphasis { voice-stress: moderate; }
.huge-emphasis { voice-stress: strong; }
<p>これは<em>ばかでかい</em>車だ。</p>
<!-- 前の行†による発話出力は,次の行と同じになる:
The speech output from the line above is identical to the line below: -->
<p>これは<em class="default-emphasis">ばかでかい</em>車だ。</p>

<p>この車は<em class="lowered-emphasis">ゴツい</em>!</p>
<!-- 前の行の強調は抑制されるのみである一方,次の "em" は全く強調されない:The "em" below is totally de-emphasized, whereas the emphasis in the line above is only reduced: -->
<p>この車は<em class="removed-emphasis">ゴツい</em>!</p>

<!-- 下の2行は強調レベルの増大を例示する:The lines below demonstrate increasing levels of emphasis: -->
<p>これは<em class="normal-emphasis">ばかでかい</em>車だ!</p>
<p>これは<em class="huge-emphasis">ばかでかい</em>車だ!!</p>

【 † 原文は em マークアップ記述が明らかに抜け落ちていたと見られるので補完。 】

13. ボイス持続時間プロパティ

13.1. voice-duration プロパティ

名前voice-duration
auto | <time>
初期値auto
適用対象すべての要素
継承されない
百分率利用不可
媒体発話
算出値指定値

voice-duration プロパティは、選択要素の内容が音声化される際にどの程度の時間が費やされるべきかを指定する( 音声指示, ポーズ, 休止 の時間は含まれない)。 値に auto が指定されていない限り,このプロパティは voice-rate プロパティより優先され,ボイスに適した発話速度の決定に利用されるべきである。 voice-duration プロパティの値が auto でない要素の,子孫に指定されている[ voice-duration, voice-rate ]プロパティは、無視されなければならない。 すなわち,選択要素­上の voice-duration に指定された <time> は、要素の部分木­全体に適用される(子はこのプロパティを上書きできない)。 The ‘voice-duration’ property specifies how long it should take to render the selected element's content (not including audio cues, pauses and rests ). Unless the value ‘auto’ is specified, this property takes precedence over the ‘voice-rate’ property, and should be used to determine a suitable speaking rate for the voice. An element for which the ‘voice-duration’ property value is not ‘auto’ may have descendants for which the ‘voice-duration’ and ‘voice-rate’ properties are specified, but these must be ignored. In other words, when a ‘time’ is specified for the ‘voice-duration’ of a selected element, it applies to the entire element subtree (children cannot override the property).

このプロパティにより提供される機能は、 SSML マークアップ言語 [SSML]prosody 要素duration 属性に類似するものであることに注意。 Note that the functionality provided by this property is similar to the duration attribute of the prosody element from the SSML markup language [SSML].

auto
継承される voice-rate を利用している場合は、発話合成の持続時間に対応する使用値に解決される。 Resolves to a used value corresponding to the duration of the speech synthesis when using the inherited ‘voice-rate’.
<time>
時間単位(秒/ミリ秒)による絶対的な値を指定する(例えば +3s, 250ms )。 非負の値のみ許容される。 Specifies a value in absolute time units (seconds and milliseconds, e.g. "+3s", "250ms"). Only non-negative values are allowed.

14. リスト項目とカウンタ­スタイル

[CSS21]list-style-type プロパティは、[ グリフ, 付番システム, アルファベット式システム ]の,3種いずれかによるリスト項目マーカを指定する。 このプロパティに許容される値は、 content プロパティにおける counter() 関数にも利用される。 CSS Speech モジュールは、これらのスタイルが聴覚次元において発話合成を利用してどの様に音声化されるかを定義する。 [CSS21]list-style-image プロパティは無視され,代わりに list-style-type が利用される。 The ‘ list-style-type’ property of [CSS21] specifies three types of list item markers: glyphs, numbering systems, and alphabetic systems. The values allowed for this property are also used for the counter() function of the ‘content’ property. The CSS Speech module defines how to render these styles in the aural dimension, using speech synthesis. The ‘list-style-image’ property of [CSS21] is ignored, and instead the ‘list-style-type’ is used.

CSS Lists and Counters Module Level 3 [CSS3LIST] による新たな特色機能に対する発話­音声化は、このレベルの CSS Speech の対象外にあるが,将来の仕様にて定義され得ることに注意。 【 CSS Counter Style モジュールにて 定義されている 。 】 Note that the speech rendering of new features from the CSS Lists and Counters Module Level 3 [CSS3LIST] is not covered in this level of CSS Speech, but may be defined in a future specification.

disc
circle
square
これらのリスト項目スタイルに対しては、 UA が[ どの等価なフレーズが発話されるか, あるいは どの音声指示が再生されるか ]を定義する(利用者の選好に基づいて定義し得る)。 従って,グラフィカルなビュレット(箇条書き記号)を伴うリスト項目は、実装依存の方式で適切に発声される。 For these list item styles, the user agent defines (possibly based on user preferences) what equivalent phrase is spoken or what audio cue is played. List items with graphical bullets are therefore announced appropriately in an implementation-dependent manner.
decimal
decimal-leading-zero
lower-roman
upper-roman
georgian
armenian
これらのリスト項目スタイルに対しては、対応する数がそのままの形で 発話合成器により,発話される。 また、リスト項目の存在を指示するために,追加の[ 音声指示または[ 文書の自然言語による(すなわち,リスト項目の内容を発話するものと同じ TTS ボイスによる)発話フレーズ ]]も補われ得る。 例えば,英語が利用されているときは、各リスト項目カウンタの前に単語 "Item" が補われる結果,リスト項目は "Item one", "Item two", 等々と発声されることになるであろう。 For these list item styles, corresponding numbers are spoken as-is by the speech synthesizer, and may be complemented with additional audio cues or speech phrases in the document's language (i.e. with the same TTS voice used to speak the list item content) in order to indicate the presence of list items. For example, when using the English language, the list item counter could be prefixed with the word "Item", which would result in list items being announced with "Item one", "Item two", etc.
lower-latin
lower-alpha
upper-latin
upper-alpha
lower-greek
これらのリスト項目スタイルは、文書の自然言語の下で(すなわち,リスト項目の内容を発話するものと同じ TTS ボイスを利用して),発話合成器により 一文字ごとに読み綴られる。 例えば,英語の下での lower-greek は "alpha", "beta", "gamma", 等々と読み上げられるであろう。 対して、フランス語の下での upper-latin/a/, /be/, /se/ (音標による記法)等々と読み上げられるであろう。 These list item styles are spelled out letter-by-letter by the speech synthesizer, in the document language (i.e. with the same TTS voice used to speak the list item content). For example, ‘lower-greek’ in English would be read out as "alpha", "beta", "gamma", etc. Conversely, ‘upper-latin’ in French would be read out as /a/, /be/, /se/, etc. (phonetic notation)

スクリーンリーダーなどの UA では、リスト項目の入れ子の深さを発声したり、より一般的には,複雑な階層的­内容に付随する構造情報を追加で指示することが一般に行われている。 これらの追加の[ 音声指示や発話出力 ]の冗長度は、通例的には利用者により制御され,利便性の向上に寄与する。 これらの補助案内は実装依存であるが, CSS Speech モジュールをサポートする UA には、これらの追加の音声指示や発話出力に際し,過度の冗長さが生成されたり 矛盾が生じないようにすることが,推奨される(例えば、リスト項目の付番の枠組みおける,重複や相反する枠組みの利用を避けるなど)。 Note that it is common for user agents such as screen readers to announce the nesting depth of list items, or more generally, to indicate additional structural information pertaining to complex hierarchical content. The verbosity of these additional audio cues and/or speech output can usually be controlled by users, and contribute to increasing usability. These navigation aids are implementation-dependent, but it is recommended that user agents supporting the CSS Speech module ensure that these additional audio cues and speech output don't generate redundancies or create inconsistencies (for example: duplicated or different list item numbering scheme).

15. 挿入内容と置換内容

この節は参考である。 Note that this entire section is informative.

定例の発音­規則の適用に先立ち,ソース­テキストから別の文字列への対応付けの指定が、作者から望まれることがある。 これは、合成器からは認識される見込みが薄いような,一般的でない略語や頭字語のために利用され得る。 content プロパティを文字列を別の文字列に置換するために利用できる。 このプロパティにより提供される機能は、 SSML マークアップ言語 [SSML]sub 要素alias 属性に類似するものであることに注意。 Sometimes, authors will want to specify a mapping from the source text into another string prior to the application of the regular pronunciation rules. This may be used for uncommon abbreviations or acronyms which are unlikely to be recognized by the synthesizer. The ‘content’ property can be used to replace one string by another. The functionality provided by this property is similar to the alias attribute of the sub element from the SSML markup language [SSML].

次の例では、略語の音声化に際し,要素の内容の代わりに title 属性の内容が利用される。 In this example, the abbreviation is rendered using the content of the title attribute instead of the element's content.

    /* 
これは、選択要素の内容を 文字列 "World Wide Web Consortium" に置き換える。This replaces the content of the selected element by the string "World Wide Web Consortium". */
abbr { content: attr(title); }
<abbr title="World Wide Web Consortium">W3C</abbr>

同様の仕方で、文書­内のテキスト文字列も,予め録音済みのバージョンに置換できる。 In a similar way, text strings in a document can be replaced by a previously recorded version.

次の例では、データ形式がサポートされていて, かつ ファイルが可用であって, かつ UA がそうするよう設定されていることを前提に、 Sir John Gielgud による著名なモノローグの朗読の録音が再生される。 他の場合、 UA はフォールバックとして,合成された発話を利用してテキストを音声化する。 In this example - assuming the format is supported, the file is available and the UA is configured to do so - a recording of Sir John Gielgud's declamation of the famous monologue is played. Otherwise the UA falls back to render the text using synthesized speech.

.hamlet { content: url(./audio/gielgud.wav); }
<div class="hamlet">
To be, or not to be: that is the question:
</div>

更に,作者(または利用者スタイルシートを用いる利用者)は、文書との非­視覚的な対話において 構造を理解し易くするための,何らかの情報を追加してもよい。 それらは[ ::before::after ]疑似要素を利用して追加できる。 複数のスタイルシートを利用すれば、スクリーンリーダーから発話される追加­情報の冗長度を複数レベル定義できることに注意。 Furthermore, authors (or users via a user stylesheet) may add some information to ease the understanding of structures during non-visual interaction with the document. They can do so by using the ‘::before’ and ‘::after’ pseudo-elements. Note that different stylesheets can be used to define the level of verbosity for additional information spoken by screen readers.

この例では、リストの前に文字列 "箇条書き開始。" を挿入し, 各リスト項目の内容の前に文字列 "一つ、" を挿入する。 同様に、リストの後には,利用者にリストの発話出力を終えたことを伝えるための文字列 "箇条書き終了。" が挿入される。 This example inserts the string "Start list: " before a list and the string "List item: " before the content of each list item. Likewise, the string "List end: " gets inserted after the list to inform the user that the list speech output is over.

ul::before { content: "箇条書き開始。"; }
ul::after  { content: "一つ、"; }
li::before { content: "箇条書き終了。"; }

より詳細な情報は CSS 3 Generated and Replaced Content モジュール [CSS-CONTENT-3] にて見られる。 Detailed information can be found in the CSS3 Generated and Replaced Content module [CSS-CONTENT-3].

16. 発音と音素

この節は参考である。 Note that this entire section is informative.

CSS は、マークアップ文書­内の特定のテキスト片の発音( well-defined な音標文字を用いて記される)については,それを定義する方法を指定しない。 この仕様の以前の草案では, “音素” ( phonemes )プロパティについて述べられていたが、内容と呈示の分離 の原則に抵触するとして,異論が提起された(聴覚 CSS スタイルシート内に著作された “音素” は、マークアップ文書­内のテキストが変更される度に更新される必要がある)。 従って, “音素” の機能は、 CSS (呈示­層)の対象外にあると見なされており,マークアップ層/内容­層において解決されるべきである。 CSS does not specify how to define the pronunciation (expressed using a well-defined phonetic alphabet) of a particular piece of text within the markup document. A "phonemes" property was described in earlier drafts of this specification, but objections were raised due to breaking the principle of separation between content and presentation (the "phonemes" authored within aural CSS stylesheets would have needed to be updated each time text changed within the markup document). The "phonemes" functionality is therefore considered out-of-scope in CSS (the presentation layer) and should be addressed in the markup / content layer.

rel 値に "pronunciation" を伴う link 要素を利用すれば( CSS スタイルシートを含めるときと同様の方法で), HTML 文書に発音辞書を取り込めるようになる。 W3C PLS ( Pronunciation Lexicon Specification ) [PRONUNCIATION-LEXICON] は、その種の辞書を記述するために利用できるデータ形式の一つである。 The "pronunciation" rel value allows importing pronunciation lexicons in HTML documents using the link element (similar to how CSS stylesheets can be included). The W3C PLS (Pronunciation Lexicon Specification) [PRONUNCIATION-LEXICON] is one format that can be used to describe such a lexicon.

加えて,マークアップ内では、テキストと発音の結び付けの著作に,属性に基づく仕組みを利用し得る。 その種の仕組みは、この仕様が書かれた時点では, W3C HTML 標準では公式的に定義されていない。 しかしながら, EPUB 3.0 仕様 では、 [SSML] 仕様からの派生による[ テキストを特定の音標文字に基づいて発音する方法 ]を記述する属性を, (x)HTML5 文書に含ませることが許容されている。 Additionally, an attribute-based mechanism can be used within the markup to author text-pronunciation associations. At the time of writing, such mechanism isn't formally defined in the W3C HTML standard(s). However, the EPUB 3.0 specification allows (x)HTML5 documents to contain attributes derived from the [SSML] specification, that describe how to pronounce text based on a particular phonetic alphabet.

付録 A — プロパティ索引

【 この節の他の内容は省略(見出しクリックで巡回)。 】

次のプロパティは、他のモジュールまたは仕様にて定義される: The following properties are defined in other modules or specifications:

display [CSS21]
padding [CSS21]
border [CSS21]
margin [CSS21]
font-family [CSS21]
content [CSS-CONTENT-3]
list-style-type [CSS21]
list-style-image [CSS21]

次の語は、他のモジュールまたは仕様にて定義される: The following definitions are provided by other modules or specifications:

カスケード [CSS21]
視覚ボックスモデル [CSS21]
URL [CSS3VAL]
時間 [CSS3VAL]
周波数 [CSS3VAL]
実数 [CSS3VAL]
整数 [CSS3VAL]
非負実数 [CSS3VAL]
百分率 [CSS3VAL]
識別子 [CSS21]
文字列 [CSS21]

付録 B — 索引

【 この節の内容は省略(ウィンドウ下端の索引機能を利用されたし)。 】

付録 C — 定義

用語

このモジュールには、次の用語/略語が利用されている: The following terms and abbreviations are used in this module.

UA
ユーザエージェント
利用者のために CSS スタイル­シートを読み取る/書き出すプログラムであって,次のいずれかに分類されるようなプログラム: 文書を音声化する(例えばブラウザ)ことを目的とするもの, あるいは,スタイルシートの作成を目的とするもの(エディタなど)。 同じ UA が同時にこの両者である場合も含まれる。 (スタイルシートを読み書きするプログラムには,これら以外のものもあるが、このモジュールは,それらに対する規則は課さない)。 A program that reads and/or writes CSS style sheets on behalf of a user in either or both of these categories: programs whose purpose is to render documents (e.g., browsers) and programs whose purpose is to create style sheets (e.g., editors). A UA may fall into both categories. (There are other programs that read or write style sheets, but this module gives no rules for them.)
文書
SGML や XML 文書など,要素と属性からなる木構造を備える文書 [XML11] A tree-structured document with elements and attributes, such as an SGML or XML document [XML11].
スタイルシート
CSS スタイルシート A CSS style sheet

適合性

【 この節の内容は CSS 日本語訳 共通ページ に委譲。 】

勧告候補からの昇格基準

【 この節の内容は CSS 日本語訳 共通ページ に委譲。 】

付録 D — 謝辞

この仕様の策定に援助された W3C Voice Browser / Cascading Style Sheets ワーキンググループのメンバに感謝する。 詳細なコメントを寄せられた, Ellen Eide 氏( IBM )と,入念に検討された Elika Etemad 氏( Fantasai )に特に感謝する。 The editors would like to thank the members of the W3C Voice Browser and Cascading Style Sheets working groups for their assistance in preparing this specification. Special thanks to Ellen Eide (IBM) for her detailed comments, and to Elika Etemad (Fantasai) for her thorough reviews.

付録 E — 以前の草案からの変更点

2012 年 勧告候補 からの変更点は: The following changes have been made since the 2012 Candidate Recommendation:

付録 F — 参照文献

文献(規範)

文献(参考)