Spitfire: A Three-Tier Buffer Manager for Volatile and Non-Volatile Memory

A probabilistic quantification framework for three-tier buffer migration policies.
A simulated annealing algorithm for workload-adaptive migration policy tuning.
An implementation of Spitfire (~14,000 lines C++), compared against HYMEM, with analysis of storage architecture selection.

三层缓冲区管理器迁移策略的概率量化框架。
基于该框架的模拟退火自适应工作集迁移策略调整算法。
Spitfire的实现（约14000行C++），与HYMEM进行对比，分析存储架构选型。

三層バッファ移行ポリシーの確率的定量化フレームワーク。
模擬焼きなまし法によるワークロード適応型移行ポリシー調整アルゴリズム。
Spitfireの実装（C++ 約14,000行）とHYMEMとの比較、ストレージアーキテクチャ選択の分析。

Storage medium characteristics deeply influence database system design. Traditional DBMS design assumed a two-tier hierarchy: high-speed low-capacity volatile storage (DRAM) and low-speed high-capacity non-volatile storage (SSD/HDD). The emergence of NVM breaks this assumption and may cause profound changes to DBMS design.

存储介质的特性深刻影响数据库系统设计。传统DBMS基于二层存储假设：高速低容量的易失性存储（DRAM）/ 低速高容量的非易失性存储（SSD/HDD）。NVM的出现打破了这一假设，极有可能对数据库系统设计造成深远变革。

ストレージメディアの特性はデータベースシステムの設計に深く影響します。従来のDBMSは二層階層を前提としていました：高速・低容量の揮発性ストレージ（DRAM）と低速・大容量の不揮発性ストレージ（SSD/HDD）。NVMの登場によりこの仮定が崩れ、DBMSの設計に根本的な変化をもたらす可能性があります。

NVM (Non-Volatile Memory), also called PMEM or SCM, has the following properties:

NVM（Non-Volatile Memory），又称PMEM（Persistent Memory）或SCM（Storage Class Memory），具备以下特点：

NVM（Non-Volatile Memory）、別名PMEM（Persistent Memory）またはSCM（Storage Class Memory）は以下の特性を持ちます：

Persistence: Data survives power loss. ⟹ Eliminates expensive fsync.
CPU-accessible: CPU can read/write NVM directly. ⟹ DRAM can be bypassed.
Intermediate latency/bandwidth between DRAM and SSD. ⟹ Enables DRAM/NVM, NVM/SSD, All-in-NVM, or DRAM/NVM/SSD configurations.
Byte addressability: Optane's actual granularity is 256 B. ⟹ Finer-grained scheduling than page-level is possible.
Limited write endurance. ⟹ Migration policies must balance performance against write amplification.

数据持久化：断电不丢失。⟹ 消除高开销的fsync。
CPU可直接访问：CPU可直接读写NVM。⟹ 提供了架空DRAM的可能。
延迟/带宽介于DRAM和SSD之间。⟹ 可构成DRAM/NVM、NVM/SSD、All-in-NVM或DRAM/NVM/SSD三层架构。
字节级寻址：Optane实际访问粒度为256字节。⟹ 可采用比页粒度更细的调度方式。
耐擦写性较差。⟹ 缓存策略需权衡性能与写入负载。

永続性：電源断でもデータが保持される。⟹ 高コストなfsyncが不要。
CPUから直接アクセス可能：CPUがNVMを直接読み書きできる。⟹ DRAMをバイパス可能。
DRAMとSSDの中間のレイテンシ/帯域幅。⟹ DRAM/NVM、NVM/SSD、All-in-NVM、またはDRAM/NVM/SSD構成が可能。
バイト単位アドレッサブル：Optaneの実際の粒度は256バイト。⟹ ページ粒度より細かいスケジューリングが可能。
書き込み耐久性が低い。⟹ 移行ポリシーは性能と書き込み量のバランスを取る必要がある。

	DRAM	NVM	SSD
Latency
Idle Sequential Read	75 ns	170 ns	10 μs
Idle Random Read	80 ns	320 ns	12 μs
Bandwidth
Sequential Read	180 GB/s	91.2 GB/s	2.6 GB/s
Random Read	180 GB/s	28.8 GB/s	2.4 GB/s
Sequential Write	180 GB/s	27.6 GB/s	2.4 GB/s
Random Write	180 GB/s	6 GB/s	2.3 GB/s
Other
Price ($/GB)	10	4.5	2.8
Addressability	Byte	Byte	Block
Media Access Granularity	64 B	256 B	16 KB
Persistent	No	Yes	Yes
Endurance (cycles)	10¹⁶	10¹⁰	10¹²

This paper adopts DRAM/NVM/SSD with in-place writes. In a classic DRAM/SSD two-tier hierarchy the buffer manager makes two decisions: which pages to cache and when. The most famous formulation is Jim Gray's Five Minute Rule (SIGMOD 1987). With a three-tier hierarchy it must additionally decide where to move pages.

本文采用DRAM/NVM/SSD架构与in-place写入模式。经典DRAM/SSD二层架构中，缓冲区管理器只需做两个决策：缓存哪些页面以及何时缓存。最著名的量化方案是Jim Gray的五分钟规则（SIGMOD 1987）。三层架构还需额外决策：将页面移到哪里。

本論文はDRAM/NVM/SSDとin-place書き込みを採用します。古典的なDRAM/SSD二層階層では、バッファマネージャは2つの決定をします：どのページをキャッシュするか、いつキャッシュするか。最も有名な定式化はJim GrayのFive Minute Rule（SIGMOD 1987）です。三層階層ではさらにどこに移動するかも決定する必要があります。

HYMEM [SIGMOD 2018] is the first buffer manager designed for DRAM/NVM/SSD. It distributes pages by access frequency: hot → DRAM, warm → NVM, cold → SSD. HYMEM implements two optimizations on top of a clock-based migration strategy:

HYMEM [SIGMOD 2018] 是首个专为DRAM/NVM/SSD设计的缓冲区管理器，根据访问频率分配页面：热页面→DRAM，温页面→NVM，冷页面→SSD。在基于时钟的迁移策略基础上实现了两项优化：

HYMEM [SIGMOD 2018] はDRAM/NVM/SSD向けの最初のバッファマネージャで、アクセス頻度によってページを分配します：ホット→DRAM、ウォーム→NVM、コールド→SSD。クロックベースの移行戦略の上に2つの最適化を実装しています：

Cache-line-grained pages: Loads NVM pages into DRAM at cache-line granularity, exploiting NVM byte addressability. DRAM maintains resident and dirty bitmaps per page.
Mini-pages: A compact form capped at 16 cache lines; auto-upgraded to a full page when the count exceeds 16, reducing DRAM waste from sparsely populated pages.

缓存行粒度页面（cache-line-grained page）：利用NVM字节寻址能力，以缓存行粒度将NVM页面载入DRAM。DRAM为每个页面维护resident和dirty两个位图。
小页面（mini-page）：缓存行粒度页面的压缩形式，容量上限为16个缓存行；超过时自动升级为普通页面，减少稀疏页面对DRAM空间的浪费。

キャッシュライン粒度ページ：NVMのバイトアドレッサビリティを利用してキャッシュライン単位でNVMページをDRAMに読み込む。DRAMは各ページにresidentおよびdirtyビットマップを維持する。
ミニページ：最大16キャッシュラインのコンパクト形式。16を超えると通常サイズのページに自動昇格し、疎なページによるDRAM無駄を削減する。

HYMEM's migration policy has five data transfer paths and three critical decisions:

HYMEM的数据迁移策略包含五条数据传输路径和三个关键决策：

HYMEMの移行ポリシーは5つのデータ転送パスと3つの重要な決定で構成されます：

Page absent from both DRAM and NVM → read from SSD into DRAM (path 1).
DRAM eviction: clock (second-chance) when DRAM is full.
NVM admission: use Admission Queue — not in queue → evict to SSD and enqueue (path 3→5); in queue → evict to NVM (path 3→4). Only pages evicted twice enter NVM.
Page in NVM, not DRAM → load at cache-line granularity into DRAM (path 2).
NVM eviction: clock when NVM is full (path 6).

页面既不在DRAM也不在NVM中 → 从SSD直接读入DRAM（路径1）。
DRAM驱逐：DRAM满时采用clock（second chance）算法。
NVM准入：使用Admission Queue——不在队列中→驱逐至SSD并入队（路径3→5）；在队列中→驱逐至NVM（路径3→4）。只有被驱逐两次的页面才进入NVM。
页面在NVM不在DRAM → 以缓存行粒度载入DRAM（路径2）。
NVM驱逐：NVM满时采用clock算法（路径6）。

DRAMにもNVMにもページが存在しない → SSDからDRAMに読み込む（パス1）。
DRAM退避：DRAMが満杯の場合にclock（second-chance）アルゴリズム。
NVM受付：Admission Queueを使用 — キューにない場合はSSDに退避してエンキュー（パス3→5）；キューにある場合はNVMに退避（パス3→4）。2回退避されたページのみNVMに入る。
ページがNVMにありDRAMにない → キャッシュライン単位でDRAMに読み込む（パス2）。
NVM退避：NVMが満杯の場合にclockアルゴリズム（パス6）。

HYMEM also uses pointer swizzling — replacing page identifiers in DRAM with direct pointers to reduce page-table lookup overhead. However, HYMEM has several known limitations: (1) SSD→NVM and NVM↔CPU direct paths are absent, causing data duplication; (2) SSD→DRAM loading easily evicts hot pages; (3) single-threaded, no concurrency support.

HYMEM还使用了指针换用（pointer swizzling）——将DRAM中的页面标识符替换为直接指针，以减少页表查找开销。但HYMEM存在已知问题：（1）不支持SSD→NVM和NVM↔CPU直接数据流，导致数据重复；（2）SSD→DRAM直接加载容易驱逐热页面；（3）单线程设计，无并发支持。

HYMEMはポインタスウィズリングも使用します——DRAMのページ識別子を直接ポインタに置き換えてページテーブルルックアップのオーバーヘッドを削減します。ただしHYMEMには既知の限界があります：(1) SSD→NVMおよびNVM↔CPU直接パスが存在せずデータ重複が発生；(2) SSD→DRAMの直接ロードがホットページを退避させやすい；(3) シングルスレッド設計で並行性のサポートなし。

Spitfire enables all possible data flows and defines a 4-tuple to probabilistically characterize migration policies:

Spitfire开放所有可能的数据流，并定义如下四元组以概率方式刻画迁移策略：

Spitfireはすべての可能なデータフローを有効にし、移行ポリシーを確率的に特徴付ける4タプルを定義します：

Notation	Definition	Complement	Interpretation
D_r	P(NVM → DRAM)	1 − D_r	P(NVM → CPU)
D_w	P(CPU → DRAM)	1 − D_w	P(CPU → NVM)
N_r	P(SSD → NVM)	1 − N_r	P(SSD → DRAM)
N_w	P(DRAM → NVM)	1 − N_w	P(DRAM → SSD)

Each parameter is implemented via random sampling of access history. A hot NVM page accessed N times is promoted to DRAM with probability 1 − (1 − D_r)^N → 1 as N → ∞. Semantic interpretation:

每个参数通过对访问历史的随机采样实现。访问N次的热NVM页面被提升至DRAM的概率为 1 − (1 − D_r)^N，当N→∞时趋于1。各参数的语义：

各パラメータはアクセス履歴のランダムサンプリングによって実装されます。N回アクセスされたホットNVMページがDRAMに昇格する確率は 1 − (1 − D_r)^N で、N→∞のとき1に収束します。各パラメータの意味：

D_r: Probability of promoting an NVM page to DRAM on read. Use larger D_r when the working set fits in DRAM; smaller otherwise.
D_w: Probability that a CPU write goes to DRAM. Smaller D_w exploits the NVM↔CPU path and avoids evicting hot DRAM pages.
N_r: Probability that an SSD miss loads into NVM (vs. directly into DRAM).
N_w: Probability that a DRAM eviction writes through NVM before SSD. Analogous to HYMEM's Admission Queue, but probabilistic. Smaller values reduce NVM wear.

D_r：读操作时NVM页面被提升至DRAM的概率。工作集可容纳于DRAM时用较大值，否则用较小值。
D_w：CPU写操作写入DRAM的概率。较小值充分利用NVM↔CPU数据通路，避免驱逐DRAM热页面。
N_r：SSD缺页时加载至NVM（而非直接加载至DRAM）的概率。
N_w：DRAM驱逐时经过NVM写入SSD的概率。类似HYMEM的Admission Queue机制，但采用概率方式。较小值减少NVM写入量，延长使用寿命。

D_r：読み取り時にNVMページをDRAMに昇格させる確率。ワーキングセットがDRAMに収まる場合は大きく、そうでない場合は小さくする。
D_w：CPU書き込みがDRAMに行く確率。小さな値はNVM↔CPUパスを活用し、DRAMのホットページ退避を防ぐ。
N_r：SSDミス時にNVMにロードする確率（DRAMへの直接ロードではなく）。
N_w：DRAMの退避がNVMを経由してSSDに書き込む確率。HYMEMのAdmission Queueと類似しているが確率的。小さな値はNVMの書き込みを減らす。

Spitfire tunes P adaptively using simulated annealing with cost function cost(P) = 1/T (inverse throughput). Starting at high temperature for broad exploration and cooling gradually, it converges to the global optimum with high probability.

Spitfire使用模拟退火自适应调整策略P，代价函数定义为事务吞吐量的倒数：cost(P) = 1/T。从高温开始广泛探索，逐步降温，能以较高概率收敛至全局最优。

Spitfireはコスト関数cost(P) = 1/T（スループットの逆数）で模擬焼きなまし法を使用してPを適応的に調整します。高温から広く探索し、徐々に冷却することで高確率で大域最適に収束します。

Policy	D_r	D_w	N_r	N_w
HYMEM	1	1	0	AdmQueue
Spitfire-Eager	1	1	1	1
Spitfire-Lazy	0.01	0.01	0.2	1

Eager always follows SSD→NVM→DRAM→CPU reads and CPU→DRAM→NVM→SSD writes. Lazy routes most NVM accesses directly to CPU (D_r=D_w=0.01), reads most SSD misses into DRAM (N_r=0.2), and writes all DRAM evictions directly to SSD (N_w=1), protecting NVM.

Eager始终遵循SSD→NVM→DRAM→CPU读流程和CPU→DRAM→NVM→SSD写流程。Lazy让大多数NVM访问直接与CPU交互（D_r=D_w=0.01），大多数SSD缺页直接读入DRAM（N_r=0.2），所有DRAM驱逐直接写SSD（N_w=1），尽可能保护NVM。

Eagerは常にSSD→NVM→DRAM→CPU読み取りとCPU→DRAM→NVM→SSD書き込みに従います。LazyはほとんどのNVMアクセスをCPUに直接ルーティングし（D_r=D_w=0.01）、ほとんどのSSDミスをDRAMに読み込み（N_r=0.2）、すべてのDRAM退避をSSDに直接書き込みます（N_w=1）、NVMを保護します。

Spitfire maintains a concurrent hash table (mapping table) in DRAM storing per-tier latches and page descriptors. On a page request: page in DRAM → return DRAM frame; page in NVM and bypass permitted → return NVM frame directly; page absent → load per migration policy. Eviction uses clock. Inter-tier migration requires holding both tiers' latches simultaneously.

Spitfire在DRAM中维护一个并发哈希表（映射表），存储每层粒度的锁和页面描述符。页面请求处理：页面在DRAM中→返回DRAM帧；页面在NVM中且策略允许旁路→直接返回NVM帧；页面不存在→按迁移策略加载。驱逐使用时钟算法。跨层迁移需同时持有两层的锁。

SpitfireはDRAMに並行ハッシュテーブル（マッピングテーブル）を維持し、各層のラッチとページ記述子を格納します。ページリクエスト処理：DRAMにページがある場合→DRAMフレームを返す；NVMにページがありバイパスが許可されている場合→NVMフレームを直接返す；ページが存在しない場合→移行ポリシーに従ってロード。退避にはclockを使用。層間移行では両層のラッチを同時に保持する必要があります。

Spitfire additionally uses a concurrent bitmap for migration tracking, MVTO for concurrency control, and a concurrent B+Tree with optimistic lock coupling for indexing. The WAL is implemented in NVM. On restart, Spitfire scans NVM to find latest page versions, rebuilds the mapping table, then executes standard DBMS recovery (analysis, redo, undo).

Spitfire还使用并发位图跟踪迁移策略、MVTO并发控制协议和基于乐观锁耦合的并发B+树。WAL实现在NVM层。重启时，Spitfire扫描NVM识别页面最新版本，重建映射表，之后执行标准DBMS恢复流程（分析、重做、撤销）。

Spitfireはさらに移行追跡用の並行ビットマップ、並行制御用MVTO、楽観的ロックカップリングを使用した並行B+Treeを使用します。WALはNVM層に実装されます。再起動時、SpitfireはNVMをスキャンして最新ページバージョンを特定し、マッピングテーブルを再構築した後、標準的なDBMS回復（分析、redo、undo）を実行します。

Workloads: YCSB-RO (100% reads), YCSB-BA (50% reads, 50% updates), YCSB-WH (10% reads, 90% updates), TPC-C.

测试负载：YCSB-RO（100%读）、YCSB-BA（50%读50%更新）、YCSB-WH（10%读90%更新）、TPC-C。

ワークロード：YCSB-RO（100%読み取り）、YCSB-BA（50%読み取り、50%更新）、YCSB-WH（10%読み取り、90%更新）、TPC-C。

We demonstrate that the choice of the migration policy is more important than the fine-grained loading and mini-page optimizations. — Spitfire

我们证明，迁移策略的选择比细粒度加载和小页面优化更为重要。——Spitfire

移行ポリシーの選択は、細粒度ロードおよびミニページ最適化よりも重要であることを示す。— Spitfire

Three storage architecture design principles: (1) For maximum absolute performance, architecture must include DRAM. (2) For read-intensive workloads, DRAM/NVM/SSD achieves the best performance/price ratio. (3) For write-intensive workloads, NVM/SSD is best — NVM persistence reduces recovery overhead.

三条存储架构设计原则：（1）要达到最高绝对性能，架构必须包含DRAM；（2）读密集型负载下DRAM/NVM/SSD的性价比最优；（3）写密集型负载下NVM/SSD的性价比最优——NVM持久化降低了恢复协议开销。

3つのストレージアーキテクチャ設計原則：(1) 最高の絶対性能のためには、アーキテクチャにDRAMが必要；(2) 読み取り集中型ワークロードではDRAM/NVM/SSDが最良の性能/価格比を達成；(3) 書き込み集中型ワークロードではNVM/SSDが最良 — NVMの永続性により回復オーバーヘッドが削減される。

HYMEM, the first DBMS buffer manager for DRAM/NVM/SSD, achieves performance beyond NVM Direct via clock-based hot/warm/cold page distribution and NVM byte-addressability optimizations. Spitfire introduces a probabilistic vector representation of migration policies enabling simulated annealing-based workload adaptation. Its key finding: migration policy selection dominates performance, outweighing fine-grained cache-line and mini-page optimizations. The Spitfire-Lazy policy consistently outperforms HYMEM across diverse workloads.

HYMEM是首个面向DRAM/NVM/SSD三层架构的DBMS缓冲区管理器，通过时钟算法将热/温/冷页面分发至合适存储层，并利用NVM字节寻址能力实现了超越NVM Direct的性能。Spitfire通过概率向量刻画迁移策略，使模拟退火能够在运行时自适应调整。核心结论：迁移策略的选择对性能的决定性影响超过缓存行和小页面等细粒度优化。Spitfire-Lazy策略在各类负载下均持续优于HYMEM。

HYMEMはDRAM/NVM/SSD向けの最初のDBMSバッファマネージャで、クロックベースのホット/ウォーム/コールドページ分配とNVMバイトアドレッサビリティ最適化によりNVM Directを超える性能を達成しました。Spitfireは移行ポリシーの確率的ベクトル表現を導入し、模擬焼きなまし法によるワークロード適応を実現します。主な知見：移行ポリシーの選択が性能を支配し、キャッシュラインとミニページの細粒度最適化を上回ります。Spitfire-Lazyポリシーは多様なワークロードを通じてHYMEMを一貫して上回ります。

Spitfire: A Three-Tier Buffer Manager for Volatile and Non-Volatile Memory Spitfire：面向易失性与非易失性内存的三层缓冲区管理器 Spitfire：揮発性・不揮発性メモリ向け三層バッファマネージャ

I. Background

一、背景

I. 背景

II. Prior Work: HYMEM

二、先前工作：HYMEM

II. 先行研究：HYMEM

III. NVM-Aware Data Migration Policy: A Taxonomy

三、NVM感知数据迁移策略分类

III. NVM対応データ移行ポリシーの分類

IV. Adaptive Data Migration: Simulated Annealing

四、自适应数据迁移：模拟退火

IV. 適応的データ移行：模擬焼きなまし法

V. Spitfire: System Architecture

五、Spitfire系统架构

V. Spitfireシステムアーキテクチャ

VI. Experimental Evaluation

六、实验评估

VI. 実験評価

NVM/SSD vs. DRAM/SSD at Equal Cost

相同成本下NVM/SSD与DRAM/SSD的性能比较

同コストでのNVM/SSD対DRAM/SSD

Optimal Migration Policy per Workload

不同工作集下的最优数据迁移策略

ワークロードごとの最適移行ポリシー

Simulated Annealing Convergence

模拟退火的收敛性

模擬焼きなまし法の収束

HYMEM vs. Spitfire

HYMEM与Spitfire对比

HYMEM対Spitfire

Impact of Database Size

数据库大小对性能的影响

データベースサイズの影響

VII. Conclusion

七、结论

VII. 結論