drivers/block/brd.c

   1 /*
   2  * Ram backed block device driver.
   3  *
   4  * Copyright (C) 2007 Nick Piggin
   5  * Copyright (C) 2007 Novell Inc.
   6  *
   7  * Parts derived from drivers/block/rd.c, and drivers/block/loop.c, copyright
   8  * of their respective owners.
   9  */
  10
  11 #include <linux/init.h>
  12 #include <linux/module.h>
  13 #include <linux/moduleparam.h>
  14 #include <linux/major.h>
  15 #include <linux/blkdev.h>
  16 #include <linux/bio.h>
  17 #include <linux/highmem.h>
  18 #include <linux/mutex.h>
  19 #include <linux/radix-tree.h>
  20 #include <linux/fs.h>
  21 #include <linux/slab.h>
  22 #ifdef CONFIG_BLK_DEV_RAM_DAX
  23 #include <linux/pfn_t.h>
  24 #endif
  25
  26 #include <asm/uaccess.h>
  27
  28 #define PAGE_SECTORS_SHIFT      (PAGE_SHIFT - SECTOR_SHIFT)
  29 #define PAGE_SECTORS            (1 << PAGE_SECTORS_SHIFT)
  30
  31 /*
  32  * Each block ramdisk device has a radix_tree brd_pages of pages that stores
  33  * the pages containing the block device's contents. A brd page's ->index is
  34  * its offset in PAGE_SIZE units. This is similar to, but in no way connected
  35  * with, the kernel's pagecache or buffer cache (which sit above our block
  36  * device).
  37  */
  38 struct brd_device {
  39         int             brd_number;
  40
  41         struct request_queue    *brd_queue;
  42         struct gendisk          *brd_disk;
  43         struct list_head        brd_list;
  44
  45         /*
  46          * Backing store of pages and lock to protect it. This is the contents
  47          * of the block device.
  48          */
  49         spinlock_t              brd_lock;
  50         struct radix_tree_root  brd_pages;
  51 };
  52
  53 /*
  54  * Look up and return a brd's page for a given sector.
  55  */
  56 static DEFINE_MUTEX(brd_mutex);
  57 static struct page *brd_lookup_page(struct brd_device *brd, sector_t sector)
  58 {
  59         pgoff_t idx;
  60         struct page *page;
  61
  62         /*
  63          * The page lifetime is protected by the fact that we have opened the
  64          * device node -- brd pages will never be deleted under us, so we
  65          * don't need any further locking or refcounting.
  66          *
  67          * This is strictly true for the radix-tree nodes as well (ie. we
  68          * don't actually need the rcu_read_lock()), however that is not a
  69          * documented feature of the radix-tree API so it is better to be
  70          * safe here (we don't have total exclusion from radix tree updates
  71          * here, only deletes).
  72          */
  73         rcu_read_lock();
  74         idx = sector >> PAGE_SECTORS_SHIFT; /* sector to page index */
  75         page = radix_tree_lookup(&brd->brd_pages, idx);
  76         rcu_read_unlock();
  77
  78         BUG_ON(page && page->index != idx);
  79
  80         return page;
  81 }
  82
  83 /*
  84  * Look up and return a brd's page for a given sector.
  85  * If one does not exist, allocate an empty page, and insert that. Then
  86  * return it.
  87  */
  88 static struct page *brd_insert_page(struct brd_device *brd, sector_t sector)
  89 {
  90         pgoff_t idx;
  91         struct page *page;
  92         gfp_t gfp_flags;
  93
  94         page = brd_lookup_page(brd, sector);
  95         if (page)
  96                 return page;
  97
  98         /*
  99          * Must use NOIO because we don't want to recurse back into the
 100          * block or filesystem layers from page reclaim.
 101          *
 102          * Cannot support DAX and highmem, because our ->direct_access
 103          * routine for DAX must return memory that is always addressable.
 104          * If DAX was reworked to use pfns and kmap throughout, this
 105          * restriction might be able to be lifted.
 106          */
 107         gfp_flags = GFP_NOIO | __GFP_ZERO;
 108 #ifndef CONFIG_BLK_DEV_RAM_DAX
 109         gfp_flags |= __GFP_HIGHMEM;
 110 #endif
 111         page = alloc_page(gfp_flags);
 112         if (!page)
 113                 return NULL;
 114
 115         if (radix_tree_preload(GFP_NOIO)) {
 116                 __free_page(page);
 117                 return NULL;
 118         }
 119
 120         spin_lock(&brd->brd_lock);
 121         idx = sector >> PAGE_SECTORS_SHIFT;
 122         page->index = idx;
 123         if (radix_tree_insert(&brd->brd_pages, idx, page)) {
 124                 __free_page(page);
 125                 page = radix_tree_lookup(&brd->brd_pages, idx);
 126                 BUG_ON(!page);
 127                 BUG_ON(page->index != idx);
 128         }
 129         spin_unlock(&brd->brd_lock);
 130
 131         radix_tree_preload_end();
 132
 133         return page;
 134 }
 135
 136 static void brd_free_page(struct brd_device *brd, sector_t sector)
 137 {
 138         struct page *page;
 139         pgoff_t idx;
 140
 141         spin_lock(&brd->brd_lock);
 142         idx = sector >> PAGE_SECTORS_SHIFT;
 143         page = radix_tree_delete(&brd->brd_pages, idx);
 144         spin_unlock(&brd->brd_lock);
 145         if (page)
 146                 __free_page(page);
 147 }
 148
 149 static void brd_zero_page(struct brd_device *brd, sector_t sector)
 150 {
 151         struct page *page;
 152
 153         page = brd_lookup_page(brd, sector);
 154         if (page)
 155                 clear_highpage(page);
 156 }
 157
 158 /*
 159  * Free all backing store pages and radix tree. This must only be called when
 160  * there are no other users of the device.
 161  */
 162 #define FREE_BATCH 16
 163 static void brd_free_pages(struct brd_device *brd)
 164 {
 165         unsigned long pos = 0;
 166         struct page *pages[FREE_BATCH];
 167         int nr_pages;
 168
 169         do {
 170                 int i;
 171
 172                 nr_pages = radix_tree_gang_lookup(&brd->brd_pages,
 173                                 (void **)pages, pos, FREE_BATCH);
 174
 175                 for (i = 0; i < nr_pages; i++) {
 176                         void *ret;
 177
 178                         BUG_ON(pages[i]->index < pos);
 179                         pos = pages[i]->index;
 180                         ret = radix_tree_delete(&brd->brd_pages, pos);
 181                         BUG_ON(!ret || ret != pages[i]);
 182                         __free_page(pages[i]);
 183                 }
 184
 185                 pos++;
 186
 187                 /*
 188                  * This assumes radix_tree_gang_lookup always returns as
 189                  * many pages as possible. If the radix-tree code changes,
 190                  * so will this have to.
 191                  */
 192         } while (nr_pages == FREE_BATCH);
 193 }
 194
 195 /*
 196  * copy_to_brd_setup must be called before copy_to_brd. It may sleep.
 197  */
 198 static int copy_to_brd_setup(struct brd_device *brd, sector_t sector, size_t n)
 199 {
 200         unsigned int offset = (sector & (PAGE_SECTORS-1)) << SECTOR_SHIFT;
 201         size_t copy;
 202
 203         copy = min_t(size_t, n, PAGE_SIZE - offset);
 204         if (!brd_insert_page(brd, sector))
 205                 return -ENOSPC;
 206         if (copy < n) {
 207                 sector += copy >> SECTOR_SHIFT;
 208                 if (!brd_insert_page(brd, sector))
 209                         return -ENOSPC;
 210         }
 211         return 0;
 212 }
 213
 214 static void discard_from_brd(struct brd_device *brd,
 215                         sector_t sector, size_t n)
 216 {
 217         while (n >= PAGE_SIZE) {
 218                 /*
 219                  * Don't want to actually discard pages here because
 220                  * re-allocating the pages can result in writeback
 221                  * deadlocks under heavy load.
 222                  */
 223                 if (0)
 224                         brd_free_page(brd, sector);
 225                 else
 226                         brd_zero_page(brd, sector);
 227                 sector += PAGE_SIZE >> SECTOR_SHIFT;
 228                 n -= PAGE_SIZE;
 229         }
 230 }
 231
 232 /*
 233  * Copy n bytes from src to the brd starting at sector. Does not sleep.
 234  */
 235 static void copy_to_brd(struct brd_device *brd, const void *src,
 236                         sector_t sector, size_t n)
 237 {
 238         struct page *page;
 239         void *dst;
 240         unsigned int offset = (sector & (PAGE_SECTORS-1)) << SECTOR_SHIFT;
 241         size_t copy;
 242
 243         copy = min_t(size_t, n, PAGE_SIZE - offset);
 244         page = brd_lookup_page(brd, sector);
 245         BUG_ON(!page);
 246
 247         dst = kmap_atomic(page);
 248         memcpy(dst + offset, src, copy);
 249         kunmap_atomic(dst);
 250
 251         if (copy < n) {
 252                 src += copy;
 253                 sector += copy >> SECTOR_SHIFT;
 254                 copy = n - copy;
 255                 page = brd_lookup_page(brd, sector);
 256                 BUG_ON(!page);
 257
 258                 dst = kmap_atomic(page);
 259                 memcpy(dst, src, copy);
 260                 kunmap_atomic(dst);
 261         }
 262 }
 263
 264 /*
 265  * Copy n bytes to dst from the brd starting at sector. Does not sleep.
 266  */
 267 static void copy_from_brd(void *dst, struct brd_device *brd,
 268                         sector_t sector, size_t n)
 269 {
 270         struct page *page;
 271         void *src;
 272         unsigned int offset = (sector & (PAGE_SECTORS-1)) << SECTOR_SHIFT;
 273         size_t copy;
 274
 275         copy = min_t(size_t, n, PAGE_SIZE - offset);
 276         page = brd_lookup_page(brd, sector);
 277         if (page) {
 278                 src = kmap_atomic(page);
 279                 memcpy(dst, src + offset, copy);
 280                 kunmap_atomic(src);
 281         } else
 282                 memset(dst, 0, copy);
 283
 284         if (copy < n) {
 285                 dst += copy;
 286                 sector += copy >> SECTOR_SHIFT;
 287                 copy = n - copy;
 288                 page = brd_lookup_page(brd, sector);
 289                 if (page) {
 290                         src = kmap_atomic(page);
 291                         memcpy(dst, src, copy);
 292                         kunmap_atomic(src);
 293                 } else
 294                         memset(dst, 0, copy);
 295         }
 296 }
 297
 298 /*
 299  * Process a single bvec of a bio.
 300  */
 301 static int brd_do_bvec(struct brd_device *brd, struct page *page,
 302                         unsigned int len, unsigned int off, bool is_write,
 303                         sector_t sector)
 304 {
 305         void *mem;
 306         int err = 0;
 307
 308         if (is_write) {
 309                 err = copy_to_brd_setup(brd, sector, len);
 310                 if (err)
 311                         goto out;
 312         }
 313
 314         mem = kmap_atomic(page);
 315         if (!is_write) {
 316                 copy_from_brd(mem + off, brd, sector, len);
 317                 flush_dcache_page(page);
 318         } else {
 319                 flush_dcache_page(page);
 320                 copy_to_brd(brd, mem + off, sector, len);
 321         }
 322         kunmap_atomic(mem);
 323
 324 out:
 325         return err;
 326 }
 327
 328 static blk_qc_t brd_make_request(struct request_queue *q, struct bio *bio)
 329 {
 330         struct block_device *bdev = bio->bi_bdev;
 331         struct brd_device *brd = bdev->bd_disk->private_data;
 332         struct bio_vec bvec;
 333         sector_t sector;
 334         struct bvec_iter iter;
 335
 336         sector = bio->bi_iter.bi_sector;
 337         if (bio_end_sector(bio) > get_capacity(bdev->bd_disk))
 338                 goto io_error;
 339
 340         if (unlikely(bio_op(bio) == REQ_OP_DISCARD)) {
 341                 if (sector & ((PAGE_SIZE >> SECTOR_SHIFT) - 1) ||
 342                     bio->bi_iter.bi_size & ~PAGE_MASK)
 343                         goto io_error;
 344                 discard_from_brd(brd, sector, bio->bi_iter.bi_size);
 345                 goto out;
 346         }
 347
 348         bio_for_each_segment(bvec, bio, iter) {
 349                 unsigned int len = bvec.bv_len;
 350                 int err;
 351
 352                 err = brd_do_bvec(brd, bvec.bv_page, len, bvec.bv_offset,
 353                                         op_is_write(bio_op(bio)), sector);
 354                 if (err)
 355                         goto io_error;
 356                 sector += len >> SECTOR_SHIFT;
 357         }
 358
 359 out:
 360         bio_endio(bio);
 361         return BLK_QC_T_NONE;
 362 io_error:
 363         bio_io_error(bio);
 364         return BLK_QC_T_NONE;
 365 }
 366
 367 static int brd_rw_page(struct block_device *bdev, sector_t sector,
 368                        struct page *page, bool is_write)
 369 {
 370         struct brd_device *brd = bdev->bd_disk->private_data;
 371         int err = brd_do_bvec(brd, page, PAGE_SIZE, 0, is_write, sector);
 372         page_endio(page, is_write, err);
 373         return err;
 374 }
 375
 376 #ifdef CONFIG_BLK_DEV_RAM_DAX
 377 static long brd_direct_access(struct block_device *bdev, sector_t sector,
 378                         void **kaddr, pfn_t *pfn, long size)
 379 {
 380         struct brd_device *brd = bdev->bd_disk->private_data;
 381         struct page *page;
 382
 383         if (!brd)
 384                 return -ENODEV;
 385         page = brd_insert_page(brd, sector);
 386         if (!page)
 387                 return -ENOSPC;
 388         *kaddr = page_address(page);
 389         *pfn = page_to_pfn_t(page);
 390
 391         return PAGE_SIZE;
 392 }
 393 #else
 394 #define brd_direct_access NULL
 395 #endif
 396
 397 static int brd_ioctl(struct block_device *bdev, fmode_t mode,
 398                         unsigned int cmd, unsigned long arg)
 399 {
 400         int error;
 401         struct brd_device *brd = bdev->bd_disk->private_data;
 402
 403         if (cmd != BLKFLSBUF)
 404                 return -ENOTTY;
 405
 406         /*
 407          * ram device BLKFLSBUF has special semantics, we want to actually
 408          * release and destroy the ramdisk data.
 409          */
 410         mutex_lock(&brd_mutex);
 411         mutex_lock(&bdev->bd_mutex);
 412         error = -EBUSY;
 413         if (bdev->bd_openers <= 1) {
 414                 /*
 415                  * Kill the cache first, so it isn't written back to the
 416                  * device.
 417                  *
 418                  * Another thread might instantiate more buffercache here,
 419                  * but there is not much we can do to close that race.
 420                  */
 421                 kill_bdev(bdev);
 422                 brd_free_pages(brd);
 423                 error = 0;
 424         }
 425         mutex_unlock(&bdev->bd_mutex);
 426         mutex_unlock(&brd_mutex);
 427
 428         return error;
 429 }
 430
 431 static const struct block_device_operations brd_fops = {
 432         .owner =                THIS_MODULE,
 433         .rw_page =              brd_rw_page,
 434         .ioctl =                brd_ioctl,
 435         .direct_access =        brd_direct_access,
 436 };
 437
 438 /*
 439  * And now the modules code and kernel interface.
 440  */
 441 static int rd_nr = CONFIG_BLK_DEV_RAM_COUNT;
 442 module_param(rd_nr, int, S_IRUGO);
 443 MODULE_PARM_DESC(rd_nr, "Maximum number of brd devices");
 444
 445 int rd_size = CONFIG_BLK_DEV_RAM_SIZE;
 446 module_param(rd_size, int, S_IRUGO);
 447 MODULE_PARM_DESC(rd_size, "Size of each RAM disk in kbytes.");
 448
 449 static int max_part = 1;
 450 module_param(max_part, int, S_IRUGO);
 451 MODULE_PARM_DESC(max_part, "Num Minors to reserve between devices");
 452
 453 MODULE_LICENSE("GPL");
 454 MODULE_ALIAS_BLOCKDEV_MAJOR(RAMDISK_MAJOR);
 455 MODULE_ALIAS("rd");
 456
 457 #ifndef MODULE
 458 /* Legacy boot options - nonmodular */
 459 static int __init ramdisk_size(char *str)
 460 {
 461         rd_size = simple_strtol(str, NULL, 0);
 462         return 1;
 463 }
 464 __setup("ramdisk_size=", ramdisk_size);
 465 #endif
 466
 467 /*
 468  * The device scheme is derived from loop.c. Keep them in synch where possible
 469  * (should share code eventually).
 470  */
 471 static LIST_HEAD(brd_devices);
 472 static DEFINE_MUTEX(brd_devices_mutex);
 473
 474 static struct brd_device *brd_alloc(int i)
 475 {
 476         struct brd_device *brd;
 477         struct gendisk *disk;
 478
 479         brd = kzalloc(sizeof(*brd), GFP_KERNEL);
 480         if (!brd)
 481                 goto out;
 482         brd->brd_number         = i;
 483         spin_lock_init(&brd->brd_lock);
 484         INIT_RADIX_TREE(&brd->brd_pages, GFP_ATOMIC);
 485
 486         brd->brd_queue = blk_alloc_queue(GFP_KERNEL);
 487         if (!brd->brd_queue)
 488                 goto out_free_dev;
 489
 490         blk_queue_make_request(brd->brd_queue, brd_make_request);
 491         blk_queue_max_hw_sectors(brd->brd_queue, 1024);
 492         blk_queue_bounce_limit(brd->brd_queue, BLK_BOUNCE_ANY);
 493
 494         /* This is so fdisk will align partitions on 4k, because of
 495          * direct_access API needing 4k alignment, returning a PFN
 496          * (This is only a problem on very small devices <= 4M,
 497          *  otherwise fdisk will align on 1M. Regardless this call
 498          *  is harmless)
 499          */
 500         blk_queue_physical_block_size(brd->brd_queue, PAGE_SIZE);
 501
 502         brd->brd_queue->limits.discard_granularity = PAGE_SIZE;
 503         blk_queue_max_discard_sectors(brd->brd_queue, UINT_MAX);
 504         brd->brd_queue->limits.discard_zeroes_data = 1;
 505         queue_flag_set_unlocked(QUEUE_FLAG_DISCARD, brd->brd_queue);
 506 #ifdef CONFIG_BLK_DEV_RAM_DAX
 507         queue_flag_set_unlocked(QUEUE_FLAG_DAX, brd->brd_queue);
 508 #endif
 509         disk = brd->brd_disk = alloc_disk(max_part);
 510         if (!disk)
 511                 goto out_free_queue;
 512         disk->major             = RAMDISK_MAJOR;
 513         disk->first_minor       = i * max_part;
 514         disk->fops              = &brd_fops;
 515         disk->private_data      = brd;
 516         disk->queue             = brd->brd_queue;
 517         disk->flags             = GENHD_FL_EXT_DEVT;
 518         sprintf(disk->disk_name, "ram%d", i);
 519         set_capacity(disk, rd_size * 2);
 520
 521         return brd;
 522
 523 out_free_queue:
 524         blk_cleanup_queue(brd->brd_queue);
 525 out_free_dev:
 526         kfree(brd);
 527 out:
 528         return NULL;
 529 }
 530
 531 static void brd_free(struct brd_device *brd)
 532 {
 533         put_disk(brd->brd_disk);
 534         blk_cleanup_queue(brd->brd_queue);
 535         brd_free_pages(brd);
 536         kfree(brd);
 537 }
 538
 539 static struct brd_device *brd_init_one(int i, bool *new)
 540 {
 541         struct brd_device *brd;
 542
 543         *new = false;
 544         list_for_each_entry(brd, &brd_devices, brd_list) {
 545                 if (brd->brd_number == i)
 546                         goto out;
 547         }
 548
 549         brd = brd_alloc(i);
 550         if (brd) {
 551                 add_disk(brd->brd_disk);
 552                 list_add_tail(&brd->brd_list, &brd_devices);
 553         }
 554         *new = true;
 555 out:
 556         return brd;
 557 }
 558
 559 static void brd_del_one(struct brd_device *brd)
 560 {
 561         list_del(&brd->brd_list);
 562         del_gendisk(brd->brd_disk);
 563         brd_free(brd);
 564 }
 565
 566 static struct kobject *brd_probe(dev_t dev, int *part, void *data)
 567 {
 568         struct brd_device *brd;
 569         struct kobject *kobj;
 570         bool new;
 571
 572         mutex_lock(&brd_devices_mutex);
 573         brd = brd_init_one(MINOR(dev) / max_part, &new);
 574         kobj = brd ? get_disk(brd->brd_disk) : NULL;
 575         mutex_unlock(&brd_devices_mutex);
 576
 577         if (new)
 578                 *part = 0;
 579
 580         return kobj;
 581 }
 582
 583 static inline void brd_check_and_reset_par(void)
 584 {
 585         if (unlikely(!max_part))
 586                 max_part = 1;
 587
 588         /*
 589          * make sure 'max_part' can be divided exactly by (1U << MINORBITS),
 590          * otherwise, it is possiable to get same dev_t when adding partitions.
 591          */
 592         if ((1U << MINORBITS) % max_part != 0)
 593                 max_part = 1UL << fls(max_part);
 594
 595         if (max_part > DISK_MAX_PARTS) {
 596                 pr_info("brd: max_part can't be larger than %d, reset max_part = %d.\n",
 597                         DISK_MAX_PARTS, DISK_MAX_PARTS);
 598                 max_part = DISK_MAX_PARTS;
 599         }
 600 }
 601
 602 static int __init brd_init(void)
 603 {
 604         struct brd_device *brd, *next;
 605         int i;
 606
 607         /*
 608          * brd module now has a feature to instantiate underlying device
 609          * structure on-demand, provided that there is an access dev node.
 610          *
 611          * (1) if rd_nr is specified, create that many upfront. else
 612          *     it defaults to CONFIG_BLK_DEV_RAM_COUNT
 613          * (2) User can further extend brd devices by create dev node themselves
 614          *     and have kernel automatically instantiate actual device
 615          *     on-demand. Example:
 616          *              mknod /path/devnod_name b 1 X   # 1 is the rd major
 617          *              fdisk -l /path/devnod_name
 618          *      If (X / max_part) was not already created it will be created
 619          *      dynamically.
 620          */
 621
 622         if (register_blkdev(RAMDISK_MAJOR, "ramdisk"))
 623                 return -EIO;
 624
 625         brd_check_and_reset_par();
 626
 627         for (i = 0; i < rd_nr; i++) {
 628                 brd = brd_alloc(i);
 629                 if (!brd)
 630                         goto out_free;
 631                 list_add_tail(&brd->brd_list, &brd_devices);
 632         }
 633
 634         /* point of no return */
 635
 636         list_for_each_entry(brd, &brd_devices, brd_list)
 637                 add_disk(brd->brd_disk);
 638
 639         blk_register_region(MKDEV(RAMDISK_MAJOR, 0), 1UL << MINORBITS,
 640                                   THIS_MODULE, brd_probe, NULL, NULL);
 641
 642         pr_info("brd: module loaded\n");
 643         return 0;
 644
 645 out_free:
 646         list_for_each_entry_safe(brd, next, &brd_devices, brd_list) {
 647                 list_del(&brd->brd_list);
 648                 brd_free(brd);
 649         }
 650         unregister_blkdev(RAMDISK_MAJOR, "ramdisk");
 651
 652         pr_info("brd: module NOT loaded !!!\n");
 653         return -ENOMEM;
 654 }
 655
 656 static void __exit brd_exit(void)
 657 {
 658         struct brd_device *brd, *next;
 659
 660         list_for_each_entry_safe(brd, next, &brd_devices, brd_list)
 661                 brd_del_one(brd);
 662
 663         blk_unregister_region(MKDEV(RAMDISK_MAJOR, 0), 1UL << MINORBITS);
 664         unregister_blkdev(RAMDISK_MAJOR, "ramdisk");
 665
 666         pr_info("brd: module unloaded\n");
 667 }
 668
 669 module_init(brd_init);
 670 module_exit(brd_exit);
 671