be2net: call napi_disable() for all event queues

[cascardo/linux.git] / mm / huge_memory.c
diff --git a/mm/huge_memory.c b/mm/huge_memory.c

index cca80d9..bccd5a6 100644 (file)
--- a/mm/huge_memory.c
+++ b/mm/huge_memory.c
@@ -27,11 +27,12 @@
  #include "internal.h"
  
  /*
- * By default transparent hugepage support is enabled for all mappings
- * and khugepaged scans all mappings. Defrag is only invoked by
- * khugepaged hugepage allocations and by page faults inside
- * MADV_HUGEPAGE regions to avoid the risk of slowing down short lived
- * allocations.
+ * By default transparent hugepage support is disabled in order that avoid
+ * to risk increase the memory footprint of applications without a guaranteed
+ * benefit. When transparent hugepage support is enabled, is for all mappings,
+ * and khugepaged scans all mappings.
+ * Defrag is invoked by khugepaged hugepage allocations and by page faults
+ * for all hugepage allocations.
   */
  unsigned long transparent_hugepage_flags __read_mostly =
  #ifdef CONFIG_TRANSPARENT_HUGEPAGE_ALWAYS
@@ -709,6 +710,7 @@ static int __do_huge_pmd_anonymous_page(struct mm_struct *mm,
                                         struct page *page)
  {
         pgtable_t pgtable;
+       spinlock_t *ptl;
  
         VM_BUG_ON(!PageCompound(page));
         pgtable = pte_alloc_one(mm, haddr);
@@ -723,9 +725,9 @@ static int __do_huge_pmd_anonymous_page(struct mm_struct *mm,
          */
         __SetPageUptodate(page);
  
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmd);
         if (unlikely(!pmd_none(*pmd))) {
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 mem_cgroup_uncharge_page(page);
                 put_page(page);
                 pte_free(mm, pgtable);
@@ -737,8 +739,8 @@ static int __do_huge_pmd_anonymous_page(struct mm_struct *mm,
                 pgtable_trans_huge_deposit(mm, pmd, pgtable);
                 set_pmd_at(mm, haddr, pmd, entry);
                 add_mm_counter(mm, MM_ANONPAGES, HPAGE_PMD_NR);
-               mm->nr_ptes++;
-               spin_unlock(&mm->page_table_lock);
+               atomic_long_inc(&mm->nr_ptes);
+               spin_unlock(ptl);
         }
  
         return 0;
@@ -758,14 +760,7 @@ static inline struct page *alloc_hugepage_vma(int defrag,
                                HPAGE_PMD_ORDER, vma, haddr, nd);
  }
  
-#ifndef CONFIG_NUMA
-static inline struct page *alloc_hugepage(int defrag)
-{
-       return alloc_pages(alloc_hugepage_gfpmask(defrag, 0),
-                          HPAGE_PMD_ORDER);
-}
-#endif
-
+/* Caller must hold page table lock. */
  static bool set_huge_zero_page(pgtable_t pgtable, struct mm_struct *mm,
                 struct vm_area_struct *vma, unsigned long haddr, pmd_t *pmd,
                 struct page *zero_page)
@@ -778,7 +773,7 @@ static bool set_huge_zero_page(pgtable_t pgtable, struct mm_struct *mm,
         entry = pmd_mkhuge(entry);
         pgtable_trans_huge_deposit(mm, pmd, pgtable);
         set_pmd_at(mm, haddr, pmd, entry);
-       mm->nr_ptes++;
+       atomic_long_inc(&mm->nr_ptes);
         return true;
  }
  
@@ -797,6 +792,7 @@ int do_huge_pmd_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,
                 return VM_FAULT_OOM;
         if (!(flags & FAULT_FLAG_WRITE) &&
                         transparent_hugepage_use_zero_page()) {
+               spinlock_t *ptl;
                 pgtable_t pgtable;
                 struct page *zero_page;
                 bool set;
@@ -809,10 +805,10 @@ int do_huge_pmd_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,
                         count_vm_event(THP_FAULT_FALLBACK);
                         return VM_FAULT_FALLBACK;
                 }
-               spin_lock(&mm->page_table_lock);
+               ptl = pmd_lock(mm, pmd);
                 set = set_huge_zero_page(pgtable, mm, vma, haddr, pmd,
                                 zero_page);
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 if (!set) {
                         pte_free(mm, pgtable);
                         put_huge_zero_page();
@@ -845,6 +841,7 @@ int copy_huge_pmd(struct mm_struct *dst_mm, struct mm_struct *src_mm,
                   pmd_t *dst_pmd, pmd_t *src_pmd, unsigned long addr,
                   struct vm_area_struct *vma)
  {
+       spinlock_t *dst_ptl, *src_ptl;
         struct page *src_page;
         pmd_t pmd;
         pgtable_t pgtable;
@@ -855,8 +852,9 @@ int copy_huge_pmd(struct mm_struct *dst_mm, struct mm_struct *src_mm,
         if (unlikely(!pgtable))
                 goto out;
  
-       spin_lock(&dst_mm->page_table_lock);
-       spin_lock_nested(&src_mm->page_table_lock, SINGLE_DEPTH_NESTING);
+       dst_ptl = pmd_lock(dst_mm, dst_pmd);
+       src_ptl = pmd_lockptr(src_mm, src_pmd);
+       spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
  
         ret = -EAGAIN;
         pmd = *src_pmd;
@@ -865,7 +863,7 @@ int copy_huge_pmd(struct mm_struct *dst_mm, struct mm_struct *src_mm,
                 goto out_unlock;
         }
         /*
-        * mm->page_table_lock is enough to be sure that huge zero pmd is not
+        * When page table lock is held, the huge zero pmd should not be
          * under splitting since we don't split the page itself, only pmd to
          * a page table.
          */
@@ -886,8 +884,8 @@ int copy_huge_pmd(struct mm_struct *dst_mm, struct mm_struct *src_mm,
         }
         if (unlikely(pmd_trans_splitting(pmd))) {
                 /* split huge page running from under us */
-               spin_unlock(&src_mm->page_table_lock);
-               spin_unlock(&dst_mm->page_table_lock);
+               spin_unlock(src_ptl);
+               spin_unlock(dst_ptl);
                 pte_free(dst_mm, pgtable);
  
                 wait_split_huge_page(vma->anon_vma, src_pmd); /* src_vma */
@@ -903,12 +901,12 @@ int copy_huge_pmd(struct mm_struct *dst_mm, struct mm_struct *src_mm,
         pmd = pmd_mkold(pmd_wrprotect(pmd));
         pgtable_trans_huge_deposit(dst_mm, dst_pmd, pgtable);
         set_pmd_at(dst_mm, addr, dst_pmd, pmd);
-       dst_mm->nr_ptes++;
+       atomic_long_inc(&dst_mm->nr_ptes);
  
         ret = 0;
  out_unlock:
-       spin_unlock(&src_mm->page_table_lock);
-       spin_unlock(&dst_mm->page_table_lock);
+       spin_unlock(src_ptl);
+       spin_unlock(dst_ptl);
  out:
         return ret;
  }
@@ -919,10 +917,11 @@ void huge_pmd_set_accessed(struct mm_struct *mm,
                            pmd_t *pmd, pmd_t orig_pmd,
                            int dirty)
  {
+       spinlock_t *ptl;
         pmd_t entry;
         unsigned long haddr;
  
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmd);
         if (unlikely(!pmd_same(*pmd, orig_pmd)))
                 goto unlock;
  
@@ -932,13 +931,14 @@ void huge_pmd_set_accessed(struct mm_struct *mm,
                 update_mmu_cache_pmd(vma, address, pmd);
  
  unlock:
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
  }
  
  static int do_huge_pmd_wp_zero_page_fallback(struct mm_struct *mm,
                 struct vm_area_struct *vma, unsigned long address,
                 pmd_t *pmd, pmd_t orig_pmd, unsigned long haddr)
  {
+       spinlock_t *ptl;
         pgtable_t pgtable;
         pmd_t _pmd;
         struct page *page;
@@ -965,7 +965,7 @@ static int do_huge_pmd_wp_zero_page_fallback(struct mm_struct *mm,
         mmun_end   = haddr + HPAGE_PMD_SIZE;
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
  
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmd);
         if (unlikely(!pmd_same(*pmd, orig_pmd)))
                 goto out_free_page;
  
@@ -992,7 +992,7 @@ static int do_huge_pmd_wp_zero_page_fallback(struct mm_struct *mm,
         }
         smp_wmb(); /* make pte visible before pmd */
         pmd_populate(mm, pmd, pgtable);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         put_huge_zero_page();
         inc_mm_counter(mm, MM_ANONPAGES);
  
@@ -1002,7 +1002,7 @@ static int do_huge_pmd_wp_zero_page_fallback(struct mm_struct *mm,
  out:
         return ret;
  out_free_page:
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
         mem_cgroup_uncharge_page(page);
         put_page(page);
@@ -1016,6 +1016,7 @@ static int do_huge_pmd_wp_page_fallback(struct mm_struct *mm,
                                         struct page *page,
                                         unsigned long haddr)
  {
+       spinlock_t *ptl;
         pgtable_t pgtable;
         pmd_t _pmd;
         int ret = 0, i;
@@ -1062,7 +1063,7 @@ static int do_huge_pmd_wp_page_fallback(struct mm_struct *mm,
         mmun_end   = haddr + HPAGE_PMD_SIZE;
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
  
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmd);
         if (unlikely(!pmd_same(*pmd, orig_pmd)))
                 goto out_free_pages;
         VM_BUG_ON(!PageHead(page));
@@ -1088,7 +1089,7 @@ static int do_huge_pmd_wp_page_fallback(struct mm_struct *mm,
         smp_wmb(); /* make pte visible before pmd */
         pmd_populate(mm, pmd, pgtable);
         page_remove_rmap(page);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
  
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
  
@@ -1099,7 +1100,7 @@ out:
         return ret;
  
  out_free_pages:
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
         mem_cgroup_uncharge_start();
         for (i = 0; i < HPAGE_PMD_NR; i++) {
@@ -1114,17 +1115,19 @@ out_free_pages:
  int do_huge_pmd_wp_page(struct mm_struct *mm, struct vm_area_struct *vma,
                         unsigned long address, pmd_t *pmd, pmd_t orig_pmd)
  {
+       spinlock_t *ptl;
         int ret = 0;
         struct page *page = NULL, *new_page;
         unsigned long haddr;
         unsigned long mmun_start;       /* For mmu_notifiers */
         unsigned long mmun_end;         /* For mmu_notifiers */
  
+       ptl = pmd_lockptr(mm, pmd);
         VM_BUG_ON(!vma->anon_vma);
         haddr = address & HPAGE_PMD_MASK;
         if (is_huge_zero_pmd(orig_pmd))
                 goto alloc;
-       spin_lock(&mm->page_table_lock);
+       spin_lock(ptl);
         if (unlikely(!pmd_same(*pmd, orig_pmd)))
                 goto out_unlock;
  
@@ -1140,7 +1143,7 @@ int do_huge_pmd_wp_page(struct mm_struct *mm, struct vm_area_struct *vma,
                 goto out_unlock;
         }
         get_page(page);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
  alloc:
         if (transparent_hugepage_enabled(vma) &&
             !transparent_hugepage_debug_cow())
@@ -1187,11 +1190,11 @@ alloc:
         mmun_end   = haddr + HPAGE_PMD_SIZE;
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
  
-       spin_lock(&mm->page_table_lock);
+       spin_lock(ptl);
         if (page)
                 put_page(page);
         if (unlikely(!pmd_same(*pmd, orig_pmd))) {
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 mem_cgroup_uncharge_page(new_page);
                 put_page(new_page);
                 goto out_mn;
@@ -1213,13 +1216,13 @@ alloc:
                 }
                 ret |= VM_FAULT_WRITE;
         }
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
  out_mn:
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
  out:
         return ret;
  out_unlock:
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         return ret;
  }
  
@@ -1231,7 +1234,7 @@ struct page *follow_trans_huge_pmd(struct vm_area_struct *vma,
         struct mm_struct *mm = vma->vm_mm;
         struct page *page = NULL;
  
-       assert_spin_locked(&mm->page_table_lock);
+       assert_spin_locked(pmd_lockptr(mm, pmd));
  
         if (flags & FOLL_WRITE && !pmd_write(*pmd))
                 goto out;
@@ -1278,23 +1281,37 @@ out:
  int do_huge_pmd_numa_page(struct mm_struct *mm, struct vm_area_struct *vma,
                                 unsigned long addr, pmd_t pmd, pmd_t *pmdp)
  {
+       spinlock_t *ptl;
         struct anon_vma *anon_vma = NULL;
         struct page *page;
         unsigned long haddr = addr & HPAGE_PMD_MASK;
         int page_nid = -1, this_nid = numa_node_id();
-       int target_nid;
+       int target_nid, last_cpupid = -1;
         bool page_locked;
         bool migrated = false;
+       int flags = 0;
  
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmdp);
         if (unlikely(!pmd_same(pmd, *pmdp)))
                 goto out_unlock;
  
         page = pmd_page(pmd);
+       BUG_ON(is_huge_zero_page(page));
         page_nid = page_to_nid(page);
+       last_cpupid = page_cpupid_last(page);
         count_vm_numa_event(NUMA_HINT_FAULTS);
-       if (page_nid == this_nid)
+       if (page_nid == this_nid) {
                 count_vm_numa_event(NUMA_HINT_FAULTS_LOCAL);
+               flags |= TNF_FAULT_LOCAL;
+       }
+
+       /*
+        * Avoid grouping on DSO/COW pages in specific and RO pages
+        * in general, RO pages shouldn't hurt as much anyway since
+        * they can be in shared cache state.
+        */
+       if (!pmd_write(pmd))
+               flags |= TNF_NO_GROUP;
  
         /*
          * Acquire the page lock to serialise THP migrations but avoid dropping
@@ -1312,7 +1329,7 @@ int do_huge_pmd_numa_page(struct mm_struct *mm, struct vm_area_struct *vma,
                  * relock and check_same as the page may no longer be mapped.
                  * As the fault is being retried, do not account for it.
                  */
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 wait_on_page_locked(page);
                 page_nid = -1;
                 goto out;
@@ -1320,13 +1337,13 @@ int do_huge_pmd_numa_page(struct mm_struct *mm, struct vm_area_struct *vma,
  
         /* Page is misplaced, serialise migrations and parallel THP splits */
         get_page(page);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         if (!page_locked)
                 lock_page(page);
         anon_vma = page_lock_anon_vma_read(page);
  
-       /* Confirm the PTE did not while locked */
-       spin_lock(&mm->page_table_lock);
+       /* Confirm the PMD did not change while page_table_lock was released */
+       spin_lock(ptl);
         if (unlikely(!pmd_same(pmd, *pmdp))) {
                 unlock_page(page);
                 put_page(page);
@@ -1338,11 +1355,13 @@ int do_huge_pmd_numa_page(struct mm_struct *mm, struct vm_area_struct *vma,
          * Migrate the THP to the requested node, returns with page unlocked
          * and pmd_numa cleared.
          */
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         migrated = migrate_misplaced_transhuge_page(mm, vma,
                                 pmdp, pmd, addr, page, target_nid);
-       if (migrated)
+       if (migrated) {
+               flags |= TNF_MIGRATED;
                 page_nid = target_nid;
+       }
  
         goto out;
  clear_pmdnuma:
@@ -1353,14 +1372,14 @@ clear_pmdnuma:
         update_mmu_cache_pmd(vma, addr, pmdp);
         unlock_page(page);
  out_unlock:
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
  
  out:
         if (anon_vma)
                 page_unlock_anon_vma_read(anon_vma);
  
         if (page_nid != -1)
-               task_numa_fault(page_nid, HPAGE_PMD_NR, migrated);
+               task_numa_fault(last_cpupid, page_nid, HPAGE_PMD_NR, flags);
  
         return 0;
  }
@@ -1368,9 +1387,10 @@ out:
  int zap_huge_pmd(struct mmu_gather *tlb, struct vm_area_struct *vma,
                  pmd_t *pmd, unsigned long addr)
  {
+       spinlock_t *ptl;
         int ret = 0;
  
-       if (__pmd_trans_huge_lock(pmd, vma) == 1) {
+       if (__pmd_trans_huge_lock(pmd, vma, &ptl) == 1) {
                 struct page *page;
                 pgtable_t pgtable;
                 pmd_t orig_pmd;
@@ -1384,8 +1404,8 @@ int zap_huge_pmd(struct mmu_gather *tlb, struct vm_area_struct *vma,
                 tlb_remove_pmd_tlb_entry(tlb, pmd, addr);
                 pgtable = pgtable_trans_huge_withdraw(tlb->mm, pmd);
                 if (is_huge_zero_pmd(orig_pmd)) {
-                       tlb->mm->nr_ptes--;
-                       spin_unlock(&tlb->mm->page_table_lock);
+                       atomic_long_dec(&tlb->mm->nr_ptes);
+                       spin_unlock(ptl);
                         put_huge_zero_page();
                 } else {
                         page = pmd_page(orig_pmd);
@@ -1393,8 +1413,8 @@ int zap_huge_pmd(struct mmu_gather *tlb, struct vm_area_struct *vma,
                         VM_BUG_ON(page_mapcount(page) < 0);
                         add_mm_counter(tlb->mm, MM_ANONPAGES, -HPAGE_PMD_NR);
                         VM_BUG_ON(!PageHead(page));
-                       tlb->mm->nr_ptes--;
-                       spin_unlock(&tlb->mm->page_table_lock);
+                       atomic_long_dec(&tlb->mm->nr_ptes);
+                       spin_unlock(ptl);
                         tlb_remove_page(tlb, page);
                 }
                 pte_free(tlb->mm, pgtable);
@@ -1407,14 +1427,15 @@ int mincore_huge_pmd(struct vm_area_struct *vma, pmd_t *pmd,
                 unsigned long addr, unsigned long end,
                 unsigned char *vec)
  {
+       spinlock_t *ptl;
         int ret = 0;
  
-       if (__pmd_trans_huge_lock(pmd, vma) == 1) {
+       if (__pmd_trans_huge_lock(pmd, vma, &ptl) == 1) {
                 /*
                  * All logical pages in the range are present
                  * if backed by a huge page.
                  */
-               spin_unlock(&vma->vm_mm->page_table_lock);
+               spin_unlock(ptl);
                 memset(vec, 1, (end - addr) >> PAGE_SHIFT);
                 ret = 1;
         }
@@ -1427,6 +1448,7 @@ int move_huge_pmd(struct vm_area_struct *vma, struct vm_area_struct *new_vma,
                   unsigned long new_addr, unsigned long old_end,
                   pmd_t *old_pmd, pmd_t *new_pmd)
  {
+       spinlock_t *old_ptl, *new_ptl;
         int ret = 0;
         pmd_t pmd;
  
@@ -1447,41 +1469,69 @@ int move_huge_pmd(struct vm_area_struct *vma, struct vm_area_struct *new_vma,
                 goto out;
         }
  
-       ret = __pmd_trans_huge_lock(old_pmd, vma);
+       /*
+        * We don't have to worry about the ordering of src and dst
+        * ptlocks because exclusive mmap_sem prevents deadlock.
+        */
+       ret = __pmd_trans_huge_lock(old_pmd, vma, &old_ptl);
         if (ret == 1) {
+               new_ptl = pmd_lockptr(mm, new_pmd);
+               if (new_ptl != old_ptl)
+                       spin_lock_nested(new_ptl, SINGLE_DEPTH_NESTING);
                 pmd = pmdp_get_and_clear(mm, old_addr, old_pmd);
                 VM_BUG_ON(!pmd_none(*new_pmd));
                 set_pmd_at(mm, new_addr, new_pmd, pmd_mksoft_dirty(pmd));
-               spin_unlock(&mm->page_table_lock);
+               if (new_ptl != old_ptl)
+                       spin_unlock(new_ptl);
+               spin_unlock(old_ptl);
         }
  out:
         return ret;
  }
  
+/*
+ * Returns
+ *  - 0 if PMD could not be locked
+ *  - 1 if PMD was locked but protections unchange and TLB flush unnecessary
+ *  - HPAGE_PMD_NR is protections changed and TLB flush necessary
+ */
  int change_huge_pmd(struct vm_area_struct *vma, pmd_t *pmd,
                 unsigned long addr, pgprot_t newprot, int prot_numa)
  {
         struct mm_struct *mm = vma->vm_mm;
+       spinlock_t *ptl;
         int ret = 0;
  
-       if (__pmd_trans_huge_lock(pmd, vma) == 1) {
+       if (__pmd_trans_huge_lock(pmd, vma, &ptl) == 1) {
                 pmd_t entry;
-               entry = pmdp_get_and_clear(mm, addr, pmd);
+               ret = 1;
                 if (!prot_numa) {
+                       entry = pmdp_get_and_clear(mm, addr, pmd);
                         entry = pmd_modify(entry, newprot);
+                       ret = HPAGE_PMD_NR;
                         BUG_ON(pmd_write(entry));
                 } else {
                         struct page *page = pmd_page(*pmd);
  
-                       /* only check non-shared pages */
-                       if (page_mapcount(page) == 1 &&
+                       /*
+                        * Do not trap faults against the zero page. The
+                        * read-only data is likely to be read-cached on the
+                        * local CPU cache and it is less useful to know about
+                        * local vs remote hits on the zero page.
+                        */
+                       if (!is_huge_zero_page(page) &&
                             !pmd_numa(*pmd)) {
+                               entry = pmdp_get_and_clear(mm, addr, pmd);
                                 entry = pmd_mknuma(entry);
+                               ret = HPAGE_PMD_NR;
                         }
                 }
-               set_pmd_at(mm, addr, pmd, entry);
-               spin_unlock(&vma->vm_mm->page_table_lock);
-               ret = 1;
+
+               /* Set PMD if cleared earlier */
+               if (ret == HPAGE_PMD_NR)
+                       set_pmd_at(mm, addr, pmd, entry);
+
+               spin_unlock(ptl);
         }
  
         return ret;
@@ -1494,12 +1544,13 @@ int change_huge_pmd(struct vm_area_struct *vma, pmd_t *pmd,
   * Note that if it returns 1, this routine returns without unlocking page
   * table locks. So callers must unlock them.
   */
-int __pmd_trans_huge_lock(pmd_t *pmd, struct vm_area_struct *vma)
+int __pmd_trans_huge_lock(pmd_t *pmd, struct vm_area_struct *vma,
+               spinlock_t **ptl)
  {
-       spin_lock(&vma->vm_mm->page_table_lock);
+       *ptl = pmd_lock(vma->vm_mm, pmd);
         if (likely(pmd_trans_huge(*pmd))) {
                 if (unlikely(pmd_trans_splitting(*pmd))) {
-                       spin_unlock(&vma->vm_mm->page_table_lock);
+                       spin_unlock(*ptl);
                         wait_split_huge_page(vma->anon_vma, pmd);
                         return -1;
                 } else {
@@ -1508,27 +1559,37 @@ int __pmd_trans_huge_lock(pmd_t *pmd, struct vm_area_struct *vma)
                         return 1;
                 }
         }
-       spin_unlock(&vma->vm_mm->page_table_lock);
+       spin_unlock(*ptl);
         return 0;
  }
  
+/*
+ * This function returns whether a given @page is mapped onto the @address
+ * in the virtual space of @mm.
+ *
+ * When it's true, this function returns *pmd with holding the page table lock
+ * and passing it back to the caller via @ptl.
+ * If it's false, returns NULL without holding the page table lock.
+ */
  pmd_t *page_check_address_pmd(struct page *page,
                               struct mm_struct *mm,
                               unsigned long address,
-                             enum page_check_address_pmd_flag flag)
+                             enum page_check_address_pmd_flag flag,
+                             spinlock_t **ptl)
  {
-       pmd_t *pmd, *ret = NULL;
+       pmd_t *pmd;
  
         if (address & ~HPAGE_PMD_MASK)
-               goto out;
+               return NULL;
  
         pmd = mm_find_pmd(mm, address);
         if (!pmd)
-               goto out;
+               return NULL;
+       *ptl = pmd_lock(mm, pmd);
         if (pmd_none(*pmd))
-               goto out;
+               goto unlock;
         if (pmd_page(*pmd) != page)
-               goto out;
+               goto unlock;
         /*
          * split_vma() may create temporary aliased mappings. There is
          * no risk as long as all huge pmd are found and have their
@@ -1538,14 +1599,15 @@ pmd_t *page_check_address_pmd(struct page *page,
          */
         if (flag == PAGE_CHECK_ADDRESS_PMD_NOTSPLITTING_FLAG &&
             pmd_trans_splitting(*pmd))
-               goto out;
+               goto unlock;
         if (pmd_trans_huge(*pmd)) {
                 VM_BUG_ON(flag == PAGE_CHECK_ADDRESS_PMD_SPLITTING_FLAG &&
                           !pmd_trans_splitting(*pmd));
-               ret = pmd;
+               return pmd;
         }
-out:
-       return ret;
+unlock:
+       spin_unlock(*ptl);
+       return NULL;
  }
  
  static int __split_huge_page_splitting(struct page *page,
@@ -1553,6 +1615,7 @@ static int __split_huge_page_splitting(struct page *page,
                                        unsigned long address)
  {
         struct mm_struct *mm = vma->vm_mm;
+       spinlock_t *ptl;
         pmd_t *pmd;
         int ret = 0;
         /* For mmu_notifiers */
@@ -1560,9 +1623,8 @@ static int __split_huge_page_splitting(struct page *page,
         const unsigned long mmun_end   = address + HPAGE_PMD_SIZE;
  
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
-       spin_lock(&mm->page_table_lock);
         pmd = page_check_address_pmd(page, mm, address,
-                                    PAGE_CHECK_ADDRESS_PMD_NOTSPLITTING_FLAG);
+                       PAGE_CHECK_ADDRESS_PMD_NOTSPLITTING_FLAG, &ptl);
         if (pmd) {
                 /*
                  * We can't temporarily set the pmd to null in order
@@ -1573,8 +1635,8 @@ static int __split_huge_page_splitting(struct page *page,
                  */
                 pmdp_splitting_flush(vma, address, pmd);
                 ret = 1;
+               spin_unlock(ptl);
         }
-       spin_unlock(&mm->page_table_lock);
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
  
         return ret;
@@ -1662,7 +1724,7 @@ static void __split_huge_page_refcount(struct page *page,
                 page_tail->mapping = page->mapping;
  
                 page_tail->index = page->index + i;
-               page_nid_xchg_last(page_tail, page_nid_last(page));
+               page_cpupid_xchg_last(page_tail, page_cpupid_last(page));
  
                 BUG_ON(!PageAnon(page_tail));
                 BUG_ON(!PageUptodate(page_tail));
@@ -1705,14 +1767,14 @@ static int __split_huge_page_map(struct page *page,
                                  unsigned long address)
  {
         struct mm_struct *mm = vma->vm_mm;
+       spinlock_t *ptl;
         pmd_t *pmd, _pmd;
         int ret = 0, i;
         pgtable_t pgtable;
         unsigned long haddr;
  
-       spin_lock(&mm->page_table_lock);
         pmd = page_check_address_pmd(page, mm, address,
-                                    PAGE_CHECK_ADDRESS_PMD_SPLITTING_FLAG);
+                       PAGE_CHECK_ADDRESS_PMD_SPLITTING_FLAG, &ptl);
         if (pmd) {
                 pgtable = pgtable_trans_huge_withdraw(mm, pmd);
                 pmd_populate(mm, &_pmd, pgtable);
@@ -1767,8 +1829,8 @@ static int __split_huge_page_map(struct page *page,
                 pmdp_invalidate(vma, address, pmd);
                 pmd_populate(mm, pmd, pgtable);
                 ret = 1;
+               spin_unlock(ptl);
         }
-       spin_unlock(&mm->page_table_lock);
  
         return ret;
  }
@@ -2165,7 +2227,34 @@ static void khugepaged_alloc_sleep(void)
                         msecs_to_jiffies(khugepaged_alloc_sleep_millisecs));
  }
  
+static int khugepaged_node_load[MAX_NUMNODES];
+
  #ifdef CONFIG_NUMA
+static int khugepaged_find_target_node(void)
+{
+       static int last_khugepaged_target_node = NUMA_NO_NODE;
+       int nid, target_node = 0, max_value = 0;
+
+       /* find first node with max normal pages hit */
+       for (nid = 0; nid < MAX_NUMNODES; nid++)
+               if (khugepaged_node_load[nid] > max_value) {
+                       max_value = khugepaged_node_load[nid];
+                       target_node = nid;
+               }
+
+       /* do some balance if several nodes have the same hit record */
+       if (target_node <= last_khugepaged_target_node)
+               for (nid = last_khugepaged_target_node + 1; nid < MAX_NUMNODES;
+                               nid++)
+                       if (max_value == khugepaged_node_load[nid]) {
+                               target_node = nid;
+                               break;
+                       }
+
+       last_khugepaged_target_node = target_node;
+       return target_node;
+}
+
  static bool khugepaged_prealloc_page(struct page **hpage, bool *wait)
  {
         if (IS_ERR(*hpage)) {
@@ -2199,9 +2288,8 @@ static struct page
          * mmap_sem in read mode is good idea also to allow greater
          * scalability.
          */
-       *hpage  = alloc_hugepage_vma(khugepaged_defrag(), vma, address,
-                                     node, __GFP_OTHER_NODE);
-
+       *hpage = alloc_pages_exact_node(node, alloc_hugepage_gfpmask(
+               khugepaged_defrag(), __GFP_OTHER_NODE), HPAGE_PMD_ORDER);
         /*
          * After allocating the hugepage, release the mmap_sem read lock in
          * preparation for taking it in write mode.
@@ -2217,6 +2305,17 @@ static struct page
         return *hpage;
  }
  #else
+static int khugepaged_find_target_node(void)
+{
+       return 0;
+}
+
+static inline struct page *alloc_hugepage(int defrag)
+{
+       return alloc_pages(alloc_hugepage_gfpmask(defrag, 0),
+                          HPAGE_PMD_ORDER);
+}
+
  static struct page *khugepaged_alloc_hugepage(bool *wait)
  {
         struct page *hpage;
@@ -2283,7 +2382,7 @@ static void collapse_huge_page(struct mm_struct *mm,
         pte_t *pte;
         pgtable_t pgtable;
         struct page *new_page;
-       spinlock_t *ptl;
+       spinlock_t *pmd_ptl, *pte_ptl;
         int isolated;
         unsigned long hstart, hend;
         unsigned long mmun_start;       /* For mmu_notifiers */
@@ -2326,12 +2425,12 @@ static void collapse_huge_page(struct mm_struct *mm,
         anon_vma_lock_write(vma->anon_vma);
  
         pte = pte_offset_map(pmd, address);
-       ptl = pte_lockptr(mm, pmd);
+       pte_ptl = pte_lockptr(mm, pmd);
  
         mmun_start = address;
         mmun_end   = address + HPAGE_PMD_SIZE;
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
-       spin_lock(&mm->page_table_lock); /* probably unnecessary */
+       pmd_ptl = pmd_lock(mm, pmd); /* probably unnecessary */
         /*
          * After this gup_fast can't run anymore. This also removes
          * any huge TLB entry from the CPU so we won't allow
@@ -2339,16 +2438,16 @@ static void collapse_huge_page(struct mm_struct *mm,
          * to avoid the risk of CPU bugs in that area.
          */
         _pmd = pmdp_clear_flush(vma, address, pmd);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(pmd_ptl);
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
  
-       spin_lock(ptl);
+       spin_lock(pte_ptl);
         isolated = __collapse_huge_page_isolate(vma, address, pte);
-       spin_unlock(ptl);
+       spin_unlock(pte_ptl);
  
         if (unlikely(!isolated)) {
                 pte_unmap(pte);
-               spin_lock(&mm->page_table_lock);
+               spin_lock(pmd_ptl);
                 BUG_ON(!pmd_none(*pmd));
                 /*
                  * We can only use set_pmd_at when establishing
@@ -2356,7 +2455,7 @@ static void collapse_huge_page(struct mm_struct *mm,
                  * points to regular pagetables. Use pmd_populate for that
                  */
                 pmd_populate(mm, pmd, pmd_pgtable(_pmd));
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(pmd_ptl);
                 anon_vma_unlock_write(vma->anon_vma);
                 goto out;
         }
@@ -2367,7 +2466,7 @@ static void collapse_huge_page(struct mm_struct *mm,
          */
         anon_vma_unlock_write(vma->anon_vma);
  
-       __collapse_huge_page_copy(pte, new_page, vma, address, ptl);
+       __collapse_huge_page_copy(pte, new_page, vma, address, pte_ptl);
         pte_unmap(pte);
         __SetPageUptodate(new_page);
         pgtable = pmd_pgtable(_pmd);
@@ -2382,13 +2481,13 @@ static void collapse_huge_page(struct mm_struct *mm,
          */
         smp_wmb();
  
-       spin_lock(&mm->page_table_lock);
+       spin_lock(pmd_ptl);
         BUG_ON(!pmd_none(*pmd));
         page_add_new_anon_rmap(new_page, vma, address);
         pgtable_trans_huge_deposit(mm, pmd, pgtable);
         set_pmd_at(mm, address, pmd, _pmd);
         update_mmu_cache_pmd(vma, address, pmd);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(pmd_ptl);
  
         *hpage = NULL;
  
@@ -2423,6 +2522,7 @@ static int khugepaged_scan_pmd(struct mm_struct *mm,
         if (pmd_trans_huge(*pmd))
                 goto out;
  
+       memset(khugepaged_node_load, 0, sizeof(khugepaged_node_load));
         pte = pte_offset_map_lock(mm, pmd, address, &ptl);
         for (_address = address, _pte = pte; _pte < pte+HPAGE_PMD_NR;
              _pte++, _address += PAGE_SIZE) {
@@ -2439,12 +2539,13 @@ static int khugepaged_scan_pmd(struct mm_struct *mm,
                 if (unlikely(!page))
                         goto out_unmap;
                 /*
-                * Chose the node of the first page. This could
-                * be more sophisticated and look at more pages,
-                * but isn't for now.
+                * Record which node the original page is from and save this
+                * information to khugepaged_node_load[].
+                * Khupaged will allocate hugepage from the node has the max
+                * hit record.
                  */
-               if (node == NUMA_NO_NODE)
-                       node = page_to_nid(page);
+               node = page_to_nid(page);
+               khugepaged_node_load[node]++;
                 VM_BUG_ON(PageCompound(page));
                 if (!PageLRU(page) || PageLocked(page) || !PageAnon(page))
                         goto out_unmap;
@@ -2459,9 +2560,11 @@ static int khugepaged_scan_pmd(struct mm_struct *mm,
                 ret = 1;
  out_unmap:
         pte_unmap_unlock(pte, ptl);
-       if (ret)
+       if (ret) {
+               node = khugepaged_find_target_node();
                 /* collapse_huge_page will return with the mmap_sem released */
                 collapse_huge_page(mm, address, hpage, vma, node);
+       }
  out:
         return ret;
  }
@@ -2713,6 +2816,7 @@ static void __split_huge_zero_page_pmd(struct vm_area_struct *vma,
  void __split_huge_page_pmd(struct vm_area_struct *vma, unsigned long address,
                 pmd_t *pmd)
  {
+       spinlock_t *ptl;
         struct page *page;
         struct mm_struct *mm = vma->vm_mm;
         unsigned long haddr = address & HPAGE_PMD_MASK;
@@ -2725,22 +2829,22 @@ void __split_huge_page_pmd(struct vm_area_struct *vma, unsigned long address,
         mmun_end   = haddr + HPAGE_PMD_SIZE;
  again:
         mmu_notifier_invalidate_range_start(mm, mmun_start, mmun_end);
-       spin_lock(&mm->page_table_lock);
+       ptl = pmd_lock(mm, pmd);
         if (unlikely(!pmd_trans_huge(*pmd))) {
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
                 return;
         }
         if (is_huge_zero_pmd(*pmd)) {
                 __split_huge_zero_page_pmd(vma, haddr, pmd);
-               spin_unlock(&mm->page_table_lock);
+               spin_unlock(ptl);
                 mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
                 return;
         }
         page = pmd_page(*pmd);
         VM_BUG_ON(!page_count(page));
         get_page(page);
-       spin_unlock(&mm->page_table_lock);
+       spin_unlock(ptl);
         mmu_notifier_invalidate_range_end(mm, mmun_start, mmun_end);
  
         split_huge_page(page);