netdev-dpdk: fix mbuf leaks
[cascardo/ovs.git] / lib / ovs-thread.c
1 /*
2  * Copyright (c) 2013, 2014, 2015 Nicira, Inc.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include <config.h>
18 #include "ovs-thread.h"
19 #include <errno.h>
20 #include <poll.h>
21 #ifndef _WIN32
22 #include <signal.h>
23 #endif
24 #include <stdlib.h>
25 #include <unistd.h>
26 #include "compiler.h"
27 #include "fatal-signal.h"
28 #include "hash.h"
29 #include "list.h"
30 #include "netdev-dpdk.h"
31 #include "ovs-rcu.h"
32 #include "poll-loop.h"
33 #include "seq.h"
34 #include "socket-util.h"
35 #include "util.h"
36
37 #ifdef __CHECKER__
38 /* Omit the definitions in this file because they are somewhat difficult to
39  * write without prompting "sparse" complaints, without ugliness or
40  * cut-and-paste.  Since "sparse" is just a checker, not a compiler, it
41  * doesn't matter that we don't define them. */
42 #else
43 #include "openvswitch/vlog.h"
44
45 VLOG_DEFINE_THIS_MODULE(ovs_thread);
46
47 /* If there is a reason that we cannot fork anymore (unless the fork will be
48  * immediately followed by an exec), then this points to a string that
49  * explains why. */
50 static const char *must_not_fork;
51
52 /* True if we created any threads beyond the main initial thread. */
53 static bool multithreaded;
54
55 #define LOCK_FUNCTION(TYPE, FUN) \
56     void \
57     ovs_##TYPE##_##FUN##_at(const struct ovs_##TYPE *l_, \
58                             const char *where) \
59         OVS_NO_THREAD_SAFETY_ANALYSIS \
60     { \
61         struct ovs_##TYPE *l = CONST_CAST(struct ovs_##TYPE *, l_); \
62         int error; \
63  \
64         /* Verify that 'l' was initialized. */ \
65         if (OVS_UNLIKELY(!l->where)) { \
66             ovs_abort(0, "%s: %s() passed uninitialized ovs_"#TYPE, \
67                       where, __func__); \
68         } \
69  \
70         error = pthread_##TYPE##_##FUN(&l->lock); \
71         if (OVS_UNLIKELY(error)) { \
72             ovs_abort(error, "%s: pthread_%s_%s failed", where, #TYPE, #FUN); \
73         } \
74         l->where = where; \
75  }
76 LOCK_FUNCTION(mutex, lock);
77 LOCK_FUNCTION(rwlock, rdlock);
78 LOCK_FUNCTION(rwlock, wrlock);
79
80 #define TRY_LOCK_FUNCTION(TYPE, FUN) \
81     int \
82     ovs_##TYPE##_##FUN##_at(const struct ovs_##TYPE *l_, \
83                             const char *where) \
84         OVS_NO_THREAD_SAFETY_ANALYSIS \
85     { \
86         struct ovs_##TYPE *l = CONST_CAST(struct ovs_##TYPE *, l_); \
87         int error; \
88  \
89         /* Verify that 'l' was initialized. */ \
90         if (OVS_UNLIKELY(!l->where)) { \
91             ovs_abort(0, "%s: %s() passed uninitialized ovs_"#TYPE, \
92                       where, __func__); \
93         } \
94  \
95         error = pthread_##TYPE##_##FUN(&l->lock); \
96         if (OVS_UNLIKELY(error) && error != EBUSY) { \
97             ovs_abort(error, "%s: pthread_%s_%s failed", where, #TYPE, #FUN); \
98         } \
99         if (!error) { \
100             l->where = where; \
101         } \
102         return error; \
103     }
104 TRY_LOCK_FUNCTION(mutex, trylock);
105 TRY_LOCK_FUNCTION(rwlock, tryrdlock);
106 TRY_LOCK_FUNCTION(rwlock, trywrlock);
107
108 #define UNLOCK_FUNCTION(TYPE, FUN, WHERE) \
109     void \
110     ovs_##TYPE##_##FUN(const struct ovs_##TYPE *l_) \
111         OVS_NO_THREAD_SAFETY_ANALYSIS \
112     { \
113         struct ovs_##TYPE *l = CONST_CAST(struct ovs_##TYPE *, l_); \
114         int error; \
115  \
116         /* Verify that 'l' was initialized. */ \
117         ovs_assert(l->where); \
118  \
119         l->where = WHERE; \
120         error = pthread_##TYPE##_##FUN(&l->lock); \
121         if (OVS_UNLIKELY(error)) { \
122             ovs_abort(error, "pthread_%s_%s failed", #TYPE, #FUN); \
123         } \
124     }
125 UNLOCK_FUNCTION(mutex, unlock, "<unlocked>");
126 UNLOCK_FUNCTION(mutex, destroy, NULL);
127 UNLOCK_FUNCTION(rwlock, unlock, "<unlocked>");
128 UNLOCK_FUNCTION(rwlock, destroy, NULL);
129
130 #define XPTHREAD_FUNC1(FUNCTION, PARAM1)                \
131     void                                                \
132     x##FUNCTION(PARAM1 arg1)                            \
133     {                                                   \
134         int error = FUNCTION(arg1);                     \
135         if (OVS_UNLIKELY(error)) {                      \
136             ovs_abort(error, "%s failed", #FUNCTION);   \
137         }                                               \
138     }
139 #define XPTHREAD_FUNC2(FUNCTION, PARAM1, PARAM2)        \
140     void                                                \
141     x##FUNCTION(PARAM1 arg1, PARAM2 arg2)               \
142     {                                                   \
143         int error = FUNCTION(arg1, arg2);               \
144         if (OVS_UNLIKELY(error)) {                      \
145             ovs_abort(error, "%s failed", #FUNCTION);   \
146         }                                               \
147     }
148 #define XPTHREAD_FUNC3(FUNCTION, PARAM1, PARAM2, PARAM3)\
149     void                                                \
150     x##FUNCTION(PARAM1 arg1, PARAM2 arg2, PARAM3 arg3)  \
151     {                                                   \
152         int error = FUNCTION(arg1, arg2, arg3);         \
153         if (OVS_UNLIKELY(error)) {                      \
154             ovs_abort(error, "%s failed", #FUNCTION);   \
155         }                                               \
156     }
157
158 XPTHREAD_FUNC1(pthread_mutex_lock, pthread_mutex_t *);
159 XPTHREAD_FUNC1(pthread_mutex_unlock, pthread_mutex_t *);
160 XPTHREAD_FUNC1(pthread_mutexattr_init, pthread_mutexattr_t *);
161 XPTHREAD_FUNC1(pthread_mutexattr_destroy, pthread_mutexattr_t *);
162 XPTHREAD_FUNC2(pthread_mutexattr_settype, pthread_mutexattr_t *, int);
163 XPTHREAD_FUNC2(pthread_mutexattr_gettype, pthread_mutexattr_t *, int *);
164
165 XPTHREAD_FUNC1(pthread_rwlockattr_init, pthread_rwlockattr_t *);
166 XPTHREAD_FUNC1(pthread_rwlockattr_destroy, pthread_rwlockattr_t *);
167 #ifdef PTHREAD_RWLOCK_WRITER_NONRECURSIVE_INITIALIZER_NP
168 XPTHREAD_FUNC2(pthread_rwlockattr_setkind_np, pthread_rwlockattr_t *, int);
169 #endif
170
171 XPTHREAD_FUNC2(pthread_cond_init, pthread_cond_t *, pthread_condattr_t *);
172 XPTHREAD_FUNC1(pthread_cond_destroy, pthread_cond_t *);
173 XPTHREAD_FUNC1(pthread_cond_signal, pthread_cond_t *);
174 XPTHREAD_FUNC1(pthread_cond_broadcast, pthread_cond_t *);
175
176 XPTHREAD_FUNC2(pthread_join, pthread_t, void **);
177
178 typedef void destructor_func(void *);
179 XPTHREAD_FUNC2(pthread_key_create, pthread_key_t *, destructor_func *);
180 XPTHREAD_FUNC1(pthread_key_delete, pthread_key_t);
181 XPTHREAD_FUNC2(pthread_setspecific, pthread_key_t, const void *);
182
183 #ifndef _WIN32
184 XPTHREAD_FUNC3(pthread_sigmask, int, const sigset_t *, sigset_t *);
185 #endif
186
187 static void
188 ovs_mutex_init__(const struct ovs_mutex *l_, int type)
189 {
190     struct ovs_mutex *l = CONST_CAST(struct ovs_mutex *, l_);
191     pthread_mutexattr_t attr;
192     int error;
193
194     l->where = "<unlocked>";
195     xpthread_mutexattr_init(&attr);
196     xpthread_mutexattr_settype(&attr, type);
197     error = pthread_mutex_init(&l->lock, &attr);
198     if (OVS_UNLIKELY(error)) {
199         ovs_abort(error, "pthread_mutex_init failed");
200     }
201     xpthread_mutexattr_destroy(&attr);
202 }
203
204 /* Initializes 'mutex' as a normal (non-recursive) mutex. */
205 void
206 ovs_mutex_init(const struct ovs_mutex *mutex)
207 {
208     ovs_mutex_init__(mutex, PTHREAD_MUTEX_ERRORCHECK);
209 }
210
211 /* Initializes 'mutex' as a recursive mutex. */
212 void
213 ovs_mutex_init_recursive(const struct ovs_mutex *mutex)
214 {
215     ovs_mutex_init__(mutex, PTHREAD_MUTEX_RECURSIVE);
216 }
217
218 /* Initializes 'mutex' as a recursive mutex. */
219 void
220 ovs_mutex_init_adaptive(const struct ovs_mutex *mutex)
221 {
222 #ifdef PTHREAD_ADAPTIVE_MUTEX_INITIALIZER_NP
223     ovs_mutex_init__(mutex, PTHREAD_MUTEX_ADAPTIVE_NP);
224 #else
225     ovs_mutex_init(mutex);
226 #endif
227 }
228
229 void
230 ovs_rwlock_init(const struct ovs_rwlock *l_)
231 {
232     struct ovs_rwlock *l = CONST_CAST(struct ovs_rwlock *, l_);
233     pthread_rwlockattr_t attr;
234     int error;
235
236     l->where = "<unlocked>";
237
238     xpthread_rwlockattr_init(&attr);
239 #ifdef PTHREAD_RWLOCK_WRITER_NONRECURSIVE_INITIALIZER_NP
240     xpthread_rwlockattr_setkind_np(
241         &attr, PTHREAD_RWLOCK_PREFER_WRITER_NONRECURSIVE_NP);
242 #endif
243     error = pthread_rwlock_init(&l->lock, NULL);
244     if (OVS_UNLIKELY(error)) {
245         ovs_abort(error, "pthread_rwlock_init failed");
246     }
247     xpthread_rwlockattr_destroy(&attr);
248 }
249
250 void
251 ovs_mutex_cond_wait(pthread_cond_t *cond, const struct ovs_mutex *mutex_)
252 {
253     struct ovs_mutex *mutex = CONST_CAST(struct ovs_mutex *, mutex_);
254     int error;
255
256     ovsrcu_quiesce_start();
257     error = pthread_cond_wait(cond, &mutex->lock);
258     ovsrcu_quiesce_end();
259
260     if (OVS_UNLIKELY(error)) {
261         ovs_abort(error, "pthread_cond_wait failed");
262     }
263 }
264
265 /* Initializes the 'barrier'.  'size' is the number of threads
266  * expected to hit the barrier. */
267 void
268 ovs_barrier_init(struct ovs_barrier *barrier, uint32_t size)
269 {
270     barrier->size = size;
271     atomic_count_init(&barrier->count, 0);
272     barrier->seq = seq_create();
273 }
274
275 /* Destroys the 'barrier'. */
276 void
277 ovs_barrier_destroy(struct ovs_barrier *barrier)
278 {
279     seq_destroy(barrier->seq);
280 }
281
282 /* Makes the calling thread block on the 'barrier' until all
283  * 'barrier->size' threads hit the barrier.
284  * ovs_barrier provides the necessary acquire-release semantics to make
285  * the effects of prior memory accesses of all the participating threads
286  * visible on return and to prevent the following memory accesses to be
287  * reordered before the ovs_barrier_block(). */
288 void
289 ovs_barrier_block(struct ovs_barrier *barrier)
290 {
291     uint64_t seq = seq_read(barrier->seq);
292     uint32_t orig;
293
294     orig = atomic_count_inc(&barrier->count);
295     if (orig + 1 == barrier->size) {
296         atomic_count_set(&barrier->count, 0);
297         /* seq_change() serves as a release barrier against the other threads,
298          * so the zeroed count is visible to them as they continue. */
299         seq_change(barrier->seq);
300     } else {
301         /* To prevent thread from waking up by other event,
302          * keeps waiting for the change of 'barrier->seq'. */
303         while (seq == seq_read(barrier->seq)) {
304             seq_wait(barrier->seq, seq);
305             poll_block();
306         }
307     }
308 }
309 \f
310 DEFINE_EXTERN_PER_THREAD_DATA(ovsthread_id, 0);
311
312 struct ovsthread_aux {
313     void *(*start)(void *);
314     void *arg;
315     char name[16];
316 };
317
318 static void *
319 ovsthread_wrapper(void *aux_)
320 {
321     static atomic_count next_id = ATOMIC_COUNT_INIT(1);
322
323     struct ovsthread_aux *auxp = aux_;
324     struct ovsthread_aux aux;
325     unsigned int id;
326
327     id = atomic_count_inc(&next_id);
328     *ovsthread_id_get() = id;
329
330     aux = *auxp;
331     free(auxp);
332
333     /* The order of the following calls is important, because
334      * ovsrcu_quiesce_end() saves a copy of the thread name. */
335     char *subprogram_name = xasprintf("%s%u", aux.name, id);
336     set_subprogram_name(subprogram_name);
337     free(subprogram_name);
338     ovsrcu_quiesce_end();
339
340     return aux.start(aux.arg);
341 }
342
343 static void
344 set_min_stack_size(pthread_attr_t *attr, size_t min_stacksize)
345 {
346     size_t stacksize;
347     int error;
348
349     error = pthread_attr_getstacksize(attr, &stacksize);
350     if (error) {
351         ovs_abort(error, "pthread_attr_getstacksize failed");
352     }
353
354     if (stacksize < min_stacksize) {
355         error = pthread_attr_setstacksize(attr, min_stacksize);
356         if (error) {
357             ovs_abort(error, "pthread_attr_setstacksize failed");
358         }
359     }
360 }
361
362 /* Starts a thread that calls 'start(arg)'.  Sets the thread's name to 'name'
363  * (suffixed by its ovsthread_id()).  Returns the new thread's pthread_t. */
364 pthread_t
365 ovs_thread_create(const char *name, void *(*start)(void *), void *arg)
366 {
367     struct ovsthread_aux *aux;
368     pthread_t thread;
369     int error;
370
371     forbid_forking("multiple threads exist");
372     multithreaded = true;
373     ovsrcu_quiesce_end();
374
375     aux = xmalloc(sizeof *aux);
376     aux->start = start;
377     aux->arg = arg;
378     ovs_strlcpy(aux->name, name, sizeof aux->name);
379
380     /* Some small systems use a default stack size as small as 80 kB, but OVS
381      * requires approximately 384 kB according to the following analysis:
382      * http://openvswitch.org/pipermail/dev/2016-January/065049.html
383      *
384      * We use 512 kB to give us some margin of error. */
385     pthread_attr_t attr;
386     pthread_attr_init(&attr);
387     set_min_stack_size(&attr, 512 * 1024);
388
389     error = pthread_create(&thread, NULL, ovsthread_wrapper, aux);
390     if (error) {
391         ovs_abort(error, "pthread_create failed");
392     }
393     pthread_attr_destroy(&attr);
394     return thread;
395 }
396 \f
397 bool
398 ovsthread_once_start__(struct ovsthread_once *once)
399 {
400     ovs_mutex_lock(&once->mutex);
401     /* Mutex synchronizes memory, so we get the current value of 'done'. */
402     if (!once->done) {
403         return true;
404     }
405     ovs_mutex_unlock(&once->mutex);
406     return false;
407 }
408
409 void
410 ovsthread_once_done(struct ovsthread_once *once)
411 {
412     /* We need release semantics here, so that the following store may not
413      * be moved ahead of any of the preceding initialization operations.
414      * A release atomic_thread_fence provides that prior memory accesses
415      * will not be reordered to take place after the following store. */
416     atomic_thread_fence(memory_order_release);
417     once->done = true;
418     ovs_mutex_unlock(&once->mutex);
419 }
420 \f
421 bool
422 single_threaded(void)
423 {
424     return !multithreaded;
425 }
426
427 /* Asserts that the process has not yet created any threads (beyond the initial
428  * thread).
429  *
430  * ('where' is used in logging.  Commonly one would use
431  * assert_single_threaded() to automatically provide the caller's source file
432  * and line number for 'where'.) */
433 void
434 assert_single_threaded_at(const char *where)
435 {
436     if (multithreaded) {
437         VLOG_FATAL("%s: attempted operation not allowed when multithreaded",
438                    where);
439     }
440 }
441
442 #ifndef _WIN32
443 /* Forks the current process (checking that this is allowed).  Aborts with
444  * VLOG_FATAL if fork() returns an error, and otherwise returns the value
445  * returned by fork().
446  *
447  * ('where' is used in logging.  Commonly one would use xfork() to
448  * automatically provide the caller's source file and line number for
449  * 'where'.) */
450 pid_t
451 xfork_at(const char *where)
452 {
453     pid_t pid;
454
455     if (must_not_fork) {
456         VLOG_FATAL("%s: attempted to fork but forking not allowed (%s)",
457                    where, must_not_fork);
458     }
459
460     pid = fork();
461     if (pid < 0) {
462         VLOG_FATAL("%s: fork failed (%s)", where, ovs_strerror(errno));
463     }
464     return pid;
465 }
466 #endif
467
468 /* Notes that the process must not call fork() from now on, for the specified
469  * 'reason'.  (The process may still fork() if it execs itself immediately
470  * afterward.) */
471 void
472 forbid_forking(const char *reason)
473 {
474     ovs_assert(reason != NULL);
475     must_not_fork = reason;
476 }
477
478 /* Returns true if the process is allowed to fork, false otherwise. */
479 bool
480 may_fork(void)
481 {
482     return !must_not_fork;
483 }
484 \f
485 /* ovsthread_stats. */
486
487 void
488 ovsthread_stats_init(struct ovsthread_stats *stats)
489 {
490     int i;
491
492     ovs_mutex_init(&stats->mutex);
493     for (i = 0; i < ARRAY_SIZE(stats->buckets); i++) {
494         stats->buckets[i] = NULL;
495     }
496 }
497
498 void
499 ovsthread_stats_destroy(struct ovsthread_stats *stats)
500 {
501     ovs_mutex_destroy(&stats->mutex);
502 }
503
504 void *
505 ovsthread_stats_bucket_get(struct ovsthread_stats *stats,
506                            void *(*new_bucket)(void))
507 {
508     unsigned int idx = ovsthread_id_self() & (ARRAY_SIZE(stats->buckets) - 1);
509     void *bucket = stats->buckets[idx];
510     if (!bucket) {
511         ovs_mutex_lock(&stats->mutex);
512         bucket = stats->buckets[idx];
513         if (!bucket) {
514             bucket = stats->buckets[idx] = new_bucket();
515         }
516         ovs_mutex_unlock(&stats->mutex);
517     }
518     return bucket;
519 }
520
521 size_t
522 ovs_thread_stats_next_bucket(const struct ovsthread_stats *stats, size_t i)
523 {
524     for (; i < ARRAY_SIZE(stats->buckets); i++) {
525         if (stats->buckets[i]) {
526             break;
527         }
528     }
529     return i;
530 }
531
532 \f
533 /* Parses /proc/cpuinfo for the total number of physical cores on this system
534  * across all CPU packages, not counting hyper-threads.
535  *
536  * Sets *n_cores to the total number of cores on this system, or 0 if the
537  * number cannot be determined. */
538 static void
539 parse_cpuinfo(long int *n_cores)
540 {
541     static const char file_name[] = "/proc/cpuinfo";
542     char line[128];
543     uint64_t cpu = 0; /* Support up to 64 CPU packages on a single system. */
544     long int cores = 0;
545     FILE *stream;
546
547     stream = fopen(file_name, "r");
548     if (!stream) {
549         VLOG_DBG("%s: open failed (%s)", file_name, ovs_strerror(errno));
550         return;
551     }
552
553     while (fgets(line, sizeof line, stream)) {
554         unsigned int id;
555
556         /* Find the next CPU package. */
557         if (ovs_scan(line, "physical id%*[^:]: %u", &id)) {
558             if (id > 63) {
559                 VLOG_WARN("Counted over 64 CPU packages on this system. "
560                           "Parsing %s for core count may be inaccurate.",
561                           file_name);
562                 cores = 0;
563                 break;
564             }
565
566             if (cpu & (1ULL << id)) {
567                 /* We've already counted this package's cores. */
568                 continue;
569             }
570             cpu |= 1ULL << id;
571
572             /* Find the number of cores for this package. */
573             while (fgets(line, sizeof line, stream)) {
574                 int count;
575
576                 if (ovs_scan(line, "cpu cores%*[^:]: %u", &count)) {
577                     cores += count;
578                     break;
579                 }
580             }
581         }
582     }
583     fclose(stream);
584
585     *n_cores = cores;
586 }
587
588 /* Returns the total number of cores on this system, or 0 if the number cannot
589  * be determined.
590  *
591  * Tries not to count hyper-threads, but may be inaccurate - particularly on
592  * platforms that do not provide /proc/cpuinfo, but also if /proc/cpuinfo is
593  * formatted different to the layout that parse_cpuinfo() expects. */
594 int
595 count_cpu_cores(void)
596 {
597     static struct ovsthread_once once = OVSTHREAD_ONCE_INITIALIZER;
598     static long int n_cores;
599
600     if (ovsthread_once_start(&once)) {
601 #ifndef _WIN32
602         parse_cpuinfo(&n_cores);
603         if (!n_cores) {
604             n_cores = sysconf(_SC_NPROCESSORS_ONLN);
605         }
606 #else
607         SYSTEM_INFO sysinfo;
608         GetSystemInfo(&sysinfo);
609         n_cores = sysinfo.dwNumberOfProcessors;
610 #endif
611         ovsthread_once_done(&once);
612     }
613
614     return n_cores > 0 ? n_cores : 0;
615 }
616
617 /* Returns 'true' if current thread is PMD thread. */
618 bool
619 thread_is_pmd(void)
620 {
621     const char *name = get_subprogram_name();
622     return !strncmp(name, "pmd", 3);
623 }
624
625 \f
626 /* ovsthread_key. */
627
628 #define L1_SIZE 1024
629 #define L2_SIZE 1024
630 #define MAX_KEYS (L1_SIZE * L2_SIZE)
631
632 /* A piece of thread-specific data. */
633 struct ovsthread_key {
634     struct ovs_list list_node;  /* In 'inuse_keys' or 'free_keys'. */
635     void (*destructor)(void *); /* Called at thread exit. */
636
637     /* Indexes into the per-thread array in struct ovsthread_key_slots.
638      * This key's data is stored in p1[index / L2_SIZE][index % L2_SIZE]. */
639     unsigned int index;
640 };
641
642 /* Per-thread data structure. */
643 struct ovsthread_key_slots {
644     struct ovs_list list_node;  /* In 'slots_list'. */
645     void **p1[L1_SIZE];
646 };
647
648 /* Contains "struct ovsthread_key_slots *". */
649 static pthread_key_t tsd_key;
650
651 /* Guards data structures below. */
652 static struct ovs_mutex key_mutex = OVS_MUTEX_INITIALIZER;
653
654 /* 'inuse_keys' holds "struct ovsthread_key"s that have been created and not
655  * yet destroyed.
656  *
657  * 'free_keys' holds "struct ovsthread_key"s that have been deleted and are
658  * ready for reuse.  (We keep them around only to be able to easily locate
659  * free indexes.)
660  *
661  * Together, 'inuse_keys' and 'free_keys' hold an ovsthread_key for every index
662  * from 0 to n_keys - 1, inclusive. */
663 static struct ovs_list inuse_keys OVS_GUARDED_BY(key_mutex)
664     = OVS_LIST_INITIALIZER(&inuse_keys);
665 static struct ovs_list free_keys OVS_GUARDED_BY(key_mutex)
666     = OVS_LIST_INITIALIZER(&free_keys);
667 static unsigned int n_keys OVS_GUARDED_BY(key_mutex);
668
669 /* All existing struct ovsthread_key_slots. */
670 static struct ovs_list slots_list OVS_GUARDED_BY(key_mutex)
671     = OVS_LIST_INITIALIZER(&slots_list);
672
673 static void *
674 clear_slot(struct ovsthread_key_slots *slots, unsigned int index)
675 {
676     void **p2 = slots->p1[index / L2_SIZE];
677     if (p2) {
678         void **valuep = &p2[index % L2_SIZE];
679         void *value = *valuep;
680         *valuep = NULL;
681         return value;
682     } else {
683         return NULL;
684     }
685 }
686
687 static void
688 ovsthread_key_destruct__(void *slots_)
689 {
690     struct ovsthread_key_slots *slots = slots_;
691     struct ovsthread_key *key;
692     unsigned int n;
693     int i;
694
695     ovs_mutex_lock(&key_mutex);
696     list_remove(&slots->list_node);
697     LIST_FOR_EACH (key, list_node, &inuse_keys) {
698         void *value = clear_slot(slots, key->index);
699         if (value && key->destructor) {
700             key->destructor(value);
701         }
702     }
703     n = n_keys;
704     ovs_mutex_unlock(&key_mutex);
705
706     for (i = 0; i < DIV_ROUND_UP(n, L2_SIZE); i++) {
707         free(slots->p1[i]);
708     }
709     free(slots);
710 }
711
712 /* Cancels the callback to ovsthread_key_destruct__().
713  *
714  * Cancelling the call to the destructor during the main thread exit
715  * is needed while using pthreads-win32 library in Windows. It has been
716  * observed that in pthreads-win32, a call to the destructor during
717  * main thread exit causes undefined behavior. */
718 static void
719 ovsthread_cancel_ovsthread_key_destruct__(void *aux OVS_UNUSED)
720 {
721     pthread_setspecific(tsd_key, NULL);
722 }
723
724 /* Initializes '*keyp' as a thread-specific data key.  The data items are
725  * initially null in all threads.
726  *
727  * If a thread exits with non-null data, then 'destructor', if nonnull, will be
728  * called passing the final data value as its argument.  'destructor' must not
729  * call any thread-specific data functions in this API.
730  *
731  * This function is similar to xpthread_key_create(). */
732 void
733 ovsthread_key_create(ovsthread_key_t *keyp, void (*destructor)(void *))
734 {
735     static struct ovsthread_once once = OVSTHREAD_ONCE_INITIALIZER;
736     struct ovsthread_key *key;
737
738     if (ovsthread_once_start(&once)) {
739         xpthread_key_create(&tsd_key, ovsthread_key_destruct__);
740         fatal_signal_add_hook(ovsthread_cancel_ovsthread_key_destruct__,
741                               NULL, NULL, true);
742         ovsthread_once_done(&once);
743     }
744
745     ovs_mutex_lock(&key_mutex);
746     if (list_is_empty(&free_keys)) {
747         key = xmalloc(sizeof *key);
748         key->index = n_keys++;
749         if (key->index >= MAX_KEYS) {
750             abort();
751         }
752     } else {
753         key = CONTAINER_OF(list_pop_back(&free_keys),
754                             struct ovsthread_key, list_node);
755     }
756     list_push_back(&inuse_keys, &key->list_node);
757     key->destructor = destructor;
758     ovs_mutex_unlock(&key_mutex);
759
760     *keyp = key;
761 }
762
763 /* Frees 'key'.  The destructor supplied to ovsthread_key_create(), if any, is
764  * not called.
765  *
766  * This function is similar to xpthread_key_delete(). */
767 void
768 ovsthread_key_delete(ovsthread_key_t key)
769 {
770     struct ovsthread_key_slots *slots;
771
772     ovs_mutex_lock(&key_mutex);
773
774     /* Move 'key' from 'inuse_keys' to 'free_keys'. */
775     list_remove(&key->list_node);
776     list_push_back(&free_keys, &key->list_node);
777
778     /* Clear this slot in all threads. */
779     LIST_FOR_EACH (slots, list_node, &slots_list) {
780         clear_slot(slots, key->index);
781     }
782
783     ovs_mutex_unlock(&key_mutex);
784 }
785
786 static void **
787 ovsthread_key_lookup__(const struct ovsthread_key *key)
788 {
789     struct ovsthread_key_slots *slots;
790     void **p2;
791
792     slots = pthread_getspecific(tsd_key);
793     if (!slots) {
794         slots = xzalloc(sizeof *slots);
795
796         ovs_mutex_lock(&key_mutex);
797         pthread_setspecific(tsd_key, slots);
798         list_push_back(&slots_list, &slots->list_node);
799         ovs_mutex_unlock(&key_mutex);
800     }
801
802     p2 = slots->p1[key->index / L2_SIZE];
803     if (!p2) {
804         p2 = xzalloc(L2_SIZE * sizeof *p2);
805         slots->p1[key->index / L2_SIZE] = p2;
806     }
807
808     return &p2[key->index % L2_SIZE];
809 }
810
811 /* Sets the value of thread-specific data item 'key', in the current thread, to
812  * 'value'.
813  *
814  * This function is similar to pthread_setspecific(). */
815 void
816 ovsthread_setspecific(ovsthread_key_t key, const void *value)
817 {
818     *ovsthread_key_lookup__(key) = CONST_CAST(void *, value);
819 }
820
821 /* Returns the value of thread-specific data item 'key' in the current thread.
822  *
823  * This function is similar to pthread_getspecific(). */
824 void *
825 ovsthread_getspecific(ovsthread_key_t key)
826 {
827     return *ovsthread_key_lookup__(key);
828 }
829 #endif