ofproto-dpif-rid: Don't carry actset_output explicitly in metadata.
[cascardo/ovs.git] / ofproto / ofproto-dpif-rid.c
1 /*
2  * Copyright (c) 2014, 2015, 2016 Nicira, Inc.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at:
7  *
8  *     http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  */
16
17 #include <config.h>
18
19 #include "ofpbuf.h"
20 #include "ofproto-dpif.h"
21 #include "ofproto-dpif-rid.h"
22 #include "ofproto-provider.h"
23 #include "openvswitch/vlog.h"
24
25 VLOG_DEFINE_THIS_MODULE(ofproto_dpif_rid);
26
27 static struct ovs_mutex mutex;
28
29 static struct cmap id_map;
30 static struct cmap metadata_map;
31
32 static struct ovs_list expiring OVS_GUARDED_BY(mutex);
33 static struct ovs_list expired OVS_GUARDED_BY(mutex);
34
35 static uint32_t next_id OVS_GUARDED_BY(mutex); /* Possible next free id. */
36
37 #define RECIRC_POOL_STATIC_IDS 1024
38
39 static void recirc_id_node_free(struct recirc_id_node *);
40
41 void
42 recirc_init(void)
43 {
44     static struct ovsthread_once once = OVSTHREAD_ONCE_INITIALIZER;
45
46     if (ovsthread_once_start(&once)) {
47         ovs_mutex_init(&mutex);
48         ovs_mutex_lock(&mutex);
49         next_id = 1; /* 0 is not a valid ID. */
50         cmap_init(&id_map);
51         cmap_init(&metadata_map);
52         list_init(&expiring);
53         list_init(&expired);
54         ovs_mutex_unlock(&mutex);
55
56         ovsthread_once_done(&once);
57     }
58
59 }
60
61 /* This should be called by the revalidator once at each round (every 500ms or
62  * more). */
63 void
64 recirc_run(void)
65 {
66     static long long int last = 0;
67     long long int now = time_msec();
68
69     /* Do maintenance at most 4 times / sec. */
70     ovs_mutex_lock(&mutex);
71     if (now - last > 250) {
72         struct recirc_id_node *node;
73
74         last = now;
75
76         /* Nodes in 'expiring' and 'expired' lists have the refcount of zero,
77          * which means that while they can still be found (by id), no new
78          * references can be taken on them.  We have removed the entry from the
79          * 'metadata_map', at the time when refcount reached zero, causing any
80          * new translations to allocate a new ID.  This allows the expiring
81          * entry to be safely deleted while any sudden new use of the similar
82          * recirculation will safely start using a new recirculation ID.  When
83          * the refcount gets to zero, the node is also added to the 'expiring'
84          * list.  At any time after that the nodes in the 'expiring' list can
85          * be moved to the 'expired' list, from which they are deleted at least
86          * 250ms afterwards. */
87
88         /* Delete the expired.  These have been lingering for at least 250 ms,
89          * which should be enough for any ongoing recirculations to be
90          * finished. */
91         LIST_FOR_EACH_POP (node, exp_node, &expired) {
92             cmap_remove(&id_map, &node->id_node, node->id);
93             ovsrcu_postpone(recirc_id_node_free, node);
94         }
95
96         if (!list_is_empty(&expiring)) {
97             /* 'expired' is now empty, move nodes in 'expiring' to it. */
98             list_splice(&expired, list_front(&expiring), &expiring);
99         }
100     }
101     ovs_mutex_unlock(&mutex);
102 }
103
104 /* We use the id as the hash value, which works due to cmap internal rehashing.
105  * We also only insert nodes with unique IDs, so all possible hash collisions
106  * remain internal to the cmap. */
107 static struct recirc_id_node *
108 recirc_find__(uint32_t id)
109     OVS_REQUIRES(mutex)
110 {
111     struct cmap_node *node = cmap_find_protected(&id_map, id);
112
113     return node ? CONTAINER_OF(node, struct recirc_id_node, id_node) : NULL;
114 }
115
116 /* Lockless RCU protected lookup.  If node is needed accross RCU quiescent
117  * state, caller should copy the contents. */
118 const struct recirc_id_node *
119 recirc_id_node_find(uint32_t id)
120 {
121     const struct cmap_node *node = cmap_find(&id_map, id);
122
123     return node
124         ? CONTAINER_OF(node, const struct recirc_id_node, id_node)
125         : NULL;
126 }
127
128 static uint32_t
129 recirc_metadata_hash(const struct recirc_state *state)
130 {
131     uint32_t hash;
132
133     hash = hash_pointer(state->ofproto, 0);
134     hash = hash_int(state->table_id, hash);
135     if (flow_tnl_dst_is_set(state->metadata.tunnel)) {
136         /* We may leave remainder bytes unhashed, but that is unlikely as
137          * the tunnel is not in the datapath format. */
138         hash = hash_bytes64((const uint64_t *) state->metadata.tunnel,
139                             flow_tnl_size(state->metadata.tunnel), hash);
140     }
141     hash = hash_boolean(state->conntracked, hash);
142     hash = hash_bytes64((const uint64_t *) &state->metadata.metadata,
143                         sizeof state->metadata - sizeof state->metadata.tunnel,
144                         hash);
145     if (state->stack && state->n_stack) {
146         hash = hash_bytes64((const uint64_t *) state->stack,
147                             state->n_stack * sizeof *state->stack, hash);
148     }
149     hash = hash_int(state->mirrors, hash);
150     hash = hash_int(state->action_set_len, hash);
151     if (state->action_set_len) {
152         hash = hash_bytes64(ALIGNED_CAST(const uint64_t *, state->action_set),
153                             state->action_set_len, hash);
154     }
155     if (state->ofpacts_len) {
156         hash = hash_bytes64(ALIGNED_CAST(const uint64_t *, state->ofpacts),
157                             state->ofpacts_len, hash);
158     }
159     return hash;
160 }
161
162 static bool
163 recirc_metadata_equal(const struct recirc_state *a,
164                       const struct recirc_state *b)
165 {
166     return (a->table_id == b->table_id
167             && a->ofproto == b->ofproto
168             && flow_tnl_equal(a->metadata.tunnel, b->metadata.tunnel)
169             && !memcmp(&a->metadata.metadata, &b->metadata.metadata,
170                        sizeof a->metadata - sizeof a->metadata.tunnel)
171             && a->n_stack == b->n_stack
172             && !memcmp(a->stack, b->stack, a->n_stack * sizeof *a->stack)
173             && a->mirrors == b->mirrors
174             && a->conntracked == b->conntracked
175             && ofpacts_equal(a->ofpacts, a->ofpacts_len,
176                              b->ofpacts, b->ofpacts_len)
177             && ofpacts_equal(a->action_set, a->action_set_len,
178                              b->action_set, b->action_set_len));
179 }
180
181 /* Lockless RCU protected lookup.  If node is needed accross RCU quiescent
182  * state, caller should take a reference. */
183 static struct recirc_id_node *
184 recirc_find_equal(const struct recirc_state *target, uint32_t hash)
185 {
186     struct recirc_id_node *node;
187
188     CMAP_FOR_EACH_WITH_HASH (node, metadata_node, hash, &metadata_map) {
189         if (recirc_metadata_equal(&node->state, target)) {
190             return node;
191         }
192     }
193     return NULL;
194 }
195
196 static struct recirc_id_node *
197 recirc_ref_equal(const struct recirc_state *target, uint32_t hash)
198 {
199     struct recirc_id_node *node;
200
201     do {
202         node = recirc_find_equal(target, hash);
203
204         /* Try again if the node was released before we get the reference. */
205     } while (node && !ovs_refcount_try_ref_rcu(&node->refcount));
206
207     return node;
208 }
209
210 static void
211 recirc_state_clone(struct recirc_state *new, const struct recirc_state *old,
212                    struct flow_tnl *tunnel)
213 {
214     *new = *old;
215     flow_tnl_copy__(tunnel, old->metadata.tunnel);
216     new->metadata.tunnel = tunnel;
217
218     new->stack = (new->n_stack
219                   ? xmemdup(new->stack, new->n_stack * sizeof *new->stack)
220                   : NULL);
221     new->ofpacts = (new->ofpacts_len
222                     ? xmemdup(new->ofpacts, new->ofpacts_len)
223                     : NULL);
224     new->action_set = (new->action_set_len
225                        ? xmemdup(new->action_set, new->action_set_len)
226                        : NULL);
227 }
228
229 static void
230 recirc_state_free(struct recirc_state *state)
231 {
232     free(state->stack);
233     free(state->ofpacts);
234     free(state->action_set);
235 }
236
237 /* Allocate a unique recirculation id for the given set of flow metadata.
238  * The ID space is 2^^32, so there should never be a situation in which all
239  * the IDs are used up.  We loop until we find a free one.
240  * hash is recomputed if it is passed in as 0. */
241 static struct recirc_id_node *
242 recirc_alloc_id__(const struct recirc_state *state, uint32_t hash)
243 {
244     ovs_assert(state->action_set_len <= state->ofpacts_len);
245
246     struct recirc_id_node *node = xzalloc(sizeof *node);
247
248     node->hash = hash;
249     ovs_refcount_init(&node->refcount);
250     recirc_state_clone(CONST_CAST(struct recirc_state *, &node->state), state,
251                        &node->state_metadata_tunnel);
252
253     ovs_mutex_lock(&mutex);
254     for (;;) {
255         /* Claim the next ID.  The ID space should be sparse enough for the
256            allocation to succeed at the first try.  We do skip the first
257            RECIRC_POOL_STATIC_IDS IDs on the later rounds, though, as some of
258            the initial allocations may be for long term uses (like bonds). */
259         node->id = next_id++;
260         if (OVS_UNLIKELY(!node->id)) {
261             next_id = RECIRC_POOL_STATIC_IDS + 1;
262             node->id = next_id++;
263         }
264         /* Find if the id is free. */
265         if (OVS_LIKELY(!recirc_find__(node->id))) {
266             break;
267         }
268     }
269     cmap_insert(&id_map, &node->id_node, node->id);
270     cmap_insert(&metadata_map, &node->metadata_node, node->hash);
271     ovs_mutex_unlock(&mutex);
272     return node;
273 }
274
275 /* Look up an existing ID for the given flow's metadata and optional actions.
276  */
277 uint32_t
278 recirc_find_id(const struct recirc_state *target)
279 {
280     uint32_t hash = recirc_metadata_hash(target);
281     struct recirc_id_node *node = recirc_find_equal(target, hash);
282     return node ? node->id : 0;
283 }
284
285 /* Allocate a unique recirculation id for the given set of flow metadata and
286    optional actions. */
287 uint32_t
288 recirc_alloc_id_ctx(const struct recirc_state *state)
289 {
290     uint32_t hash = recirc_metadata_hash(state);
291     struct recirc_id_node *node = recirc_ref_equal(state, hash);
292     if (!node) {
293         node = recirc_alloc_id__(state, hash);
294     }
295     return node->id;
296 }
297
298 /* Allocate a unique recirculation id. */
299 uint32_t
300 recirc_alloc_id(struct ofproto_dpif *ofproto)
301 {
302     struct flow_tnl tunnel;
303     tunnel.ip_dst = htonl(0);
304     tunnel.ipv6_dst = in6addr_any;
305     struct recirc_state state = {
306         .table_id = TBL_INTERNAL,
307         .ofproto = ofproto,
308         .metadata = { .tunnel = &tunnel, .in_port = OFPP_NONE },
309     };
310     return recirc_alloc_id__(&state, recirc_metadata_hash(&state))->id;
311 }
312
313 static void
314 recirc_id_node_free(struct recirc_id_node *node)
315 {
316     recirc_state_free(CONST_CAST(struct recirc_state *, &node->state));
317     free(node);
318 }
319
320 void
321 recirc_id_node_unref(const struct recirc_id_node *node_)
322     OVS_EXCLUDED(mutex)
323 {
324     struct recirc_id_node *node = CONST_CAST(struct recirc_id_node *, node_);
325
326     if (node && ovs_refcount_unref(&node->refcount) == 1) {
327         ovs_mutex_lock(&mutex);
328         /* Prevent re-use of this node by removing the node from 'metadata_map'
329          */
330         cmap_remove(&metadata_map, &node->metadata_node, node->hash);
331         /* We keep the node in the 'id_map' so that it can be found as long
332          * as it lingers, and add it to the 'expiring' list. */
333         list_insert(&expiring, &node->exp_node);
334         ovs_mutex_unlock(&mutex);
335     }
336 }
337
338 void
339 recirc_free_id(uint32_t id)
340 {
341     const struct recirc_id_node *node;
342
343     node = recirc_id_node_find(id);
344     if (node) {
345         recirc_id_node_unref(node);
346     } else {
347         VLOG_ERR("Freeing nonexistent recirculation ID: %"PRIu32, id);
348     }
349 }
350
351 /* Called when 'ofproto' is destructed.  Checks for and clears any
352  * recirc_id leak.
353  * No other thread may have access to the 'ofproto' being destructed.
354  * All related datapath flows must be deleted before calling this. */
355 void
356 recirc_free_ofproto(struct ofproto_dpif *ofproto, const char *ofproto_name)
357 {
358     struct recirc_id_node *n;
359
360     CMAP_FOR_EACH (n, metadata_node, &metadata_map) {
361         if (n->state.ofproto == ofproto) {
362             VLOG_ERR("recirc_id %"PRIu32
363                      " left allocated when ofproto (%s)"
364                      " is destructed", n->id, ofproto_name);
365         }
366     }
367 }