Llegim bé les enquestes? Que no ens enganyin

Avui toca dilluns d’enquestes (és l’últim dia que  es poden publicar enquestes sobre el #20D a l’estat espanyol tot i que hi ha mitjans que esquiven la normativa publicant-les a partir de demà a Andorra). Cada vegada més les enquestes i les noticies que se’n deriven als mitjans de comunicació no serveixen per informar del que es preveu que votarà la gent si no que serveixen per intentar fer canviar el vot de la gent d’acord amb les línies editorials i interessos de cada mitjà. I m’explico.

Aquestes són captures fetes el 14 de desembre a dos quarts de deu tocats de quatre diaris espanyols que avui publicaven enquestes en la seva portada (web i paper):

EP ElPais
ElMundo LaRazon

Mirem-les amb una mica de carinyo? Mirem la mida de la mostra? L’enquesta d’El Periódico té una mostra de 800 persones a tot Espanya, La d’El País 2.800, la d’El Mundo 8.350, i la de La Razón 3.000. Aquestes mostres poden servir, suposant que siguin aleatòries i que la gent digui la veritat, per estimar percentatges de vot globals a tot Espanya (res a dir amb aquesta estimació que serviria, per exemple per unes europees on hi ha circumscripció única).

Mirem també l’error que donen: quan El Periódico diu que l’enquesta té un error d’un 3.5 amb interval de confiança d’un 95.5%  es refereix a tot Espanya i no província a província (que es llegeix com que un 95.5% dels cops que es fes l’enquesta a 800 persones els resultats varirarien com a molt 3.5 punts amunt o avall, cosa que implica una variació de fins a 7 punts en els resultats). La d’El País baixa l’error a  +/- 1.9 i per això entrevista a 2.800 persones. La Razón el baixa a +/- 1.77 i per això n’entrevista a 3.000 i El Mundo és el que el posa més baix amb +/- 1.3 i n’entrevista a 8.500. Si teniu curiositat aquí podeu calcular la mida de la mostra necessària en funció de la població: http://www.netquest.com/es/panel/calculadora-muestras.html (a la taula al final del post hi teniu el cens de cada província per poder-hi jugar).

I compte: per exemple l’error de +/- 3,5 que dóna l’entquesta d’El Periódico l’heu d’aplicar a cada partit. Com que dóna 25.2% dels vots al PP vol dir que està en l’interval [21.7%,28.7%]. Al PSOE n’hi dona un 20.8%, interval [17.3%,24.3%]. Ciutadans un 19% estaria en l’interval [15.5%,22.5%] i Podemos amb 18.4% estari a l’interval [14.9%,21.9%]. Si mireu els quatre intervals, veureu que hi ha intersecció entre tots ells i, per tant, que no es pot dir quasi bé res…

Ara bé, el nombre de diputats que cada partit tregui no depèn del total de vots que s’obtinguin a tota Espanya sinó que depèn de la suma dels diputats  que cada partit tregui a cada província. I els diputats de cada província depenen únicament dels vots de cada província. I aquest és el gran punt feble: a quantes persones de cada província s’han entrevistat per poder estimar els diputats totals de cada partit?

Analitzem, per exemple, l’enquesta d’El Periódico que és la que anuncien qua aniran actualitzant diàriament des d’Andorra. Per no dificultar la lectura al final del post hi he posat una taula i aquí comento només quatre dades de Catalunya. A partit del cens de cada província per estimar amb l’error (gran) que ells proposen 3.5% per un interval de confiança d’un 95.5% necessitarien 820 entrevistes a Barcelona, 819 a Girona i Tarragona i 818 a Lleida (a partir d’un cert valor de població la mida de la mostra necessària varia molt poc; el que la fa variar molt és l’error que acceptem). És a dir: per fer l’estimació dels resultats a Catalunya amb l’error que ells diuen que fan necessitarien 3.276 entrevistes… i en fan 800 a tot Espanya! Fins i tot a Soria que és la província més petita necessitarien 811 entrevistes (més que les que han fet a tot Espanya). Això és la teoria bàsica. A partir d’aquí certament es poden anar fent estimacions a partir d’enquestes anteriors, de record de vot, etc. És a dir, a partir d’aquí es pot anar fent la imprescindible cuina… però si els ingredients no són bons (mostra) difícilment el plat final serà bo… a no ser que hi posem moltes espècies per dissimular una mica.

Resumint: No us creieu cap enquesta que pretengui estimar els resultats en diputats amb mostres de centenars o pocs milers de ciutadans. Són, simplement, eines de propaganda. Una enquesta creïble amb un error de +/- 3.5% i que volgués estimar diputats necessitaria més de 800 entrevistes per província, més de 40.000 en total (entre les 810 a Soria i 820 a Madrid o Barcelona).  O unes 400 per província si volguéssim un error de +/- un 5% (que representaria unes 20.000 entrevistes).

Mostres necessàries i mostres usades?

No conec els detalls de com han distribuït les entrevistes per cada província (que és el que permet estimar els diputats totals) però una estimació a partir del % del cens que representa cada província i la mida de la mostra seria aquesta: IMPORTANT: per un error d’un 3.5% amb interval de confiança d’un 95.5% (l’error més gran de les quatre enquestes) es necessitaria a cada província una mostra d’entre els 811 de Soria i els 820 de Barcelona o Madrid. L’única mostra que ho compliria (suposant que les han distribuit uniformement per províncies) serien les de El Mundo per Barcelona i Madrid.

        El Periódico El País El Mundo La Razón
        800 2800 8350 3000
Circumscripció Cens % Estimació mostra a partir % cens (proporcional?)
02 ALBACETE 302.809 0,9% 7 25 73 26
03 ALICANTE/ALACANT 1.216.000 3,5% 28 99 294 106
04 ALMERÍA 451.641 1,3% 10 37 109 39
01 ARABA/ÁLAVA 247.900 0,7% 6 20 60 22
33 ASTURIAS 873.969 2,5% 20 71 211 76
05 ÁVILA 131.979 0,4% 3 11 32 11
06 BADAJOZ 546.977 1,6% 13 44 132 48
07 BALEARS, ILLES 747.277 2,2% 17 61 181 65
08 BARCELONA 3.969.092 11,5% 92 322 959 345
48 BIZKAIA 910.216 2,6% 21 74 220 79
09 BURGOS 283.939 0,8% 7 23 69 25
10 CÁCERES 333.971 1,0% 8 27 81 29
11 CÁDIZ 965.410 2,8% 22 78 233 84
39 CANTABRIA 462.857 1,3% 11 38 112 40
12 CASTELLÓN/CASTELLÓ 408.107 1,2% 9 33 99 35
13 CIUDAD REAL 394.741 1,1% 9 32 95 34
14 CÓRDOBA 632.697 1,8% 15 51 153 55
15 CORUÑA, A 934.485 2,7% 22 76 226 81
16 CUENCA 155.327 0,4% 4 13 38 13
20 GIPUZKOA 554.219 1,6% 13 45 134 48
17 GIRONA 494.896 1,4% 11 40 120 43
18 GRANADA 699.979 2,0% 16 57 169 61
19 GUADALAJARA 178.375 0,5% 4 14 43 15
21 HUELVA 388.313 1,1% 9 31 94 34
22 HUESCA 166.696 0,5% 4 14 40 14
23 JAÉN 519.626 1,5% 12 42 126 45
24 LEÓN 396.855 1,1% 9 32 96 34
25 LLEIDA 298.511 0,9% 7 24 72 26
27 LUGO 285.386 0,8% 7 23 69 25
28 MADRID 4.655.404 13,5% 108 377 1125 404
29 MÁLAGA 1.112.315 3,2% 26 90 269 97
30 MURCIA 1.000.125 2,9% 23 81 242 87
31 NAVARRA 476.481 1,4% 11 39 115 41
32 OURENSE 266.879 0,8% 6 22 65 23
34 PALENCIA 137.088 0,4% 3 11 33 12
35 PALMAS, LAS 796.749 2,3% 18 65 193 69
36 PONTEVEDRA 773.032 2,2% 18 63 187 67
26 RIOJA, LA 232.534 0,7% 5 19 56 20
37 SALAMANCA 279.811 0,8% 6 23 68 24
38 SANTA CRUZ DE TENERIFE 731.450 2,1% 17 59 177 64
40 SEGOVIA 118.039 0,3% 3 10 29 10
41 SEVILLA 1.497.473 4,3% 35 121 362 130
42 SORIA 70.406 0,2% 2 6 17 6
43 TARRAGONA 546.716 1,6% 13 44 132 47
44 TERUEL 105.057 0,3% 2 9 25 9
45 TOLEDO 507.129 1,5% 12 41 123 44
46 VALENCIA/VALÈNCIA 1.887.323 5,5% 44 153 456 164
47 VALLADOLID 420.165 1,2% 10 34 102 36
49 ZAMORA 154.712 0,4% 4 13 37 13
50 ZARAGOZA 711.586 2,1% 16 58 172 62
51 CEUTA 59.109 0,2% 1 5 14 5
52 MELILLA 53.129 0,2% 1 4 13 5
Total   34.544.962 100,0% 800 2804 8352 2997

Comenta

*

(*) Camps obligatoris

L'enviament de comentaris implica l'acceptació de les normes d'ús