interpunkcja w zdaniu |
średnia długość zdania |
słowa w zdaniu |
n-gramy bajtowe (przekrój) |
n-gramy słowne (przekrój) |
słowa (podobieństwo Jaccarda) |
długość | ilość interpunkcji |
ilość zdań |
ilość słów |
|
---|---|---|---|---|---|---|---|---|---|---|
dlaczego.txt | 2.255 | 110.979 | 15.894 | nie , 37 ych , 23 na , 22 wani, 21 |
się na, 5 a więc, 4 odcinek cyklu, 4 |
w, 23 i, 23 na, 22 się, 17 |
5216 | 106 | 47 | 747 |
onas.txt | 1 | 53.5 | 8 | to , 2 bez, 2 bezp, 2 ezpi, 2 |
payload to, 1 to nie, 1 nie tylko, 1 |
o, 3 to, 2 payload, 1 nie, 1 |
214 | 4 | 4 | 32 |
credits.rtf.txt | 8.058 | 145.998 | 22.651 | —-, 5914 the, 3261 the , 3128 o… |
the software, 563 of the, 540 to the, … |
the, 3128 of, 1899 or, 1692 and, 13… |
299149 | 16511 | 2049 | 46412 |
Anonim.txt | 2.852 | 105.295 | 15.574 | nie , 36 tru, 32 trum, 32 rump, 32 |
2016 r, 7 w 2016, 6 donald trump, 3 |
w, 44 i, 25 na, 24 trump, 17 |
6423 | 174 | 61 | 950 |
4888.doc.txt | 2.169 | 51.713 | 7.281 | ych , 70 prz, 63 prze, 54 nych, 49 |
danych osobowych, 18 ust 1, 10 r o, 8 |
w, 46 z, 39 danych, 29 o, 28 |
9205 | 386 | 178 | 1296 |
3502-DR-SOC-264571.pdf.txt | 3.851 | 103.026 | 13.957 | ____, 7373 nie , 3410 ych , 2710 p… |
w trakcie, 181 w ramach, 165 się na, 1… |
w, 4114 i, 2910 z, 2153 na, 1669 |
846461 | 31641 | 8216 | 114669 |
Legal.rtf.txt | 5.043 | 83.087 | 12.043 | —-, 14 tion, 13 pro, 12 the, 12 |
this product, 5 of the, 4 corel corpor… |
the, 11 of, 9 and, 9 this, 8 |
1911 | 116 | 23 | 277 |
praca.txt | 2.796 | 110.87 | 15.37 | ych , 25 nie , 23 prz, 18 iecz, 15 |
przede wszystkim, 4 się na, 3 możemy c… |
i, 25 w, 22 na, 14 z, 13 |
5987 | 151 | 54 | 830 |
killswitch.txt | 4.625 | 198.375 | 29.188 | nie , 25 ego , 13 anie, 13 wani, 11 |
za pomocą, 3 portable ssd, 2 usb 2, 2 |
do, 10 z, 8 np, 8 nie, 8 |
3174 | 74 | 16 | 467 |
misja.txt | 3 | 125.059 | 17.882 | nie , 16 nie, 12 prz, 10 jes, 9 |
nie próbujemy, 2 to robisz, 2 jest to,… |
w, 12 nie, 9 to, 8 jest, 7 |
2126 | 51 | 17 | 304 |
tor.txt | 3.127 | 127.152 | 17.785 | nie , 74 ych , 70 nych, 47 nie, 46 |
z tor, 9 związanych z, 8 sieci tor, 7 |
w, 43 z, 39 nie, 37 i, 36 |
10045 | 247 | 79 | 1405 |
w—wniosek-o-rejestracje.pdf.txt | 1.265 | 13.009 | 1.743 | …., 68 .. , 8 adr, 8 adre, 8 |
w formie, 4 w poznaniu, 3 dzienników i… |
w, 15 i, 11 adres, 6 formie, 4 |
1470 | 143 | 113 | 197 |
klasyfikator.txt | 3.6 | 225.9 | 30.6 | nie , 29 ych , 28 nych, 20 prz, 20 |
oparty na, 3 na komputerze, 3 wartości… |
i, 17 na, 14 z, 14 w, 13 |
4518 | 72 | 20 | 612 |
Eula.rtf.txt | 4.488 | 154.557 | 25.284 | the, 517 the , 481 or , 309 you,… |
the software, 176 of the, 79 this eula… |
the, 481 or, 339 of, 257 software, … |
51622 | 1499 | 334 | 8445 |
License.rtf.txt | 2.562 | 67.5 | 10.85 | the, 60 the , 52 you, 43 soft, 40 |
the software, 26 you may, 10 this agre… |
the, 52 you, 32 software, 30 of, 23 |
5400 | 205 | 80 | 868 |
APA_04-2019.pdf.txt | 3.867 | 104.676 | 15.169 | prz, 1194 nie , 1055 prze, 1027 yc… |
2 0, 95 0 1, 91 1 9, 89 |
w, 1357 i, 995 do, 725 z, 672 |
318321 | 11760 | 3041 | 46130 |
misja2.txt | 3 | 125.412 | 17.882 | nie , 16 nie, 14 prz, 10 jes, 9 |
nie próbujemy, 2 to robisz, 2 jest to,… |
w, 12 nie, 9 to, 8 jest, 7 |
2132 | 51 | 17 | 304 |
Historia_PKiN-2.doc.txt | 2.947 | 101.396 | 13.806 | nie , 371 prz, 340 ego , 242 nie,… |
kultury i, 28 pałacu kultury, 26 i nau… |
w, 361 i, 342 się, 222 na, 205 |
91763 | 2667 | 905 | 12494 |
Google_25 marca 2013.doc.txt | 2.54 | 73.74 | 10.9 | pra, 15 ych , 13 się, 13 prac, 12 |
w google, 6 czy jesteś, 5 jesteś wysta… |
w, 18 się, 12 na, 11 i, 8 |
3687 | 127 | 50 | 545 |
Powyższa tabela jest uzupełnieniem artykułu Stylometria: czego używa polska policja? Prezent świąteczny dla naszych czytelników!
i przedstawia podsumowanie badania przykładowego zestawu plików tekstowych za pomocą narzędzia odtworzonego na potrzeby tego artykułu.