Despre MySQL si soundex

Deci MySQL … Sincer sa fiu, in disputele religioase MySQL vs PostgreSQL, sunt de obicei de partea Postgres, dar fortat de imprejurari in general trebuie sa utilizez MySQL (impotriva bunului meu simt, of course). Anyway, pana acum nu am avut motive chiar asa serioasa sa ma irite MySQL. Pana acum.

De curand intr-un proiect care-l “repar”, aveam o pagina care lista niste aeroporturi in functie de inputul utilizatorului. De exemplu daca introduceai “paris”, respectiva pagina iti lista cele cateva aeroporturi din paris si inca vreo 7 – 8 din lume care erau “asemanatoare” ca nume.

Problema e ca rezultatele erau foarte aiurea in unele cazuri, si nu intelegeam de ce. O scurta privire in codul primitiv si prostesc care domneste in acest proiect mi-a dezvaluit modul destul de simplu in care se facea operatiunea:

in baza de date o tabela stoca o lista de aeroporturi care avea in nume si orasul (utilizatorul urma sa caute dupa oras), si folosind functia SOUNDEX, lista toate inregistrarile alea carui SOUNDEX era identic cu cel al stringului cautat. Destul de normal .. aparent.

SELECT ID,Code,City, Airport, Country FROM airports WHERE Soundex(City) = SOUNDEX(\”$deptArpt\”)

Problema e ca “baietii de la mysql” au hotarat ca nu are sens sa urmeze algoritmul de soundex din manual, ei sunt mai destepti si algoritmul lor nu se opreste dupa 3 numere identificate, ci merge pana la sfarsit. Ideea pare ok, pana iti dai seama ca in felul asta “new york airport” si “new york” au scoruri diferite, which really sux. De aici veneau problemele – soundex este destul de inutil in forma lui initiala.
O posibila rezolvare ar fi sa pastrez doar primele 3 numere si sa le ignor pe restul, ceea ce am si facut. Insa inainte am calculat toate soundex-urile intr-un camp suplimentar  (soundscore) pentru a usura load-ul in timpul functionarii.
O alta problema a fost “similitudinea”. Un SGBD inteligent ca Postgres are o functie care se cheama similarity si care iti returneaza un scor care il poti folosi pentru a regla cate rezultate primesti. MySQL … normal ca nu are asa ceva. Eu aveam nevoie si de acest comportament, asa ca am scos prima litera din rezultatul soundex (care arata ceva de genul P345, unde P e prima litera a stringului), si am facut o comparatie a diferentei intre scorul initial si scorul stringului cautat.
Adica ceva cam asa:

select ID,Code,City, Airport, Country from airports where ABS(CAST(substring(soundex(\”$deptArpt\”), 2) as SIGNED) – soundscore) < 5 AND substring(soundex(\”$deptArpt\”), 1, 1) = soundletter

Ultima comparatie este necesara pentru ca prima litera este esentiala in acest tip de cautare.
Bun asta cam imi rezolva problema, pot stoca rezultatele in soundscore pentru ca lista de aeroporturi este statica. Oricum … MySQL … pula mea …varza.

Spam fun episodul 1

Spamul … spammeri, bineinteles ca ii urasc sincer si din toata inima. Totusi nu pot sa ma opresc sa admir, si sa ma amuz de unele ingenioase rezultate ale acestor eforturi sisifice de a gasi fraieri care sa-ti dea un click la 10^5 email-uri.

In episodul de astazi:

1.

From: Elleree [teredneb1976@truetoons.com]
Sent: Thursday, July 24, 2008 12:34 AM
To: …………………………
Subject: Why Do All These Homosexuals Keep Sucking My Cock

Probabil ca urmarea era un link spre produse care cica iti maresc pula. Sau nu ..

2.

From: Maryansky [Margarita-ierkampf@3d-projection.com]
Sent: Wednesday, July 23, 2008 10:17 PM
To: ………………
Subject: Madonnas Former Home Destroyed By Jesus

Subiectul pare cumva inspirat din South Park, adica ca “atmosfera”.

salvarea filmelor de pe youtube

Youtube a fost intotdeauna mai cu muia in privinta accesului spiderelor, sau salvarii filmelor postate local, o stiu din proprie experienta. La un moment dat aparusera variate plugin-uri de firefox care cateodata mergeau, cateodata nu, pana la urma majoritatea nu mai erau updatate de catre autori si youtube mai schimba cate ceva, ergo nu mai mergeau.

Apoi au aparut site-uri care promiteau downloadul “in background”, urmand ca tu sa ti-l downloadezi de pe site-ul lor. Multe au mers, dar rate de transfer varza -> inutilizabile.

De curand, cu totul intamplator, am gasit un soft free, care merge f bine : realplayer free. Am avut nevoie sa mi-l instalez, nu mai stiu pt ce, si am vazut ca, la filmele youtube in ie imi aparea un hover “download this video”. Care chiar merge …

GET si POST

Postul asta ar trebui citit in primul rand de “baietii de la wordpress”. Se pare ca ei nu au auzit de faptul ca & este folosit in stringul GET ca separator, cel putin de php in care aparent e scris wordpress-ul.

So, daca va uitati parola cumva si dati click pe “lost password”, sunt anumite sanse ca, algoritmul inteligent din spate ca genereaza o cheie random, sa genereze printre caractere si &.
Solutia? Editez in baza de date cheia utilizatorului, ii scot & si intru pe linkul de resetare cu & scos.
Daca va intrebati de ce nu am rescris pur si simplu parola din phpmyadmin, motivul e ca, la prima vedere stringul de acolo nu parea md5 (nu avea lookul de md5), deci mi s-a parut ca probabil folosesc un algoritm custom (sper ca macar e o transformare ireversibila ca md5, nu m-ar mira nimic).

Baietii de la Hotmail?Sa ma suga de pula!

Cam asa ti-as raspunde daca m-ai intreba acum ce parere am de cei care au scris/configurat/decis politica de functionare a serverului de mail hotmail.com. Sa va povestesc de ce …

Ma intorc in timp acum 3 saptamani: pe ansamblu aveam o parerea buna despre Hotmail, chiar daca mi se cam rupea … 5 gb spatiu, interfata web 2.0 ala gmail (chiar mai eleganta as zice eu), etc etc.
Totusi aveam o problema minora cu acesta. O aplicatie mai veche scrisa de mine, care trimite e-mailuri de inregistrare, de confirmare a comenzilor. Aplicatia a fost intarziata destul de mult, dar in sfarsit era aproape de gold, ca  sa zic asa. Mai ramasese de rezolvat o problema minora – unele e-mailuri nu ajungeau la conturile de test de pe hotmail/live. De ce hotmail? Pentru ca potentialii si viitorii clienti se pare ca erau fani, nu era treaba mea de ce, ideea e ca trebuia sa reduc frecventa acestor fenomene.

Initial nu mi-am pus prea mari probleme, eram 99% convins ca e-mailurile ajungeau in junk folder si deci trebuia doar sa mai scot anumite keywords ceva si urma sa se rezolve. Dar .. surpriza … e-mailurile nu ajungeau deloc. Mai grav era ca era random, cateodata ajungeau (in junk) cateodata bine, cateodata deloc.
Inca sigur pe mine, am vorbit cu sysadminul sa-mi confirme ce raspunsuri are de la serverul hotmail pentru cateva e-mailuri care am constatat ca  nu au ajuns: surpriza surpriza, serverul raspundea cu “Sent”.


Jun  2 04:22:57 ZIP1 sendmail[3267]: m52BM8Ki003227: mailto:to=dorel123@live.com, mailto:ctladdr=<censored> (528/100), delay=00:00:14, xdelay=00:00:01, mailer=esmtp, pri=120028, relay=mx1.hotmail.com. [65.54.244.136], dsn=2.0.0, stat=Sent ( <mailto:200806021122.m52BM8Ki003227@ZIP1.censored.com> Queued mail for delivery)

Moment in care am inceput sa caut pe google, si incet, incet o problema de dimensiuni galactice a inceput sa se dezvaluie: hotmail e cu muia. Ca intr-un film prost cu hackeri, pagini dupa pagini de solutii care nu merg, de idei stupide si mai ales disperare se derulau prin fata mea. Se pare ca:

1) serverul de mail utilizat NU suporta RFC. De aia nu zice nimic cand te fute …

2) Microsoft foloseste Symantec BrightMail, un software antispam. Care are prostul obicei de a sterge potentialul spam fara nici un avertisment. De aia nici nu ajunge in spam.

3) Filtrele lor sunt superaiurea, multi se plang de comportament imprevizibil. Probabil ca se mai joaca cu ele, le ajusteaza, dar ideea e ca au mult false-pozitive ceea ce e .. naspa.

Totusi mi-am zis, nu se poate ca Microsoft sa nu fi conceput macar niste solutii pentru asa ceva. Si intradevar, dupa cateva zile am rasuflat usurat: descoperisem  Smart Network Data Services. Acesta ar fi un serviciu prin care poti sa urmaresti ce face Hotmail cu mailurile venind de la un anumit IP(care poti sa-l controlezi), de ce le considera spam, etc . Dar vai … problema e ca dupa ce mi-am facut cont cu ipul serverul de mail, am constatat ca nu merge. Adica nu am nici o valoare .. nicaieri. Si totusi, serverul lor de mail raporta fericit de fiecare data ca a primit mesajul … futui.

Am verificat si incercat de 15k de ori: serverul meu trimite headere calumea, are reverse dns, e trimis prin smtp, userul exista. Nimic. Oricare alt serviciu gratuit nu are nici o pb, chiar si google care le mai baga intr-un timp in Spam.

Singura solutie care se intrevede este mult prea josnica ca sa ma gandesc la ea: microsoft are un “parteneriat” (probabil ca e o firma fantoma) cu o companie care ofera un serviciu de whitelisting. Platesti o suma (1000 $ pe an), si poti sa trimiti un numar de e-mailuri in hotmail si se garanteaza primirea. Dar sa nu fie spam … yeah right. Nu imi vine sa cred ca, avand problemele care le au, au curajul sa-ti ceara bani ca sa poti sa le trimiti e-mailui, e o forma de santaj pe fata.

Asa ca, acum, daca ma intrebati ce parere am despre baietii de la Hotmail o sa va raspund ca-n titlu: sa ma suga de pula!