domingo, 29 de julho de 2012

Por que UTF-8 e não ASCII para o Português? (PARTE I)

Um outro post que fiz na Python-Brasil:

Os colegas já falaram sobre o por quê do UTF-8.

Eu gostaria apenas de lembrar que o assunto é mais complicado do que parece, por exemplo no Python 2.7:
# -*- coding: utf-8 -*-
print "Acentos: áéíóúãõç"
print u"Acentos2: áéíóúãõç"


Execute o programa acima no Windows, pode ser pelo IDLE ou pelo console:

C:\Users\nilo\Desktop>\Python27\python.exe test.py
Acentos: ├í├®├¡├│├║├º├ú├Á
Acentos2: áéíóúçãõ


Você deve ter obtido bons resultados apenas na linha do Acentos2. Se a string não é marcada com unicode, vai ser simplesmente impressa como uma sequência de bytes, sem tradução. Se tiver o u na frente, como em acentos2, o Python saca que precisa traduzir de unicode para cp850, no caso do console aqui de casa. Já no Linux, as duas linhas produzem resultados corretos!

O encoding: utf-8 informa apenas a codificação do código fonte. Ou seja, é apenas uma dica de como os caracteres deveriam estar codificados. Para que funcione corretamente, seu editor de texto tem que estar configurado para UTF-8 também. Se misturar, é desastre na certa. Eu recomendo o PSPad no Windows para editar com UTF-8. Para verificar o encoding de um arquivo que você não conhece, ou para ter certeza de qual codificação seu editor realmente utilizou, use um visualizador binário como o HxD [3]. No hex edit do PS Pad, atenção que ele mostra os caracteres em Unicode, mesmo se a codificação for UTF-8. Isso para lembrar que UTF-8 é uma representação ou forma de codificação de caracteres Unicode. O Notepad++ pode também ser usado para editar e codificar arquivos em UTF-8.
No Mac e no Linux, tente o hexdump -C arquivo
Quando o arquivo esta codificado corretamente em utf-8, você deve ter mais de um byte para os caracteres acentuados.

Por exemplo, o programa acima, criado no vim do Ubuntu:
nilo@linuxvm:~$ hexdump -C test.py
00000000  23 20 2d 2a 2d 20 63 6f  64 69 6e 67 3a 20 20 75  |# -*- coding:  u|
00000010  74 66 2d 38 20 2d 2a 2d  0a 70 72 69 6e 74 20 22  |tf-8 -*-.print "|
00000020  41 63 65 6e 74 6f 73 3a  20 c3 a1 c3 a9 c3 ad c3  |Acentos: .......|
00000030  b3 c3 ba c3 a3 c3 b5 c3  a7 22 0a 70 72 69 6e 74  |.........".print|
00000040  20 22 41 63 65 6e 74 6f  73 32 3a 20 c3 a1 c3 a9  | "Acentos2: ....|
00000050  c3 ad c3 b3 c3 ba c3 a3  c3 b5 c3 a7 22 0a 0a     |............"..|
0000005f


Um site bacana é esse aqui: http://www.utf8-chartable.de/

Uma vez resolvido o problema de codificação dos fontes, restam ainda:
* A codificação do console
* A codificação dos arquivos de dados
* Codificação do banco de dados

Tanto o Mac quanto Linux usam UTF-8 por padrão. O Windows usa a cp 1252 (GUI), compatível com iso8859_1. Cuidado também se você troca arquivos entre máquinas Windows, Linux e Mac. E nunca misture duas codificações no mesmo arquivo, pois isto gera erros difíceis de detectar e resolver.
É fácil misturar quando se faz append em um arquivo, vindo de outra máquina ou mesmo gerado em um outro programa.
O Windows em chinês, russo e outras línguas não utilizam a cp1252! Por isso UTF-8 é uma boa pedida, pois consegue codificar caracteres Unicode com um ou vários bytes, dependendo da necessidade.

O Python 3 resolve muito destes problemas, mas a documentação diz[1]:


Files opened as text files (still the default mode for open()) always use an encoding to map between strings (in memory) and bytes (on disk). Binary files (opened with a b in the mode argument) always use bytes in memory. This means that if a file is opened using an incorrect mode or encoding, I/O will likely fail loudly, instead of silently producing incorrect data. It also means that even Unix users will have to specify the correct mode (text or binary) when opening a file. There is a platform-dependent default encoding, which on Unixy platforms can be set with the LANG environment variable (and sometimes also with some other platform-specific locale-related environment variables). In many cases, but not all, the system default is UTF-8; you should never count on this default. Any application reading or writing more than pure ASCII text should probably have a way to override the encoding. There is no longer any need for using the encoding-aware streams in the codecs module.

A parte que sublinhei diz: "... o padrão do sistema é UTF-8; você não deve contar nunca com este padrão..."
Resumindo, é um assunto que merece ser estudado, pois causa problemas  "mágicos" que sempre aparecem.

Um texto que explica tudo com detalhes pode ser encontrado em [2].

[]

Nilo Menezes
[1] http://docs.python.org/release/3.0.1/whatsnew/3.0.html
[2] http://wiki.python.org.br/TudoSobrePythoneUnicode
[3] http://mh-nexus.de/en/hxd/

quarta-feira, 25 de julho de 2012

Por que aprender várias linguagens de programação?

Outro post da lista Python-Brasil, onde se discutia qual a melhor linguagem para se aprender a programar:


Eu concordo que Python é uma ótima linguagem como primeira linguagem de programação.
Mas nem tudo é Hello World e muitas vezes o professor ou o coordenador do curso ensaiam de apresentar Java ou C++... para facilitar cursos futuros. Exemplo: apresentam um Java troncho em ICC para depois afinar num curso de OO. Outros por não conhecerem Python ou descartarem Python por ser script.

Algumas faculdades são também assombradas por fatalistas que pregam o ensino de linguagens do mercado. Quando fiz faculdade, em aprendi Pascal, C, Java, Modula, Prolog, Assembly do MIPS e outros bichos. Nenhuma destas linguagens foi ensinada diretamente, mas no contexto das disciplinas de ICC, estruturas de dados, sistemas operacionais, etc. Já na época tinha fantasma dizendo que deveríamos aprender Word e outros praguejando Prolog. O esquema era que deveríamos aprender as linguagens sozinhos, eles só nos davam um bom motivo :-D

Eu fiz faculdade depois de já estar trabalhando, depois de um curso técnico em informática... 18 anos depois eu tenho uma visão pessoal. Acredito que o melhor mesmo é aprender e ter contato com o maior número possível de linguagens na faculdade. De preferência, linguagens com paradigmas diferentes.

Python é muito boa, mas se for a única, estaremos repetindo o mesmo erro.

Eu acredito que só programar numa linguagem é como falar apenas uma língua.

Eu defendo Python como primeira linguagem por ser uma das mais fáceis de aprender.
Além disso,  a taxa de retorno do Python é excelente. Você consegue premiar o aluno, pois este fica contente em saber que consegue fazer algo útil sozinho. Com C, muitos desistem, pois o esforço inicial é grande e a impressão é que o trabalho não rende.

ICC com Java ou C++ é terrorismo :-D

terça-feira, 24 de julho de 2012

XML-Man

De todos os super-heróis que vivem na ilha de Java, o mais perigoso é o XML-Man.

XML-Man resolve tudo com a herdeira do SGML, prima do HTML. Tudo, tudo. Se fosse possível, escreveria programas Java em XML também. O poder de XML-Man é de criar ferramentas de configuração e gerenciamento que você não precisaria se não tivesse que escrever tudo em XML.


sábado, 21 de julho de 2012

Certificados e diplomas em informática

Esta foi a resposta que dei num post na lista Python-Brasil sobre a importância de certificados.

Há alguns anos eu contratei mais de 100 profissionais de informática... desenvovedores C++, Java, testadores etc. Durante este período, eu aprendi a não confiar em diploma algum.

Eu contratei gente vinda de faculdade particular muito melhor que de faculdades federais ou estaduais, embora esta não fosse a regra, mas a exceção. Se a pessoa que contrata é a mesma que vai trabalhar com você, por exemplo seu futuro chefe, ele procura alguém que resolva os problemas dele, diploma e certificado ele deixa para o RH ver :-D. Eu conheci muita gente boa que nem faculdade tinha, mas são casos raros e não a regra. Para algumas posições de TI, faculdade é luxo... para outras é absolutamente necessário. Eu sei que para administração de redes, certificação é fundamental.

A questão de diploma/certificados aparece quando você tenta trabalhar numa empresa maior onde:

a) Alguém do RH ou empresa externa vai fazer a pré-seleção para o pessoal de TI. Neste caso, a primeira seleção é quase mecânica com um check list do CV: tem faculdade? É de informática ou engenharia? trabalha há quantos anos... etc. Normalmente o RH não arrisca passar um CV para entrevista se nem tiver encontrado alguns pré-requisitos. Algumas empresas tem mesmo cotas de qualidade e escolarização, onde uma determinada porcentagem tem que ter mestrado, doutorado ou graduação. Onde eu trabalhei, nosso cliente pedia um inventário de talentos e diplomas. Neste caso, é importante aparecer a palavra Python, seja na sua experiência, ou mesmo no nome de um curso que você fez (mais abaixo).

b) A pessoa recebe um número excessivo de CVs para a mesma vaga, na época eu recebi mais de 2200. Neste caso, ela vai fazer um pesquisa como o pessoal de RH. Normalmente se privilegia experiência nesses casos, mas sem os diplomas, depende muito. No meu caso, minha secretária era professora de inglês. Eu passava uns CVs pré-selecionados para ela, ela ligava, fazia um teste por telefone e filtrava os CVs que eu deveria chamar para entrevista, sorte minha.

Eu comecei a trabalhar cedo com informática (início dos anos 90) e até meus 28 anos eu não tinha diploma universitário. Ná época, o importante para mim era ganhar dinheiro. Consegui ótimas vagas em empresas pequenas, apenas com um diploma do curso técnico. Nunca fiz certificação alguma. Nunca trabalhei em mega-empresas, pois o salário dependia da formação e nunca era bom para mim (pagavam menos).
Depois eu me formei e fiz mestrado. Valeu muito a pena na hora de trabalhar fora, pois para ter permissão de trabalho o diploma é obrigatório (pelo menos na Bélgica). Aqui, nem de certificação ouço falar, mas um "engenheiro" passa 5 anos na faculade em tempo integral. Aqui já se sai mestre. Escrevi "engenheiro", pois aqui esta palavra praticamente substitui o nosso graduado.

Como você mesmo disse, toda forma de adquirir conhecimento é importante. Se eu morasse em SP, eu assistira o curso do Luciano, tenho certeza que o networking e os bizus de Python apareceriam, independente do meu nível de formação ou experiência. Um curso online pode ser muito bom, mas depende muito. Eu fiz uns no Cursera, uns excelentes e outros que não consegui nem chegar ao fim. Tudo depende, só de experimentar já se aprende muito.

Quanto a certificado de curso livre, sinceramente, nunca serviram para nada, na minha experiência. Se for fazer o curso, faça para aprender. O certificado só serve para o RH fazer o tal  inventário de talentos mais tarde e se para isso servir. Eu tenho maior orgulho de um curso de programação Basic I que fiz em 86... mas nunca tive oportuinidade de usá-lo, ficou como recordação mesmo.

Se eu voltasse a contratar hoje, eu daria preferência para pessoas que saibam aprender sozinhas. Seja com livros, cursos presenciais ou on-line, mas alguém que se vire para aprender um assunto. Nessa lista, vale até que aprendeu Python lendo a documentação on-line que é ótima. Mas se eu tivesse que escolher entre dois candidatos com experiência equivalente, mas um formado e outro não, o com diploma teria a vaga.

Três coisas são importantes num CV: experiência, formação superior e em alguns casos certificações.

Cursos livres eu não colocaria nem no CV. Salvo se o CV estiver muito magrinho. Se o curso foi de Python, é mais importante dizer que sabe e que ja fez X, Y e Z com a linguagem. O curso livre pode aparecer na entrevista. O networking do curso pode ajudar mais que o curso em si, mas lembre-se que isso pode ser uma faca de dois gumes, pois estas pessoas lembrarão de como você se comportou no curso, nos intervalos, etc.

Resumindo, eu faria um curso online, independente do certificado, se quisesse acelerar o aprendizado de uma linguagem/assunto. Mas não ficaria só por ai.

terça-feira, 17 de julho de 2012

De volta à Alemanha

Comecei meu estágio em Braunschweig... 10 anos depois de Munique, me deparo com problemas bem diferentes. Munique é uma cidade grande... Braunschweig tem 250 mil habitantes. A estrutura é muito boa, mas diferentemente de Munique, só com inglês você não faz tudo :-(
10 anos mais velho, aprender alemão deixa de ser tão divertido. A falta de novidades faz tudo virar rotina bem rápido. Pelo menos está chovendo menos que em Mons :-D