Tratamento de texto


Texto

Na tecnologia da informação, o texto é qualquer seqüência de caracteres que pode ser lida pelos humanos e as palavras que eles formam podem ser codificadas em formato lido pelos computadores tal como o ASCII. O texto é geralmente distinguido de dados codificado em formato não caracter, tais como; imagens gráficas na forma de mapa de bits (bitmaps) e códigos de programa (referido como "binários" mas que atualmente possuem seu próprio formato lido por computador).

Caracteres

Um caracter é um símbolo imprimível contendo um significado fonético ou pictográfico, geralmente formando parte de uma palavra do texto, descrevendo um numeral ou expressando uma pontuação gramatical. Na tecnologia da informação atual, um caracter é geralmente um num número limitado de símbolos, incluindo as letras de um alfabeto de uma linguagem particular, os números em um sistema de numeração decimal e certos símbolos especiais tais como &, @. Diversos padrões de codificação no computador tem sido desenvolvidos para os caracteres. Existem também símbolos gráficos ("glyphs") que têm a aparência ou forma de um caracter. Um "glyph" pode ser uma fonte alfabética ou numérica ou algum outro símbolo que represente pictograficamente um caracter codificado.

O ASCII (American Standard Code for Information Interchange) é o formato de texto mais comum nos computadores e na Internet desenvolvido pela American National Standards Institute (ANSI). Num arquivo no formato ASCII, cada caracter alfabético, numérico ou caracter especial é representado com um número binário de 7 bits (uma seqüência de sete 0s ou 1s). São definidos 128 caracteres possíveis. Em sistemas operacionais como UNIX ou baseados em DOS (exceto Windows NT) usa-se arquivos ASCII para arquivos texto.

O Windows NT utiliza um código denominado Unicode. O Unicode é a codificação binária para textos ou caracteres de linguagens de roteiros ("scripts"). Um script é um programa ou seqüência de instruções que é interpretada ou executada por outro programa ao invés do processador do computador (assim como um programa compilado).

Oficialmente denominado de Worldwide Character Standard, o Unicode é um sistema para "intercâmbio, processamento e visualização de textos" escritos em diversas linguagens. Atualmente, o Unicode padrão contém cerca de 34.168 caracteres distintos codificados e derivados de 24 linguagens de scripts. Estes caracteres cobrem as principais linguagens escritas no mundo.

Pixel

Pixel (contração de "picture element") é a unidade básica de cor programável em uma tela de computador ou numa imagem. É uma unidade lógica e não física. O tamanho físico de um pixel depende de como é ajustada a resolução na tela do computador. Se a tela é ajustada para uma resolução máxima, o tamanho físico do pixel será igual ao tamanho físico de um ponto na tela ("dot pitch" , que às vezes é denominado tamanho do ponto ou "dot size"). Se todavia, o ajuste da resolução for algo bem menor do que a resolução máxima, o pixel será maior do que o tamanho físico do ponto na tela (isto é, o pixel será bem maior do que um ponto).

A cor específica de cada pixel descreve a mistura de três componentes do espectro de cores - vermelho, verde e azul ("red, green and blue" - RGB). Até três bytes de dados são alocados para especificar a cor de um pixel, um para cada cor. Uma fonte de um sistema de 24 bits de cores ou "true color" usa todos três bytes. Inicialmente, a maioria dos sistemas de telas a cores usava oito bits (oferecendo 256 cores diferentes). Atualmente é possível ter mais de um milhão de cores.

Bitmaps

Um mapa de bits define um espaço e a cor para cada pixel ou bit no espaço visual. Um arquivo bitmap indica uma cor para cada pixel ao longo de um eixo horizontal ou linha (denominado coordenada x) e uma cor para cada pixel ao longo de um eixo vertical (denominado coordenada y). Arquivos GIF e JPEG são exemplos de tipos de imagens gráficas que contém mapa de bits. Um bitmap não necessita conter um bit de informação codificada a cores para cada pixel em cada linha. Ele necessita somente conter informação indicando uma nova cor exibindo-a ao longo de uma linha. Portanto, uma imagem com uma cor muito sólida tende a necessitar de um pequeno mapa de bits.

Fontes

Uma fonte é um conjunto de caracteres visualizáveis ou imprimíveis como caracteres de texto em um estilo e tamanho específicos. O desígnio para um conjunto de fontes é sua "typeface" e suas variações formam uma "typeface family". Portanto, Helvetica é a "typeface family" e Helvetica itálico é a "typeface", e Helvetica, itálico, 10 pontos é a fonte. Na prática, os termos fonte e "typeface" são sempre usados sem muita precisão.

Um "outline font" é um programa de "typeface" que pode gerar fontes de tamanho e escalas diferentes. Uma fonte bitmap é a representação digital de uma fonte que existe em tamanho fixo ou um conjunto limitado de tamanhos. A maioria dos programas "outline font" são TrueType e Adobe's Type 1. As fontes TrueType tornaram-se padrão em sistemas Macinstosh e Windows. Todavia, a Type1 é uma "outline font" padrão ISO 9541. Ambas, TrueType e Type1 podem ser usadas por impressoras PostScript (impressoras que utilizam a linguagem PostScript). Independentemente, os desenvolvedores e projetistas gráficos criaram novas "typefaces"para TrueType e Type 1, segundo a Adobe existem cerca de 30.000 fontes Type 1 disponíveis no mercado.

Editor de texto

Um editor de texto é um programa de computador no qual o usuário entra com texto, muda, armazena e geralmente imprime este texto (caracteres, números, cada qual codificado pelo computador em seus dispositivos de entrada e saída, arranjados para ter um significado ao usuários ou outros programas). Tipicamente, um editor de texto oferece um tela "vazia" (ou "página de rolagem") com uma linha de tamanho fixo e uma linha vísivel de números nas quais o usuário pode preencher com texto, linha por linha. Alguns comandos especiais de linha permitem, por exemplo, a mudança para uma nova página, a rolagem para frente e para trás do texto, fazer mudanças globais no documento, salvar o documento e desenvolver outras ações. Após o salvamento de um documento, este pode ser visto e então impresso. Antes da visualização ou da impressão ele pode ser formatado para um dispositivo de saída específico ou para uma classe de dispositivos. Os editores de texto também podem ser usados para o desenvolvimento de código-fonte de um programa em uma determinada linguagem de programação ou para criar documentos tais como manuais técnicos.

Um editor de texto muito popular da IBM muito utilizado em computadores de grande porte (mainframes) é o XEDIT. Em sistemas UNIX, dois são muito utilizados: Emacs e vi. Em computadores pessoais, os processadores de palavras são mais comuns que os editores de texto. Todavia, existem variações de mainframes e de editores de texto baseado em UNIX que são oferecidos para uso em computadores pessoais. Um exemplo é o KEDIT, que é basicamente o XEDIT para Windows.

Processador de palavras

Um processador de palavras é um programa de computador que oferece capacidades especiais além de um editor de textos e geralmente oferece uma interface gráfica ao usuário. O termo originou-se da distinção de editores denominados "fáceis de usar" e editores convencionais sugerindo-se que o programa é mais do que apenas um "editor". Um exemplo deste tipo editor foi o Wang, que popularizou-se em estações de trabalho e era designado especialmente para secretárias ou para quem criava cartas comerciais e outros documentos. O processador de palavras mais populares são o WordPerfect e Microsoft Word.

Em geral, os processadores de palavras mostram na tela do usuário sua formatação estrutural ou de impressão (embora o WordPerfect e outros processadores opcionalmente mostram a formatação inseridas no texto). Sem as marcas de formatação é possível descrever um processador de palavras como tendo uma interface para usuário do tipo WYSIWYG (what you see is what you get).

Editores WYSIWYG (what you see is what you get)

Um editor ou programa WYSIWYG permite o desenvolvimento do conteúdo através de uma interface gráfica com o usuário (GUI) na qual este pode ver o resultado de sua criação enquanto o conteúdo é criado. Um editor WYSIWYG pode ser contrastado com editores de desenvolvimento de códigos descritivos que não permitem ver os resultados imediatamente.

Por exemplo, páginas em HTML podem ser desenvolvidas em editores de texto simples (por exemplo, Bloco de Notas do Windows) onde o desenvolvedor insere códigos da Linguagem HTML para obter a formatação (tipo de caracteres, alinhamentos, etc.) ou podem ser desenvolvidas utilizando editores WYSIWYG que geralmente possuem comandos de formatação em uma interface gráfica. O resultado é visto imediatamente em termos de como o conteúdo aparecerá quando estiver finalizado pelo usuário (por exemplo, utilização do Netscape Composer para criar páginas em HTML). Uma limitação dos editores WYSIWYG é a dificuldade de se fazer ajustes finos na formatação.

As marcas de formatação (markup) refere-se a uma seqüência de caracteres ou outros símbolos que podem ser inseridas em um texto ou no arquivo do processador de palavras para indicar como o arquivo deveria se parecer quando fosse visualizado ou impresso, ou para descrever a estrutura lógica do documento. Os indicadores de markups são denominados "tags". Por exemplo, um parágrafo particular precedido por um:

<p> (ou de tag parágrafo)

será separado por um linha vazia da linha que o precede.

A padronização da definição de marcas para a estrutura do documento (ou sua real descrição de como podem ser definidas as marcas) estão na Standard Generalized Markup Language (SGML).

As marcas podem ser inseridas pelo criador do documento diretamente digitando os símbolos, ou usando um editor e selecionando pacotes pré-preparados de símbolos markup ou pelo uso de editores sofisticados que permite criar documentos usando editores WYSIWYG.

Editores de Texto baseados em UNIX

Existem diversos editores de texto para UNIX mas três são comumente usados: vi, emacs e pico. Geralmente são utilizados através da digitação do nome do editor seguido do nome do arquivo a ser editado.

- vi ("visual interface")

O vi é o editor de texto baseado em UNIX muito utilizado. Ao contrário da maioria das interfaces de outros editores de texto, ele permite o controle usando o teclado ao contrário da combinação de teclas e seleções de mouse. A simplicidade da interface a torna útil para programadores editarem códigos fonte de programas.

- Emacs

Emacs (derivado de "Editing MACRoS") foi criado por Richard Stallman do MIT. É um popular editor de texto usado principalmente em sistemas baseados em UNIX por programadores, cientistas, engenheiros, estudantes e administradores de sistemas. Assim como qualquer outro editor de texto UNIX, o Emacs oferece comandos e combinações de teclas que permitem adicionar, apagar, inserir, manipular palavras, letras, linhas e outras unidades de texto. O Emacs é geralmente usado para escrever códigos fonte de programas. O Emacs foi construído usando a linguagem de programação LISP, assim, os usuários podem extendê-lo ou personalizá-lo usando a mesma linguagem. Uma versão muito utizada é denominada GNU Emacs, que oferece uma lista muito mais longa de comandos do que o editor vi e a capacidade de extensão.

- Pico

Pico é um bom editor para iniciantes, ele se parece com o Pine (programa de e-mail). A maioria dos comandos são mostrados na parte superior da janela que facilita a referência. O Emacs utiliza muito comandos do Pico.

Formatadores de Documentos

Os formatadores de documentos são programas que auxiliam a criação de documentos com justificação, itálico, notas de rodapé, negrito, tabelas de conteúdo automáticas, índices, etc. Geralmente, isto é feito criando um arquivo contendo comandos de formatação (usando EMACS ou outros editores) e então formatando o arquivo com um programa de formatação. Finalmente, a saída do formatador pode ser impressa.

Exemplo:


Bibliografia

Microsoft Word 97 and Corel WordPerfect 8 Comparing Strengths for Legal Practice

GNU Emacs FAQ.

UNIX Text Editors

Cyclic Software

The Unicode home page

Truetype typography history and resources

Typographic Information

Frederick W. Goudy's chapter on "Type"

The Winn L. Rosch Hardware Bible

How Computers Work