InterNet :: Google разчита текст от сканирани документи

Постинг

Обратно към блога | Предишен постинг | Следващ постинг

09.11.2008 11:44 - Google разчита текст от сканирани документи

Автор: inet Категория: Технологии

Прочетен: 2452 Коментари: 0 Гласове:

Последните дни съм доста натоварен, а и посещенията на разни събития като BGsite 2008 ми отнеха известно време и бях поизостанал с четенето на RSS каналите си. Днес наваксвам и попаднах на новината, че Google вече индексира текст от сканирани документи в PDF формат. Определено е напредък към целта цялата информация на света да е индексирана от търсачката им :-)

В какво всъщност се състои проблема и защо не бяха индексирани тези документи досега? Сканираните документи всъщност се запазват като картинки и компютърът принципно няма идея, че картинката визуализира текст. Чрез OCR (Optical Character Recognition) софтуер този текст може да бъде разпознат и извлечен и точно това са направили Google. Единственото, което не разбирам в случая е защо им отне толкова време. OCR и то в доста по-сложни ситуации беше демонстриран в Image Search услугата им преди месеци. Спамърите разбиват капча изображения (CAPTCHA) като това под този постинг от години, с различна успеваемост...

Както и да е, важното е, че индексирането вече е факт, както може да се убедите от тези търсения:

repairing aluminium wiring
steady success in a volatile world

Нагоре