Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Введення (сканування, фотографування) в комп’ютер текстів та графіки



 

Мета: навчитись використовувати сканер та цифровий фотоапарат для введення текстів та графіки в комп’ютер, навчитись комп’ютерному розпізнаванню текстів.

 

ЗАВДАННЯ

 

  1. Сканування зображень (програма HP Photo&Imaging)

1.1. Зісканувати кольорову фотографію в автоматичному режимі та параметрами «за замовчуванням»;

1.2. «Пре-сканувати» кольорову фотографію та поекспериментувати з параметрами (роздільна здатність, зміна розміру зображення, яскравість, чіткість, кольори...);

1.3.Зісканувати сторінку з текстом англійською, німецькою, або французькою мовою, зберегти для розпізнавання на наступній лабораторній.

Фотографування та перенесення в комп’ютер зображень

2.1.Сфотографувати текст декілька разів з різними параметрами (спалах, відстань, освітлення, фокусування);

2.2.Перенести в комп’ютер засобами Windows та зберегти для розпізнавання в наступній частині лабораторної роботи.

3. Комп’ютерне розпізнавання текстів.

3.1. Розпізнавання простого тексту

3.1.1.Відкрити малюнок, який містить зісканований текст

File -> Open PDF/Image

3.1.2.Вибрати мови, які використані на малюнку.

Process -> Tools -> Options

3.1.3.Розпізнати текст в автоматичному режимі

Process -> Read

3.1.4.Проаналізувати помилки, зберегти розпізнаний текст у файл.

3.1.5.Очистити виділені блоки розпізнавання на малюнку

Image -> Delete all Blocks and Text

Попробувати різні команди з меню Image для покращення якості малюнка, щоб добитись якнайкращого розпізнавання тексту (вирівнювання рядків – Straighten Text Lines; виправити недоліки, які виникли при скануванні з малою роздільною здатністю - Correct Resolution; почисти малюнок від сміття - Despeckle Image; вибрати частину малюнка для розпізнавання - Draw Recognition Area).

3.2. Розпізнавання тексту зі складною структурою.

3.2.1.Відкрити pdf файл (малюнок), який містить текст з малюнками, таблицями, формулами:

File -> Open PDF/Image

3.2.2.Вибрати мови, які використані у тексті:

Process -> Tools -> Options

3.2.3.Розпізнати текст в автоматичному режимі:

Process -> Read

3.2.4.Проаналізувати помилки, зберегти розпізнаний текст у файл.

3.2.5.Очистити виділені блоки розпізнавання:

Image -> Delete all Blocks and Text

3.2.6.Виділити блоки в ручному режимі:

Process -> Read -> Analyze Layout

3.2.7.Перегляньте, чи всі блоки правильно виділені (текст, таблиця, малюнок). Якщо, наприклад, таблиця виділена неправильно, то видаліть виділення цього блоку, виберіть:

Image -> Choose a Tool -> Draw Table Block

і виділіть таблицю.

3.2.8.Після виправлення всіх блоків знову розпізнайте текст і проаналізуйте помилки.

3.2.9.Напишіть висновки про можливості програми для напівавтоматичного розпізнавання текстів та її використання для аналітичної діяльності.

КОНТРОЛЬНІ ЗАПИТАННЯ

  1. Які пристрої використовують для введення текстів та графіки в комп'ютер?
  2. Які основні вузли пристроїв, що використовують для введення текстів і графіки в комп'ютер?
  3. Що визначає якість зображення (роздільну здатність, передачу кольорів та градації сірого, відсутність “шумів” і спотворень та ін.)?
  4. Яка відмінність між CIS (contact image sensor) та ORS (optical reduction sensor) (їх ще називають CCD - Charge-Coupled Device)? Які їх основні переваги та недоліки?
  5. По яких програмних інтерфейсах підключають пристрої вводу зображень до комп'ютера?
  6. Які програмні продукти для розпізнавання текстів ви знаєте?
  7. Який текст (зісканований, чи сфотографований з однаковою роздільною здатністю) легше розпізнати? Чому?
  8. Як залежить якість розпізнавання тексту від роздільної здатності зображення?
  9. Як залежить швидкість сканування від роздільної здатності зображення?
  10. Навіщо у програмах для розпізнавання потрібні словники?
  11. Як можна змінювати тип об'єкта розпізнавання (звичайний текст, таблиця, рисунок) у ABBYY FineReader?

ЛАБОРАТОРНА РОБОТА №2(3 години)

Комп’ютерний аналіз текстів. Контент-аналіз.

Мета.Ознайомитись з інформаційними системами та інформаційними технологіями автоматизованого аналізу тексту, зокрема, контент-аналізу.

Теоретичні відомості.

Контент аналіз (КА) – це сукупність методів для аналізу джерел інформації та виявлення явного та неявного змісту (суті) інформації.

КА є досить широким поняттям. Наприклад, Ви проводите КА, коли читаєте статтю в газеті і стараєтесь зрозуміти, що хотів розказати автор статті, що спонукало його написати статтю, чи можна довіряти прочитаному. Більш детально про КА можна прочитати в Іванов, 2007; Федоренко, 2007; Шалак, 2007 (дивіться також інші файли в папці KontentAnaliz).

Для для допомоги проведення КА розроблено цілий ряд інформаційних систем (ІС). ІС допомагають виявити кількісні та якісні характеристики інформації, на основі яких дослідник робить свої висновки. Використання ІС особливо допомагає, коли необхідно проаналізувати великий масив інформації. Огляд ІС для КА можна знайти в Lowe, 2007.

Пропонуємо три ІС для КА, які є безкоштовними: ВААЛ-Міні для аналізу фонетичного впливу статей (http://www.vaal.ru) – робота з текстами російською та українською мовами; TextAnalyst для семантичного аналізу текстів та автоматичного реферування (www.analyst.ru) – робота з текстами російською мовою; та TextStat для «простого» (статистичного) КА (http://www.niederlandistik.fu-berlin.de/textstat/) – робота з текстами англійською, німецькою та голландською мовами.

Хід роботи

1. Підготувати два текстові документи (статті) російською мовою, два документи (статті) українською мовою у форматі rtf (reach text format) та txt, і два документи (статті) англійською або німецькою мовою у форматі txt для подальшого аналізу. Запишіть підготовлені статті у свою папку.

2. Аналіз фонетичного впливу статей за допомогою інформаційної системи (ІС) ВААЛ-Міні.

2.1. Запустити програму ВААЛ-Міні або MS Word.

2.2. Ознайомитись з роботою програми ВААЛ-Міні по оцінці фонетичного впливу окремих слів.

2.3. Відкрити по одній статті українською та російською мовою за допомогою програми ВААЛ-Міні (працює з документами у форматі txt), або MS Word, по черзі.

2.4.Проаналізувати фонетичний вплив статей за допомогою ІС ВААЛ-Міні (натиснути кнопку аналізу, відповідно до мови та типу (слово, чи текст)).

2.5.Скласти речення (підібрати слова), яке б відповідало бажаному фонетичному впливу.

2.6.У висновку написати свою думку про можливості оцінки фонетичного впливу та її потенційне застосування.

3.Семантичний аналіз тексту за допомогою ІС TextAnalyst (www.analyst.ru).

3.1.Запустити програму TextAnalyst.

3.2.Відкрити по черзі статті російською мовою (працює з документами у форматі txt та rtf).

3.3.Для кожної відкритої статті провести семантичний аналіз (робиться автоматично при відкритті документа) та переглянути (і зрозуміти) результати в закладках «Структура» та «Дерево».

3.4.Повести асоціативний пошук в документі.

3.5.Створити реферат і проаналізувати його якість (чи зуміла ІС передати основний зміст статті).

3.6.Експортувати семантичну схему статті в HTML, записати файл у свою папку, відкрити файл програмою Internet Explorer та переглянути як семантична мережа відображена гіперпосиланнями.

3.7.У висновку написати свою думку про можливості ІС та для чого її можна застосовувати.

4. Контент аналіз (статистичний) тексту.

4.1.Запустити програму TextStat (http://www.niederlandistik.fu-berlin.de/textstat/).

4.2.Створити новий «Corpus» та записати його у свою папку.

4.3.Добавити новий документ – статтю англійською мовою, натиснувши кнопку “Add Local File” (працює з документами у форматі txt).

4.4.Провести аналіз частоти використання різних слів у тексті, переключивши на закладку “Word Form” і натиснувши кнопку “Frequency List”. Проаналізувати отриманий список слів та частоти їх появи; попробувати різні опції створення списку.

4.5.Провести аналіз по ключовому слову (Concordance).

4.6.У висновку написати свою думку про можливості ІС та для чого її можна застосовувати.

5.Написати висновок

 

Література

Lowe (2007) Software for Content Analysis – A Review. http://www.ou.edu/cls/online/lstd5913/pdf/rev.pdf

Іванов (2007) Формалізовані методи вивчення мас-медіа. Інститут журналістики http://www.journ.univ.kiev.ua/

Ньюман Л. Неопросные методы исследования// Социологические исследования.- № 6. - 1998.- С.119-129

Федоренко (2007) Контент-аналіз як метод дослідження впливу демінутивних формантів на емоційно-оцінне забарвлення газетних текстів (на матеріалі молодіжної преси) http://www.journ.univ.kiev.ua/

Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. – Рівне.: "Перспектива", 2006. – 203 с.

Опорний конспект лекцій з дисципліни “Формалізовані методи дослідження ЗМК” для студентів спеціальності 7.030404 "Міжнародна інформація" /Б.М.Юськів. – Рівне: РІС КСУ, 2003. – 56 с.

 

 

КОНТРОЛЬНІ ЗАПИТАННЯ

  1. Що таке контент-аналіз? Чим відрізняється контент-аналіз від “статистики” вживання слів в тексті?
  2. Які програмні продукти для проведення контент-аналізу ви знаєте?
  3. Які особливості застосування програм контент-аналізу ВААЛ-Міні, TextAnalyst та TextStat?
  4. Наскільки правильно, на вашу думку, ВААЛ-Міні визначає фонетичний вплив слів та речень?
  5. З якими мовами працює програма TextAnalyst?
  6. Яким чином можна використовувати TextAnalyst для аналізу текстів?
  7. Яке значення мають піктограми “риби”, їх величина та цифри біля них?
  8. З якими мовами працює програма TextStat?
  9. Для чого, на вашу думку, потрібні функції “Frequency List”, “Concordance” та “Citation” у програмі TextStat?

ЛАБОРАТОРНА РОБОТА № 3(3 години)

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.