07.12.2004 18:28
Новости.
Просмотров всего: 9235; сегодня: 2.

Fact Extractor - новое слово в аналитической обработке текста на русском языке

Компания Гарант-Парк-Интернет объявляет о выходе первой версии программы RCO Fact Extractor - персонального приложения для Windows, которое предназначено для аналитической обработки текста на русском языке.

Основная сфера применения программы – это задачи из области компьютерной разведки, требующие высокоточного поиска информации, например, автоматический подбор материала к досье на целевой объект или же мониторинг определенных сторон его активности, освещаемых в СМИ.

Fact Extractor способен отыскать в тексте описания фактов различного типа, связанных с интересующими объектами - персонами и организациями, и классифицировать их. Программа позволяет не только найти фрагменты текста, в которых говорилось, например, о поездках персоны, ее встречах, заключении договоров, сделках купли-продажи, но и точно определить все места поездок, визави и контрагентов, наименования товаров и прочее.

Программа работает в среде Windows 2000 и выше и позволяет обрабатывать документы в популярных текстовых форматах из различных источников - файловой системы, заданных web-сайтов, базы данных.

Результат работы программы – таблица, которая содержит информацию о найденных фактах, связанных с объектами мониторинга, и может экспортироваться в html-формат для формирования отчета или для загрузки в стороннее приложение, работающее с уже структурированными данными.

Fact Extractor – это интеллектуальная программа для высокоточного избирательного анализа информации, поэтому она предполагает настройку шаблонов для поиска и классификации фактов самых различных типов. Такие специализированные шаблоны либо приобретаются отдельно, либо создаются пользователем самостоятельно при помощи дополнительной программы Fact Tuner. Тем не менее, даже стандартные шаблоны, включенные в комплект поставки Fact Extractor, позволяют распознавать огромное количество самых разнообразных фактов, но без детальной классификации, т.е., попросту находить события, в которых участвует целевой объект, и извлекать из текста всех прочих фигурантов этих событий, без детализации их ролей. С учетом уникальных механизмов выделения и отождествления различных обозначений объектов в тексте, даже эти стандартные возможности делают Fact Extractor незаменимым поисковым инструментом в тех случаях, когда поиск ведется по персонам и организациям.

Выпуск нового продукта прокомментировал руководитель направления RCO компании “Гарант-Парк-Интернет” Владимир Плешко:

“Наша компания уже около четырех лет занимается разработкой специализированного программного обеспечения в области компьютерной лингвистики. За это время лингво-аналитические компоненты были успешно введены в эксплуатацию в корпоративных системах ряда силовых ведомств и коммерческих структур. Почему мы решили создать персональную систему? Дело в том, что несмотря на интенсивное развитие ИТ-индустрии в России, подавляющее большинство аналитических, маркетинговых отделов и служб безопасности компаний осуществляют обработку текстовой информации, связанной с интересующими объектами, практически вручную. Они вводят запрос с элементами ФИО персоны или наименованием организации в поисковую машину, а затем разгребают вываленную “кучу мусора”, поскольку поисковик не способен точно распознать большинство фамилий и наименований, не говоря уже об отборе и структурировании связанной с ними информации. Нам бы хотелось заполнить такую брешь в сфере поисковых систем, для чего мы выводим на рынок принципиально новую систему, основанную не на документальном, а на фактографическом поиске.

Очень много реализовано нами в ядре программы, начиная от алгоритмов выделения наименований организаций и персон, отождествления их полных, кратких и косвенных наименований, местоимений, до механизмов синтаксического разбора и поиска изоморфизмов в семантических сетях. Тем не менее, пользовательский интерфейс программы выглядит достаточно просто – отчет в виде таблицы найденных фактов. Экспорт результатов также весьма примитивен. Но удобство, как говорится, дело наживное. Программа же выполняет главное – превращает “сырой” текст в структурированные и типизированные данные – разложенные по полочкам факты для таблиц БД. И на сегодняшний день сделать этого не способна ни одна другая программа!

Конечно же, мы планируем развивать функционал по просмотру, фильтрации и экспорту полученных фактов. Мы, безусловно, планируем интеграцию нашего продукта с системами обработки знаний других производителей, что позволило бы полноценно использовать математические методы для анализа найденных нами фактов в совокупности. Но, в первую очередь, при развитии продукта мы будем опираться на отзывы, пожелания и нарекания со стороны наших новых пользователей, появления которых мы ожидаем в ближайшее время”.


Ньюсмейкер: Гарант-Парк — 11 публикаций
Поделиться:

Интересно:

06.02.2026 22:19 Консультации
ГИГАНТ: продление жизни зарубежных серверов стало тупиковой стратегией
О том, почему ремонт и поддержка импортных серверов больше не дают реальной экономии, какие риски накапливаются в инфраструктуре и почему все больше компаний осознанно переходят на отечественные серверные платформы, рассказывает Дмитрий Пустовалов, директор департамента обеспечения и развития компании «ГИГАНТ — Компьютерные системы». Насколько ремонт и продление срока службы зарубежного серверного оборудования сегодня экономически оправданы по сравнению с обновлением инфраструктуры?  С точки зрения долгосрочной экономики и управляемости ИТ-инфраструктуры - не оправданы. Переход на российские серверные решения сегодня является самым рациональным и правильным сценарием для большинства заказчиков. Ремонт и продление срока службы зарубежного оборудования, установленного до 2022 года, создают лишь иллюзию экономии. На практике компании фиксируют себя в зоне повышенных технологических и...
06.02.2026 22:17 Интервью, мнения
UDV Group: рекомендации по внедрению системы кибербезопасности
Эксперты UDV Group поделились в статье практическими рекомендациями по построению эффективной промышленной кибербезопасности — от архитектуры внедрения и управления рисками до интеграции ИТ- и OT-систем и оценки реальной эффективности защитных решений. Количество кибератак на промышленные предприятия продолжает расти, и под угрозой оказываются уже не только информационные ресурсы, но и технологические процессы. Остановки производственных линий, подмена кода программируемых логических контроллеров (ПЛК), вмешательство в системы управления объектами критической инфраструктуры предприятий — это давно не гипотетические сценарии, а кейсы, с которыми сталкиваются предприятия реального сектора экономики. Компании осознают необходимость выстраивания информационной защиты, но при переходе к реализации стратегии кибербезопасности сталкиваются с системными трудностями: необходимостью выбора из...
Как строили дома на Руси?
05.02.2026 15:16 Аналитика
Как строили дома на Руси?
Одним из самых уважаемых ремесел в прошлом считалось плотницкое дело. До конца XVII столетия наши предки строили преимущественно деревянные дома. Причем само слово «строить» использовали редко, говорили – «срубить избу». Считалось, что опытный плотник справится с этой задачей, имея в своем распоряжении один топор. На самом деле все было несколько сложнее: перед началом строительства долго искали место для будущей избы, тщательно выбирали самые крепкие деревья, а также до мелочей продумывали облик жилища. На поиски материала   Избы чаще всего делались из ели, сосны и лиственницы. Они хорошо укладывались в сруб, могли подолгу сохранять тепло и не прогнивали. Из дуба изготавливали те части жилища, которые могли прийти в негодность быстрее всего – это двери и окна. Выбор «правильного» дерева был настоящей наукой. На поиски подходящего материала шли в спокойный и тихий лес...
PUNKT E подвел итоги 2025 года: рост с опережением рынка
03.02.2026 13:31 Новости
PUNKT E подвел итоги 2025 года: рост с опережением рынка
Российский рынок электромобилей продолжает устойчивый рост, сопровождающийся развитием зарядной инфраструктуры. По итогам 2025 года крупнейшая частная сеть зарядных станций для электромобилей в России PUNKT E увеличила количество станций на 57%, расширила географию присутствия до 42 регионов и внедрила ряд технологических решений, направленных на повышение доступности и надёжности зарядки для частных и корпоративных пользователей.   Общее число публичных зарядных станций в стране превысило 6,5 тыс., при этом более 10% от общего количества приходится на сеть PUNKT E. В крупных городах зарядная инфраструктура уже позволяет комфортно использовать электромобили и совершать поездки между регионами, а также способствует росту доли электротранспорта в корпоративных автопарках и такси.  Рынок электромобилей: динамика и инфраструктура  Доля электромобилей и подзаряжаемых...
31.01.2026 21:17 Интервью, мнения
ГИГАНТ: технологический сбор — инструмент поддержки микроэлектроники
Дмитрий Пустовалов, директор департамента обеспечения и развития компании «ГИГАНТ Компьютерные системы», ответил на вопросы Российской газеты о том, какие категории продукции сильнее всего отреагируют ростом цен на введение технологического сбора, каким может быть его системное влияние на рынок радиоэлектроники и микроэлектроники, насколько значимой окажется потенциальная сумма государственной поддержки и при каких условиях сам сбор действительно сможет принести отрасли практическую пользу. В интервью он в частности отметил: “Если рассматривать потенциальное удорожание продукции на 2–3 % из-за введения технологического сбора, то в масштабах сегодняшнего рынка это скорее умеренное колебание. На фоне ценовых скачков, возникающих из-за дефицитов, санкционных ограничений или разрывов цепочек поставок, такая надбавка выглядит управляемой и предсказуемой. То есть сам по себе сбор не...