Международная конференция в ЙоханнесбургеThe alt attribute of the image

В конце прошлого года в Йоханнесбурге состоялась международная конференция по расследовательской журналистике 10th Global Investigative Journalism Conference, проводимая Всемирным консорциумом журналистов-расследователей, в которой принял участие я, сооснователь «Диссернета» Андрей Заякин.

Полагаю, что всем активистам, волонтерам, экспертам, репортерам и
аналитикам сообщества «Диссернет» будут полезны следующие инструменты, с
которыми я познакомился в ходе лекций и мастер-классов на данной
конференции:

1. Чрезвычайно полезная для «Диссернета» вещь: бесплатный онлайн/оффлайн
инструмент для извлечения таблиц из pdf — "Табула".

1.1. У нас в "раскрасках" таблицы довольно часто повреждаются, и идут в
строчку, из-за этого они не всегда отождествляются одна с другой.
При этом таблицы являются одним из важнейших элементов выявления
подлога в диссертациях по экономике. Это является одной из основных
проблем Экспертных советов по экономике, о чем мы писали во Втором Докладе «Диссернета». До сих пор их сравнение приходилось проводить построчно, что
затрудняло анализ. Теперь есть возможность сравнивать таблицы в
отсканированных документах целиком с сохранением их структуры.

1.2. Приказы Минобрнауки о присвоении степеней, о составе
диссоветов, Экспертных советов также содержат таблицы, которые
хотелось бы извлекать именно как таблицы, а не текст в строчку. Это
позволит нам с помощью http://tabula.technology/ провести
автоматизированную обработку десятков тысяч записей о присуждении
ученых степеней.

2. На конференции я познакомился с удобными интерфейсами для
построения графов, демонстрирующих аффилированность. Так, существует
бесплатный инструмент для рисования мафиозных сетей
https://vis.occrp.org/, который в практике «Диссернета» следует активно
использовать для изображения сетей диссероделов. Для тех же целей
служит https://gephi.org/.

3. Очистка данных от дубликатов, спецсимволов и прочего цифрового
мусора удобно достигается ресурсом http://openrefine.org/, о котором я
узнал на конференции. Этот инструмент важен для исправления больших
баз данных, которые заполнялись руками и в которых накопились ошибки,
в частности, Генерального каталога диссернета, базы персоналий, базы
журнальных публикаций.

4. Для автоматического изучения библиотечных каталогов удобен
инструмент для анализа и выкачивания (не очень больших, если
использовать free trial) массивов и одновременной очистки от мусора и
сшивания воедино табличных данных из реестров итп.
https://www.import.io/

5. Много скрытых полезных вещей имеется в документах google, которые
следует более широко использовать в повседневной практике «Диссернета»:

5.1 Инструмент, с помощью которого можно вытаскивать таблицы из .html
автоматически например таким вот скриптом: =IMPORTHTML("http://wiki.dissernet.org/wsave/AhmedhanovMR2012.html","table",4)

5.2. Еще есть очень продвинутые гуглотаблицы google fusion
https://support.google.com/fusiontables/answer/2571232

Автор благодарит устроителей конференции за полезное и плодотворное мероприятие.

Международная конференция в ЙоханнесбургеThe alt attribute of the image

Trending Articles

Книга: руководство / инструкция по ремонту и эксплуатации CHERY QQ (ЧЕРИ...

Профессиональная астрология. Астрологическое консультирование и сопровождение...

Контакты представительств зарубежных авиакомпаний в Казахстане

GFI KerioControl 9.x (Часть 7) (5410) / Программный межсетевой экран NG...

Книга: руководство / инструкция по ремонту и эксплуатации OPEL VECTRA A...

1С 8.3 hasp emulator linux (46) / Решения по взлому лицензий на линуксе 8.3

The Pepper Porter Band - Invasion 1980

Посещаемость - Python для начинающих

0on3 Clean Tele

Департамент внутренних дел Павлодарской области

ДЕПАРТАМЕНТ АГЕНТСТВА ПО ПРОТИВОДЕЙСТВИЮ КОРРУПЦИИ (АНТИКОРРУПЦИОННОЙ СЛУЖБЫ)...

І. Пташнікаў. “Арчыбал”. Кароткі змест

ОЛИМПИАДАНЫ ТҮП-ТАМЫРЫНАН ӨЗГӨРТҮҮ КЕРЕК

Книга: руководство / инструкция по ремонту и эксплуатации HONDA CIVIC 5D...

HP Smart Array Advanced Pack (51) / license key wanted

MSO 2013 и "конфигурация операционной системы не рассчитана на запуск этого...

Помогите найти Geomprops for AutoCAD 2020 [3]

Готовая выкройка платья в пол

Autodesk FeatureCAM Ultimate 2019.0.0.359x64 [MULTILANG+RUS] #софт #software...

Ошибка удалённого приложения RemoteApp